Что мы узнали из утечки документации Google Поиска?

Тезисы из поста Майка Кинга.

— системы Google работают в монолитном репозитории («монорепо»), а машины работают в общей среде — это означает, что весь код хранится в одном месте и любая машина в сети может быть частью любой системы Google
— публичные заявления Google, вероятно, не являются намеренной попыткой лгать, а скорее обманывают потенциальных спамеров (а также многих «белых» SEO-специалистов), чтобы сбить с толку о том, как оказать влияние на результаты поиска
— существует функция под названием siteAuthority — авторитетность домена, она используется в системе ранжирования Q*
— в Navboost есть специальный модуль, полностью ориентированный на сигналы о кликах:
badClicks — плохие клики
goodClicks — хорошие клики
lastLongestClicks — последние длинные клики
unsquashedClicks — несжатые клики
unsquashedImpressions — несжатые показы
unsquashedlastLongestClicks — несжатые последние длинные клики

«Сжатие — это функция, которая предотвращает доминирование одного большого сигнала над другими».
Другими словами, это нормализация данных.

— песочница: в документации модуля PerDocData указан атрибут hostAge, который используется специально «для изолирования свежего спама»
— Navboost упоминается 84 раза, в т.ч. в названии 5 модулей
— Google не упоминает CTR или время пребывания (dwell time) именно в такой формулировке, но явно используются клики по результатам поиска и показатели успешного визита из поиска
— один из модулей, связанных с показателями качества страниц, получает просмотры из браузера Chrome
— Google явно сохраняет авторов, связанных с документом, в виде текста; они также пытаются определить, является ли объект на странице ее автором
— cуществует целый ряд показателей выявления всплесков спама в анкор-листе (AnchorSpamDays)
— Google использует 20 последних изменений документа при анализе ссылок
— оценка ссылки производится исходя из степени доверия к главной странице (homePageInfo)
— усечение документов: Google подсчитывает количество токенов и отношение общего количества слов в тексте к количеству уникальных токенов (numTokens)
— происходит оценка оригинальности короткого контента (OriginalContentScore)
— происходит оценка соответствия title запросу (titleMatchScore)
— даты важны: Google несколько раз пытается получить даты со страницы (bylineDate, SyntacticDate, semanticDate)
— используется информация из whois домена (RegistrationInfo)
— если более 50% страниц сайта содержит видео, к нему относятся по-другому (isVideoFocusedSite)
— у Google есть классификаторы, которые генерируют оценки для YMYL Health и YMYL News (ymylNewsScore)
— существуют документы золотого стандарта: в описании упоминаются «документы, размеченные человеком» (golden)
— есть фактор, определяющий, насколько сайт придерживается одной темы (SiteFocusScore)
— есть специальный флаг, который указывает, что сайт является «небольшим персональным сайтом» (smallPersonalSite).

— флаги isCovidLocalAuthority и isElectionAuthority позволяют предположить, что Google вносит в белый список определенные домены, которые подходят для показа по спорным или потенциально проблемным запросам (коронавирус, выборы)

— Google учитывает средневзвешенный размер шрифта в документах (avgTermWeight, fontsize)

— про Пингвин: во многих модулях, связанных с анкорами, понятие «локальный» означает тот же сайт. Название droppedLocalAnchorCount предполагает, что некоторые внутренние ссылки не учитываются

— Google строит векторы страницы и сайта в целом и сравнивает представления (embeddings) страниц с представлениями сайтов, чтобы увидеть, насколько страница не по теме.