Многоуровневая система сканирования Googlebot

Теория Барри Адамса (https://www.seoforgooglenews.com/p/optimise-for-first-crawl), он предупреждает, что официальных подтверждений этому нет.

Googlebot, независимо от своих юзер-агентов, на самом деле является многоуровневой системой с по меньшей мере тремя различными процессами сканирования:

1) Realtime Crawler — краулер в режиме реального времени, который выполняет наиболее агрессивный процесс сканирования VIP-страниц — страниц с высокой ценностью, которые имеют много входящих ссылок, часто меняются и регулярно и неизменно отображаются на первой странице результатов поиска. Это главные страницы новостных сайтов, Amazon.com, порталы объявлений и другие страницы, которые пользуются большой популярностью и имеют большой оборот контента.

Как только Realtime Crawler находит новый URL и сканирует его, он передает его второму процессу — Regular Crawler.
Повторное сканирование этих URL с целью выявления изменений остается за обычным краулером.

2) Regular Crawler — обычный краулер — основной процесс Google, выполняющий большую часть работы.

3) Legacy Crawler — процесс, который фокусируется на неважных и устаревших страницах.

Вначале регулярный краулер будет обращаться к URL, особенно если в статье были сделаны изменения. Но через некоторое время, через несколько месяцев, нет смысла продолжать обращаться к статье.

Legacy Crawler будет время от времени пересматривать статью, даже если нет никаких сигналов о том, что статью следует пересмотреть.

Legacy Crawler также пересматривает URL’ы, которые когда-то содержали контент, но теперь выдают ошибку 404 Not Found или 410 Gone. Гугл хочет убедиться, что эти ошибки сохранились и URL не был восстановлен, поэтому он иногда пересматривает эти старые URL, чтобы убедиться, что там по-прежнему отображается ошибка Page Not Found.