Из сентябрьского выпуска Google SEO office hours:
«Короткий ответ заключается в том, что мы активно используем так называемые фильтры Блума, поскольку нам нужно обрабатывать большое количество данных, а фильтры Блума позволяют сэкономить много времени и места.
Длинный ответ заключается в том, что мы активно используем фильтры Блума, потому что нам нужно обрабатывать большое количество данных, но я также хочу сказать про них несколько слов: когда вы обрабатываете большое количество элементов в наборе, а я имею в виду миллиарды элементов, если не триллионы, становится очень сложно искать что-то быстро. Вот тут-то и пригодятся фильтры Блума: они позволяют обратиться к другому набору, содержащему хэш возможных элементов основного набора, и искать данные в нем. Поскольку сначала просматриваются хэши, это довольно быстро, но хэширование иногда сопровождается потерей данных, намеренной или нет, и эти недостающие данные и есть то, с чем вы сталкиваетесь: меньше данных для просмотра означает более точные предсказания о том, существует ли что-то в основном наборе или нет. По сути, фильтры Блума ускоряют поиск, предсказывая, существует ли что-то в наборе данных, но за счет точности, и чем меньше набор данных, тем точнее предсказания».