ChatGPT — это размытый JPEG веба.

Хорошее определение: ChatGPT — это размытый JPEG веба.

Представьте, что вы вот-вот потеряете доступ к интернету навсегда.

Вы планируете создать сжатую копию всего текста в интернете, чтобы хранить ее на частном сервере. К сожалению, у вас есть только 1% от необходимого места; вы не можете использовать алгоритм сжатия без потерь, если хотите, чтобы все поместилось. Вы пишете алгоритм сжатия с потерями, который выявляет статистические закономерности в тексте и сохраняет их в специализированном формате. Поскольку у вас есть практически неограниченная вычислительная мощность для решения этой задачи, теперь потеря доступа к интернету не так уж и ужасна; вся информация хранится на вашем сервере.

Единственная загвоздка в том, что, поскольку текст был сильно сжат, вы не можете искать информацию по точной цитате; вы никогда не получите точное совпадение потому что хранятся не слова. Чтобы решить эту проблему, вы создаете интерфейс, который принимает вопросы и выдает ответы, передающие суть того, что у вас есть на вашем сервере.

То, что я описал, очень похоже на ChatGPT или любую другую большую языковую модель. Подумайте о ChatGPT как о размытом JPEG-файле всех текстов в интернете. Он хранит большую часть информации из интернета точно так же, как JPEG сохраняет большую часть информации изображения с более высоким разрешением, но если вы ищете точную последовательность битов, вы ее не найдете; все, что вы получите — это приближение. Но поскольку приближение представлено в виде грамматически корректного текста, который ChatGPT умеет создавать отлично, обычно это приемлемо. Вы все еще смотрите на размытый JPEG, но размытость происходит таким образом, что изображение в целом не выглядит менее четким.

Эта аналогия со сжатием с потерями — не просто способ понять способность ChatGPT переупаковывать информацию, найденную в интернете, с использованием других слов. Это также способ понять «галлюцинации» или бессмысленные ответы на фактические вопросы, которым слишком подвержены большие языковые модели, такие как ChatGPT. Эти галлюцинации являются артефактами сжатия.