Как работают большие языковые модели (LLM)?

«В сущности, все модели неправильны, но некоторые из них полезны» — Джордж Бокс

Избранное из статьи Introduction to LLMs.

Языковые модели не «понимают» язык так, как это делают люди, они просто моделируют его посредством наблюдаемых закономерностей в тексте.

При ответственном использовании и для решения подходящих задач LLM обладают потенциалом расширить возможности людей в беспрецедентных масштабах.

LLM — это не поисковые системы. Они не выполняют поиск информации и не являются детерминированными (детерминированная система — это система, в которой никакая случайность не участвует в развитии будущих состояний системы). LLM генерируют рандомизированные выходные данные на основе распределения вероятностей.

LLM — не универсальное решение. Они могут случайно привести к неточностям и подходят не для всех задач. Первоначальная ошибка может каскадно привести к последующим ошибкам, учитывая то, как LLM строится на предыдущем тексте.

Язык, важнейший элемент LLM, более сложен, чем думает большинство людей. Как подчеркнула доктор Эмили Бендер во время выступления в Институте DAIR, лингвистика выступает как независимая область, а не просто подмножество ИИ. Лингвистика занимается всесторонним научным изучением языка, анализируя его структуру, историческую эволюцию и многое другое. Он включает в себя такие подполя, как фонетика, морфология, синтаксис и историческая лингвистика, чтобы разгадать языковые тонкости, подобные биологическим исследованиям.

Несмотря на то, что языковая модель способна идентифицировать статистическую структуру языка, она ни в коем случае не понимает значение или семантику языка так, как это делают люди. Вместо этого LLM генерируют текст на основе закономерностей, выявленных в обучающих данных.

LLM служат прекрасными помощниками в программировании, поскольку языки программирования намеренно созданы так, чтобы быть однозначными.

Напротив, разговорные языки невероятно неоднозначны. Слова часто имеют разные значения в зависимости от регионального, социального и культурного контекста. Более того, подлинный «смысл» — это продукт общего жизненного опыта и взаимопонимания между людьми.

LLM по сути сжимает текст обучающей выборки в многомерное скрытое пространство (multidimensional latent space), которое отображает контекстуальные отношения между словами на основе всего, что модель узнала из текста.
Это пространство имеет так много измерений (тысячи), что мы не можем представить, как оно выглядит. Чтобы представить эти пространства, нам нужно объединить их в 2D- или 3D-представления.

После того, как LLM организует текст языка в многомерное скрытое пространство, он использует эти контекстные отношения для генерации текста посредством рандомизированных выходных данных на основе распределения вероятностей.