Революция больших моделей: прорыв в обработке длинных текстов от 4000 до 400000 токенов

2025-08-13 08:39:15

Генерация тезисов в процессе

Большой скачок в способности длинного текста больших моделей: от 4000 до 400000 токенов

Большие модели стремительно повышают свои способности к обработке длинных текстов. Переход от первоначальных 4000 токенов до сегодняшних 400000 токенов знаменует собой значительный прогресс искусственного интеллекта в обработке сложной информации.

На международной арене OpenAI многократно обновляла модель GPT, увеличив длину контекстного ввода с 4000 до 32000 токенов. В то же время, Anthropic значительно увеличила длину контекста до 100000 токенов. LongLLaMA даже довела это число до 256000 токенов и даже выше.

В стране новая компания по разработке больших моделей "Темная сторона Луны" выпустила Kimi Chat, который поддерживает ввод текста объемом около 400 тысяч токенов. Технология LongLoRA, разработанная совместно Китайским университетом и MIT, также может увеличить длину текста для модели 7B до 100 тысяч токенов.

В настоящее время многие ведущие компании по разработке больших моделей и исследовательские учреждения, включая OpenAI, Anthropic, Meta и Лунную Темную Сторону, делают акцент на расширении длины контекста как ключевом направлении развития. Эти компании в целом пользуются популярностью на финансовых рынках, их стоимость неуклонно растет.

Повышение способности к обработке длинных текстов имеет огромное значение. Это не только расширяет диапазон чтения модели, от коротких текстов до длинных романов и даже крупных произведений, но и способствует применению больших моделей в таких профессиональных областях, как финансы, право и наука. Технология длинных текстов помогает повысить способности извлечения и анализа информации, а также уменьшить вероятность появления у модели галлюцинаций.

Однако длина текста не всегда является хорошим показателем. Исследования показывают, что эффективное использование контекста важнее, чем простое стремление к длине. В настоящее время в отрасли продолжаются исследования технологий длинных текстов, и 400000 токенов может быть лишь началом.

Развитие технологий длинных текстов сталкивается с проблемой "невозможного треугольника": трудно одновременно учитывать длину текста, распределение внимания и требования к вычислительной мощности. Это в основном связано с тем, что вычислительная сложность механизма самовнимания в структуре Transformer растет в квадратной зависимости от длины контекста.

Чтобы решить эту проблему, исследователи предложили несколько оптимизационных решений:

Используйте внешние инструменты для обработки длинных текстов
Оптимизация вычислений механизма самовнимания
Использование методов оптимизации моделей

Несмотря на то, что обработка длинного текста по-прежнему представляет собой проблему, это знаменует собой новый этап развития больших моделей. В будущем компании, занимающиеся большими моделями, будут искать оптимальный баланс между длиной текста, распределением внимания и потребностями в вычислительной мощности для достижения более мощных возможностей обработки длинного текста.

TOKEN5.74%

Посмотреть Оригинал

На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .

9 Лайков