Большой скачок в способности длинного текста больших моделей: от 4000 до 400000 токенов
Большие модели стремительно повышают свои способности к обработке длинных текстов. Переход от первоначальных 4000 токенов до сегодняшних 400000 токенов знаменует собой значительный прогресс искусственного интеллекта в обработке сложной информации.
На международной арене OpenAI многократно обновляла модель GPT, увеличив длину контекстного ввода с 4000 до 32000 токенов. В то же время, Anthropic значительно увеличила длину контекста до 100000 токенов. LongLLaMA даже довела это число до 256000 токенов и даже выше.
В стране новая компания по разработке больших моделей "Темная сторона Луны" выпустила Kimi Chat, который поддерживает ввод текста объемом около 400 тысяч токенов. Технология LongLoRA, разработанная совместно Китайским университетом и MIT, также может увеличить длину текста для модели 7B до 100 тысяч токенов.
В настоящее время многие ведущие компании по разработке больших моделей и исследовательские учреждения, включая OpenAI, Anthropic, Meta и Лунную Темную Сторону, делают акцент на расширении длины контекста как ключевом направлении развития. Эти компании в целом пользуются популярностью на финансовых рынках, их стоимость неуклонно растет.
Повышение способности к обработке длинных текстов имеет огромное значение. Это не только расширяет диапазон чтения модели, от коротких текстов до длинных романов и даже крупных произведений, но и способствует применению больших моделей в таких профессиональных областях, как финансы, право и наука. Технология длинных текстов помогает повысить способности извлечения и анализа информации, а также уменьшить вероятность появления у модели галлюцинаций.
Однако длина текста не всегда является хорошим показателем. Исследования показывают, что эффективное использование контекста важнее, чем простое стремление к длине. В настоящее время в отрасли продолжаются исследования технологий длинных текстов, и 400000 токенов может быть лишь началом.
Развитие технологий длинных текстов сталкивается с проблемой "невозможного треугольника": трудно одновременно учитывать длину текста, распределение внимания и требования к вычислительной мощности. Это в основном связано с тем, что вычислительная сложность механизма самовнимания в структуре Transformer растет в квадратной зависимости от длины контекста.
Чтобы решить эту проблему, исследователи предложили несколько оптимизационных решений:
Используйте внешние инструменты для обработки длинных текстов
Оптимизация вычислений механизма самовнимания
Использование методов оптимизации моделей
Несмотря на то, что обработка длинного текста по-прежнему представляет собой проблему, это знаменует собой новый этап развития больших моделей. В будущем компании, занимающиеся большими моделями, будут искать оптимальный баланс между длиной текста, распределением внимания и потребностями в вычислительной мощности для достижения более мощных возможностей обработки длинного текста.
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
9 Лайков
Награда
9
3
Репост
Поделиться
комментарий
0/400
BlockchainBouncer
· 5ч назад
Эта волна На луну, утка.
Посмотреть ОригиналОтветить0
LayerZeroEnjoyer
· 5ч назад
Ну и прогресс, так быстро! В следующем году, вероятно, будет миллион.
Революция больших моделей: прорыв в обработке длинных текстов от 4000 до 400000 токенов
Большой скачок в способности длинного текста больших моделей: от 4000 до 400000 токенов
Большие модели стремительно повышают свои способности к обработке длинных текстов. Переход от первоначальных 4000 токенов до сегодняшних 400000 токенов знаменует собой значительный прогресс искусственного интеллекта в обработке сложной информации.
На международной арене OpenAI многократно обновляла модель GPT, увеличив длину контекстного ввода с 4000 до 32000 токенов. В то же время, Anthropic значительно увеличила длину контекста до 100000 токенов. LongLLaMA даже довела это число до 256000 токенов и даже выше.
В стране новая компания по разработке больших моделей "Темная сторона Луны" выпустила Kimi Chat, который поддерживает ввод текста объемом около 400 тысяч токенов. Технология LongLoRA, разработанная совместно Китайским университетом и MIT, также может увеличить длину текста для модели 7B до 100 тысяч токенов.
В настоящее время многие ведущие компании по разработке больших моделей и исследовательские учреждения, включая OpenAI, Anthropic, Meta и Лунную Темную Сторону, делают акцент на расширении длины контекста как ключевом направлении развития. Эти компании в целом пользуются популярностью на финансовых рынках, их стоимость неуклонно растет.
Повышение способности к обработке длинных текстов имеет огромное значение. Это не только расширяет диапазон чтения модели, от коротких текстов до длинных романов и даже крупных произведений, но и способствует применению больших моделей в таких профессиональных областях, как финансы, право и наука. Технология длинных текстов помогает повысить способности извлечения и анализа информации, а также уменьшить вероятность появления у модели галлюцинаций.
Однако длина текста не всегда является хорошим показателем. Исследования показывают, что эффективное использование контекста важнее, чем простое стремление к длине. В настоящее время в отрасли продолжаются исследования технологий длинных текстов, и 400000 токенов может быть лишь началом.
Развитие технологий длинных текстов сталкивается с проблемой "невозможного треугольника": трудно одновременно учитывать длину текста, распределение внимания и требования к вычислительной мощности. Это в основном связано с тем, что вычислительная сложность механизма самовнимания в структуре Transformer растет в квадратной зависимости от длины контекста.
Чтобы решить эту проблему, исследователи предложили несколько оптимизационных решений:
Несмотря на то, что обработка длинного текста по-прежнему представляет собой проблему, это знаменует собой новый этап развития больших моделей. В будущем компании, занимающиеся большими моделями, будут искать оптимальный баланс между длиной текста, распределением внимания и потребностями в вычислительной мощности для достижения более мощных возможностей обработки длинного текста.