Производители крупных моделей начали соревнование в технологии длинных текстов, 400000 токенов могут быть только началом
Большие модели стремительно расширяют свои возможности по обработке длинных текстов. Увеличение этой способности с 4000 до 400000 токенов можно охарактеризовать как "на глаз видно".
Способность обрабатывать длинные тексты, похоже, стала новой нормой для производителей больших моделей. На международной арене OpenAI после нескольких обновлений увеличила длину контекста для GPT-3.5 и GPT-4 до 16 000 и 32 000 токенов соответственно. Его основной конкурент Anthropic значительно увеличил длину контекста до 100 000 токенов. LongLLaMA же подняла это число до 256 000 токенов и даже больше.
На внутреннем рынке стартап компании Moon's Dark Side под названием Kimi Chat поддерживает ввод 200000 иероглифов, что примерно соответствует 400000 токенам. Технология LongLoRA, разработанная совместно Университетом китайского языка в Гонконге и MIT, позволяет увеличить длину текста 7B модели до 100000 токенов, а 70B модели - до 32000 токенов.
В настоящее время множество ведущих компаний и исследовательских учреждений в области крупных моделей, включая OpenAI, Anthropic, Meta и Лунную Темную Сторону, делают акцент на расширении длины контекста как на приоритетном направлении обновления. Эти компании без исключения пользуются вниманием со стороны фондового рынка.
OpenAI привлекла почти 12 миллиардов долларов инвестиций; последняя оценка Anthropic может достигнуть 30 миллиардов долларов; оценка Moon's Dark Side, существующей лишь полгода, уже превысила 300 миллионов долларов, и она завершила финансирование почти на 2 миллиарда юаней.
Почему компании, занимающиеся большими моделями, так сильно акцентируют внимание на технологиях длинного текста? Что означает увеличение длины контекста в 100 раз?
На первый взгляд, это означает, что модель может обрабатывать более длинные текстовые входы, а способность к чтению значительно увеличилась. Но более глубокий смысл заключается в том, что технологии длинных текстов способствуют внедрению больших моделей в профессиональные области, такие как финансы, юстиция, научные исследования и т.д. Способности к аннотации длинных документов, пониманию прочитанного и ответам на вопросы являются именно теми направлениями, которые требуют интеллектуального обновления в этих областях.
Однако, подобно параметрам модели, длина текста не всегда означает лучшее качество. Исследования показывают, что увеличение длины входного контекста модели и повышение эффективности не всегда идут рука об руку. Ключевым моментом является то, как модель эффективно использует содержимое контекста.
В настоящее время исследования по длине текста в отрасли еще далеки от предела. 400 000 токенов может быть только началом, компании с крупными моделями в стране и за границей продолжают постоянно преодолевать эту границу.
Почему нужно "скручивать" длинный текст?
Основатель "Тёмной стороны Луны" Ян Чжилинь заявил, что именно из-за ограниченной длины ввода больших моделей возникли трудности с их применением. Это также является причиной, по которой многие компании, разрабатывающие большие модели, сейчас сосредоточены на технологиях длинного текста.
Например, в сценах с виртуальными персонажами из-за недостаточной способности к обработке длинного текста персонажи могут забывать важную информацию; при разработке игр в жанре "убийство в сценарии" недостаточная длина ввода приводит к необходимости сокращения правил и установок; в таких профессиональных областях, как право и финансы, глубокий анализ и генерация содержимого часто сталкиваются с препятствиями.
На пути к будущим приложениям, основанным на Agent и AI, длинные тексты по-прежнему играют важную роль. Запуск задач Agent требует опоры на историческую информацию для принятия плановых решений, тогда как приложения, основанные на AI, нуждаются в контексте для поддержания последовательного и персонализированного пользовательского опыта.
Ян Чжилинь считает, что предел больших моделей определяется как способностью за один шаг, так и количеством шагов выполнения, при этом способность за один шаг положительно коррелирует с количеством параметров, а количество шагов выполнения соответствует длине контекста.
Технология длинного текста не только может решить некоторые проблемы, с которыми сталкиваются большие модели на начальном этапе, и улучшить определенные функции, но и является ключевой технологией для дальнейшего продвижения отрасли и применения. Это также косвенно указывает на то, что универсальные большие модели переходят на новый этап от LLM к Long LLM.
С помощью нового Kimi Chat, опубликованного через темную сторону Луны, мы можем заглянуть в обновленные функции модели Long LLM.
Во-первых, это способность извлекать, обобщать и анализировать ключевую информацию из очень длинных текстов. Например, быстро анализировать основные идеи статей в официальных аккаунтах, извлекать ключевую информацию из финансовых отчетов и представлять её в виде таблицы, или проводить вопросно-ответный анализ целой книги.
В коде можно реализовать прямое преобразование текста в код, даже воспроизвести процесс генерации кода на основе статьи.
В длинных диалогах чат-бот может реализовать ролевую игру, вводя данные о публичных личностях, настраивая тон и характер, чтобы осуществить диалог один на один с конкретным человеком.
Эти примеры показывают, что разговорные роботы движутся в сторону специализации, персонализации и углубления, что, возможно, является еще одним рычагом для внедрения в индустрию и создания супер-приложений.
Ян Чжилин считает, что, в отличие от OpenAI, который предлагает только один продукт ChatGPT, Темная сторона Луны нацелена на создание следующего супер-приложения для конечного пользователя: с прорывом в технологии длинного текста, на основе универсальной модели будут развиваться несколько приложений.
Он считает, что рынок крупных моделей в стране разделится на два лагеря: toB и toC, и в лагере toC появятся суперприложения на основе собственных моделей.
Дилемма "невозможного треугольника" длинного текста
В области длинных текстов существует "невозможный треугольник" длины текста, внимания и вычислительной мощности. Это проявляется в том, что: чем длиннее текст, тем сложнее сосредоточить достаточное внимание; при ограничении внимания короткие тексты не могут полностью интерпретировать сложную информацию; обработка длинных текстов требует значительных вычислительных ресурсов, что увеличивает стоимость.
Корень этой проблемы заключается в том, что существующие крупные модели в основном основаны на структуре Transformer. Хотя механизм самовнимания в этой структуре позволяет модели преодолевать ограничения последовательности входной информации, вычислительная нагрузка будет расти как квадрат длины контекста.
Это составляет первую группу противоречий в "необходимом треугольнике" - длина текста и внимание, также в корне объясняет причины, по которым технологии длинных текстов больших моделей трудно преодолеть.
В то же время вычислительная мощность всегда была дефицитным ресурсом. Независимо от того, увеличиваются ли параметры модели или длина текста, необходимо учитывать потребление вычислительной мощности. Это создает вторую группу противоречий между длиной текста и вычислительной мощностью.
В настоящее время существует три основных решения:
Используйте внешние инструменты для обработки длинных текстов, например, разбивайте длинные тексты на несколько коротких для обработки.
Оптимизация вычислений механизма самовнимания, например, технология LongLoRA разбивает длинные тексты на разные группы для вычислений.
Оптимизация модели, например, LongLLaMA реализует экстраполяцию на более длинные последовательности через дообучение.
Долгосрочная "треугольная" дилемма может быть временно трудно разрешима, но это также четко определяет путь исследования производителей больших моделей: искать оптимальный баланс между длиной текста, вниманием и вычислительной мощностью, чтобы обработать достаточное количество информации, а также учитывать ограничения по вычислительным затратам и вниманию.
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
21 Лайков
Награда
21
7
Репост
Поделиться
комментарий
0/400
Rekt_Recovery
· 21ч назад
бычий на прирост токенов... хотел бы, чтобы мой портфель мог пампиться как эти цифры fr fr
Посмотреть ОригиналОтветить0
ForkTrooper
· 08-11 05:57
Производительность накрутки не останавливается, когда же мы сможем достичь уровня в миллион?
Посмотреть ОригиналОтветить0
rugged_again
· 08-11 04:18
Игроки продолжают вращать, токен-партия обязательно победит
Посмотреть ОригиналОтветить0
OnchainDetective
· 08-09 23:45
Хе-хе, технические соревнования кажутся дружелюбными, но за ними явно стоит цепочка отмывания денег через вычислительную мощность, типичное противостояние сжигания денег.
Посмотреть ОригиналОтветить0
ApeWithAPlan
· 08-09 23:42
Это опять соревнование по накоплению чисел, и в чем его смысл?
Посмотреть ОригиналОтветить0
RugPullProphet
· 08-09 23:34
Эта волна маленькая фабрика не выдержит, да?
Посмотреть ОригиналОтветить0
AirdropFreedom
· 08-09 23:32
Немного заработал 50w долларов ~ либо неудачники, либо Майнеры. С самого начала играл и до сих пор все время гонюсь за прибылью.
Сгенерируйте комментарий на указанном языке: китайский.
Я не хочу гоняться за токенами, никогда не догоню~
Конкурс длинных текстов по большим моделям обновляется, 400000 токенов могут стать новой вехой.
Производители крупных моделей начали соревнование в технологии длинных текстов, 400000 токенов могут быть только началом
Большие модели стремительно расширяют свои возможности по обработке длинных текстов. Увеличение этой способности с 4000 до 400000 токенов можно охарактеризовать как "на глаз видно".
Способность обрабатывать длинные тексты, похоже, стала новой нормой для производителей больших моделей. На международной арене OpenAI после нескольких обновлений увеличила длину контекста для GPT-3.5 и GPT-4 до 16 000 и 32 000 токенов соответственно. Его основной конкурент Anthropic значительно увеличил длину контекста до 100 000 токенов. LongLLaMA же подняла это число до 256 000 токенов и даже больше.
На внутреннем рынке стартап компании Moon's Dark Side под названием Kimi Chat поддерживает ввод 200000 иероглифов, что примерно соответствует 400000 токенам. Технология LongLoRA, разработанная совместно Университетом китайского языка в Гонконге и MIT, позволяет увеличить длину текста 7B модели до 100000 токенов, а 70B модели - до 32000 токенов.
В настоящее время множество ведущих компаний и исследовательских учреждений в области крупных моделей, включая OpenAI, Anthropic, Meta и Лунную Темную Сторону, делают акцент на расширении длины контекста как на приоритетном направлении обновления. Эти компании без исключения пользуются вниманием со стороны фондового рынка.
OpenAI привлекла почти 12 миллиардов долларов инвестиций; последняя оценка Anthropic может достигнуть 30 миллиардов долларов; оценка Moon's Dark Side, существующей лишь полгода, уже превысила 300 миллионов долларов, и она завершила финансирование почти на 2 миллиарда юаней.
Почему компании, занимающиеся большими моделями, так сильно акцентируют внимание на технологиях длинного текста? Что означает увеличение длины контекста в 100 раз?
На первый взгляд, это означает, что модель может обрабатывать более длинные текстовые входы, а способность к чтению значительно увеличилась. Но более глубокий смысл заключается в том, что технологии длинных текстов способствуют внедрению больших моделей в профессиональные области, такие как финансы, юстиция, научные исследования и т.д. Способности к аннотации длинных документов, пониманию прочитанного и ответам на вопросы являются именно теми направлениями, которые требуют интеллектуального обновления в этих областях.
Однако, подобно параметрам модели, длина текста не всегда означает лучшее качество. Исследования показывают, что увеличение длины входного контекста модели и повышение эффективности не всегда идут рука об руку. Ключевым моментом является то, как модель эффективно использует содержимое контекста.
В настоящее время исследования по длине текста в отрасли еще далеки от предела. 400 000 токенов может быть только началом, компании с крупными моделями в стране и за границей продолжают постоянно преодолевать эту границу.
Почему нужно "скручивать" длинный текст?
Основатель "Тёмной стороны Луны" Ян Чжилинь заявил, что именно из-за ограниченной длины ввода больших моделей возникли трудности с их применением. Это также является причиной, по которой многие компании, разрабатывающие большие модели, сейчас сосредоточены на технологиях длинного текста.
Например, в сценах с виртуальными персонажами из-за недостаточной способности к обработке длинного текста персонажи могут забывать важную информацию; при разработке игр в жанре "убийство в сценарии" недостаточная длина ввода приводит к необходимости сокращения правил и установок; в таких профессиональных областях, как право и финансы, глубокий анализ и генерация содержимого часто сталкиваются с препятствиями.
На пути к будущим приложениям, основанным на Agent и AI, длинные тексты по-прежнему играют важную роль. Запуск задач Agent требует опоры на историческую информацию для принятия плановых решений, тогда как приложения, основанные на AI, нуждаются в контексте для поддержания последовательного и персонализированного пользовательского опыта.
Ян Чжилинь считает, что предел больших моделей определяется как способностью за один шаг, так и количеством шагов выполнения, при этом способность за один шаг положительно коррелирует с количеством параметров, а количество шагов выполнения соответствует длине контекста.
Технология длинного текста не только может решить некоторые проблемы, с которыми сталкиваются большие модели на начальном этапе, и улучшить определенные функции, но и является ключевой технологией для дальнейшего продвижения отрасли и применения. Это также косвенно указывает на то, что универсальные большие модели переходят на новый этап от LLM к Long LLM.
С помощью нового Kimi Chat, опубликованного через темную сторону Луны, мы можем заглянуть в обновленные функции модели Long LLM.
Во-первых, это способность извлекать, обобщать и анализировать ключевую информацию из очень длинных текстов. Например, быстро анализировать основные идеи статей в официальных аккаунтах, извлекать ключевую информацию из финансовых отчетов и представлять её в виде таблицы, или проводить вопросно-ответный анализ целой книги.
В коде можно реализовать прямое преобразование текста в код, даже воспроизвести процесс генерации кода на основе статьи.
В длинных диалогах чат-бот может реализовать ролевую игру, вводя данные о публичных личностях, настраивая тон и характер, чтобы осуществить диалог один на один с конкретным человеком.
Эти примеры показывают, что разговорные роботы движутся в сторону специализации, персонализации и углубления, что, возможно, является еще одним рычагом для внедрения в индустрию и создания супер-приложений.
Ян Чжилин считает, что, в отличие от OpenAI, который предлагает только один продукт ChatGPT, Темная сторона Луны нацелена на создание следующего супер-приложения для конечного пользователя: с прорывом в технологии длинного текста, на основе универсальной модели будут развиваться несколько приложений.
Он считает, что рынок крупных моделей в стране разделится на два лагеря: toB и toC, и в лагере toC появятся суперприложения на основе собственных моделей.
Дилемма "невозможного треугольника" длинного текста
В области длинных текстов существует "невозможный треугольник" длины текста, внимания и вычислительной мощности. Это проявляется в том, что: чем длиннее текст, тем сложнее сосредоточить достаточное внимание; при ограничении внимания короткие тексты не могут полностью интерпретировать сложную информацию; обработка длинных текстов требует значительных вычислительных ресурсов, что увеличивает стоимость.
Корень этой проблемы заключается в том, что существующие крупные модели в основном основаны на структуре Transformer. Хотя механизм самовнимания в этой структуре позволяет модели преодолевать ограничения последовательности входной информации, вычислительная нагрузка будет расти как квадрат длины контекста.
Это составляет первую группу противоречий в "необходимом треугольнике" - длина текста и внимание, также в корне объясняет причины, по которым технологии длинных текстов больших моделей трудно преодолеть.
В то же время вычислительная мощность всегда была дефицитным ресурсом. Независимо от того, увеличиваются ли параметры модели или длина текста, необходимо учитывать потребление вычислительной мощности. Это создает вторую группу противоречий между длиной текста и вычислительной мощностью.
В настоящее время существует три основных решения:
Используйте внешние инструменты для обработки длинных текстов, например, разбивайте длинные тексты на несколько коротких для обработки.
Оптимизация вычислений механизма самовнимания, например, технология LongLoRA разбивает длинные тексты на разные группы для вычислений.
Оптимизация модели, например, LongLLaMA реализует экстраполяцию на более длинные последовательности через дообучение.
Долгосрочная "треугольная" дилемма может быть временно трудно разрешима, но это также четко определяет путь исследования производителей больших моделей: искать оптимальный баланс между длиной текста, вниманием и вычислительной мощностью, чтобы обработать достаточное количество информации, а также учитывать ограничения по вычислительным затратам и вниманию.
Сгенерируйте комментарий на указанном языке: китайский.
Я не хочу гоняться за токенами, никогда не догоню~