Виробники великих моделей розпочали змагання з технологій довгих текстів, 400 тисяч токенів можуть бути лише початком
Великі моделі стрімко розширюють свої можливості обробки довгих текстів. Від 4000 до 400000 токенів, це підвищення можливостей можна назвати «очевидним».
Здається, що здатність обробки довгих текстів стала новим стандартом для виробників великих моделей. На міжнародному рівні OpenAI після кількох оновлень підвищила довжину контексту GPT-3.5 та GPT-4 до 16 000 і 32 000 токенів відповідно. Її головний конкурент Anthropic навіть розширив довжину контексту до 100 000 токенів. LongLLaMA підвищила це число до 256 000 токенів і навіть більше.
Внутрішня ситуація: стартап у сфері великих моделей "Темна сторона місяця" запустив Kimi Chat, який підтримує введення 200 тисяч китайських ієрогліфів, що приблизно дорівнює 400 тисячам токенів. Технологія LongLoRA, розроблена спільно Університетом китайської медицини в Гонконзі та MIT, дозволяє розширити довжину тексту 7B моделей до 100 тисяч токенів, а 70B моделей — до 32 тисяч токенів.
На сьогоднішній день кілька провідних компаній з великими моделями та дослідницькі установи, включаючи OpenAI, Anthropic, Meta та Місячний Чорний Бік, зосередилися на розширенні довжини контексту як ключовому напрямку оновлення. Ці компанії без винятку користуються популярністю на капітальних ринках.
OpenAI отримала інвестиції близько 12 мільярдів доларів; остання оцінка Anthropic може досягти 30 мільярдів доларів; оцінка Moon's Dark Side, яка була заснована лише півроку тому, вже перевищила 300 мільйонів доларів і завершила фінансування близько 2 мільярдів юанів.
Чому компанії з великими моделями надають таке велике значення технологіям довгих текстів? Що означає розширення довжини контексту в 100 разів?
На перший погляд, це означає, що модель може обробляти більш довгі текстові вводи, її читальні здібності значно зросли. Але глибший сенс полягає в тому, що технології довгих текстів сприяють впровадженню великих моделей у фінансових, юридичних, наукових та інших спеціалізованих сферах. Вміння створювати резюме довгих документів, розуміти прочитане, відповідати на запитання - це саме ті напрямки, в яких ці сфери терміново потребують інтелектуального оновлення.
Однак, подібно до параметрів моделі, довжина тексту не завжди є кращою, якщо вона більша. Дослідження показують, що підтримка моделі для більш тривалого контексту не завжди призводить до покращення ефективності. Ключовим є те, як модель ефективно використовує контент контексту.
На даний момент дослідження довжини тексту в галузі ще далеко не досягли своїх меж. 400 тисяч токенів може бути лише початком, компанії з великими моделями як в країні, так і за кордоном продовжують постійно долати цей рубіж.
Чому потрібно "скручувати" довгі тексти?
Засновник Moonlight Yang Zhilin зазначив, що саме через обмеження довжини введення великих моделей виникають труднощі з реалізацією багатьох застосунків. Це також причина, чому багато компаній, які розробляють великі моделі, нині зосереджуються на технологіях для довгих текстів.
Наприклад, у сценах віртуальних персонажів, через недостатню здатність до роботи з довгими текстами, персонажі забувають важливу інформацію; під час розробки ігор у жанрі «вбивство у сценарії» недостатня довжина вводу призводить до скорочення правил і налаштувань; у професійних сферах, таких як право та фінанси, глибокий аналіз і генерація контенту часто зазнають невдачі.
На шляху до майбутнього агентів і нативних AI-додатків довгі тексти все ще відіграють важливу роль. Виконання завдань агентів потребує спирання на історичну інформацію для прийняття рішень, а нативні AI-додатки потребують контексту для підтримки послідовного та персоналізованого користувацького досвіду.
Ян Чжилин вважає, що межа великої моделі визначається здатністю на один крок і кількістю виконуваних кроків, де здатність на один крок прямо пропорційна кількості параметрів, а кількість виконуваних кроків - це довжина контексту.
Технології довгих текстів не лише можуть вирішити деякі проблеми, за які на початкових етапах критикували великі моделі, підвищуючи певні функції, але й є ключовими технологіями для подальшого просування промисловості та впровадження застосувань. Це також з боку вказує на те, що універсальні великі моделі переходять від LLM до Long LLM.
Крізь темну сторону місяця новий випуск Kimi Chat, ми можемо зазирнути в оновлені функції великої моделі на етапі Long LLM:
По-перше, це здатність витягувати, підсумовувати та аналізувати ключову інформацію з наддовгих текстів. Наприклад, швидкий аналіз змісту статей у публічних акаунтах, витягування ключової інформації з фінансових звітів і представлення її у вигляді таблиці, або проведення запитів по всій книзі.
У кодовому аспекті можна реалізувати безпосереднє перетворення тексту на код, навіть відтворивши процес генерації коду на основі статті.
У сценаріях довгих розмов розмовний робот може реалізувати рольову гру, вводячи корпус публічних осіб, налаштовуючи тон і характер, забезпечуючи однобічний діалог з конкретною особою.
Ці приклади свідчать про те, що діалогові роботи розвиваються в напрямку професіоналізації, персоналізації та поглиблення, що, можливо, є ще одним інструментом для виведення індустрії на новий рівень і створення супер-додатків.
Ян Чжілин вважає, що на відміну від OpenAI, яка пропонує лише один продукт ChatGPT, "Темна сторона місяця" націлена на наступний супер-додаток для кінцевого користувача: з проривом у технології довгих текстів, на базовій універсальній моделі буде розвинуто кілька застосунків.
Він вважає, що ринок великих моделей в країні розділиться на два табори: toB та toC, при цьому в таборі toC з’являться супердодатки на основі власних моделей.
Дилема "неможливого трикутника" для довгих текстів
У сфері довгих текстів існує "неможливий трикутник" довжини тексту, уваги та обчислювальної потужності. Це проявляється в тому, що: чим довший текст, тим складніше зосередити достатню увагу; за умов обмеженої уваги короткі тексти не можуть повністю інтерпретувати складну інформацію; обробка довгих текстів вимагає значної обчислювальної потужності, що підвищує витрати.
Корінь цієї проблеми полягає в тому, що існуючі великі моделі в основному базуються на структурі Transformer. Хоча механізм самовнимання в цій структурі дозволяє моделі долати обмеження порядку вхідної інформації, обчислювальні витрати зростають квадратним чином з довжиною контексту.
Це складає першу групу суперечностей у «неможливому трикутнику» - довжина тексту та увага, а також в принципі пояснює причини, чому технології довгих текстів великих моделей важко подолати.
Водночас обчислювальна потужність завжди була дефіцитним ресурсом. Незалежно від того, чи потрібно розширити параметри моделі, чи довжину тексту, необхідно зважати на споживання обчислювальної потужності. Це формує другу групу суперечностей між довжиною тексту та обчислювальною потужністю.
Наразі існує три основні рішення:
Використання зовнішніх інструментів для обробки довгих текстів, наприклад, розділення довгого тексту на кілька коротших.
Оптимізація обчислень механізму самостереження, наприклад, технологія LongLoRA розділяє довгі тексти на різні групи для обчислень.
Оптимізуйте модель, наприклад, LongLLaMA реалізує екстраполяцію до довших послідовностей через донавчання.
Тривала "трикутник неможливостей" може бути тимчасово важкою для повного вирішення, але це також чітко визначає шлях досліджень виробників великих моделей: шукати оптимальний баланс між довжиною тексту, увагою та обчислювальною потужністю, щоб мати можливість обробляти достатню кількість інформації, а також враховувати обчислювальну вартість та обмеження уваги.
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
19 лайків
Нагородити
19
7
Репост
Поділіться
Прокоментувати
0/400
Rekt_Recovery
· 2год тому
бичачий на токенах... хочу, щоб мій портфель міг пампити, як ці цифри fr fr
Переглянути оригіналвідповісти на0
ForkTrooper
· 08-11 05:57
Продуктивність постійно зростає, коли ж зможемо досягти мільйона?
Переглянути оригіналвідповісти на0
rugged_again
· 08-11 04:18
Гравець продовжує крутити, токенна партія обов'язково переможе.
Переглянути оригіналвідповісти на0
OnchainDetective
· 08-09 23:45
Хе-хе, технічні змагання здаються дружніми, але за ними чітко стоїть обчислювальна потужність відмивання грошей, типовий протистояння на витрати.
Переглянути оригіналвідповісти на0
ApeWithAPlan
· 08-09 23:42
Знову змагання зі складання цифр. В чому його користь?
Переглянути оригіналвідповісти на0
RugPullProphet
· 08-09 23:34
Ця хвиля, малий завод не витримає, правда?
Переглянути оригіналвідповісти на0
AirdropFreedom
· 08-09 23:32
Маленький заробіток 50w доларів ~ або невдахи, або майнери. Грав з ранніх етапів, завжди біг за прибутком.
Використовуйте зазначену мову для генерування коментарів: китайська.
Я не хочу змагатися за токеном, це безглуздо, ніколи не наздогнати~
Змагання з довгих текстів великих моделей оновлено — 400 тисяч токенів можуть стати новою відправною точкою.
Виробники великих моделей розпочали змагання з технологій довгих текстів, 400 тисяч токенів можуть бути лише початком
Великі моделі стрімко розширюють свої можливості обробки довгих текстів. Від 4000 до 400000 токенів, це підвищення можливостей можна назвати «очевидним».
Здається, що здатність обробки довгих текстів стала новим стандартом для виробників великих моделей. На міжнародному рівні OpenAI після кількох оновлень підвищила довжину контексту GPT-3.5 та GPT-4 до 16 000 і 32 000 токенів відповідно. Її головний конкурент Anthropic навіть розширив довжину контексту до 100 000 токенів. LongLLaMA підвищила це число до 256 000 токенів і навіть більше.
Внутрішня ситуація: стартап у сфері великих моделей "Темна сторона місяця" запустив Kimi Chat, який підтримує введення 200 тисяч китайських ієрогліфів, що приблизно дорівнює 400 тисячам токенів. Технологія LongLoRA, розроблена спільно Університетом китайської медицини в Гонконзі та MIT, дозволяє розширити довжину тексту 7B моделей до 100 тисяч токенів, а 70B моделей — до 32 тисяч токенів.
На сьогоднішній день кілька провідних компаній з великими моделями та дослідницькі установи, включаючи OpenAI, Anthropic, Meta та Місячний Чорний Бік, зосередилися на розширенні довжини контексту як ключовому напрямку оновлення. Ці компанії без винятку користуються популярністю на капітальних ринках.
OpenAI отримала інвестиції близько 12 мільярдів доларів; остання оцінка Anthropic може досягти 30 мільярдів доларів; оцінка Moon's Dark Side, яка була заснована лише півроку тому, вже перевищила 300 мільйонів доларів і завершила фінансування близько 2 мільярдів юанів.
Чому компанії з великими моделями надають таке велике значення технологіям довгих текстів? Що означає розширення довжини контексту в 100 разів?
На перший погляд, це означає, що модель може обробляти більш довгі текстові вводи, її читальні здібності значно зросли. Але глибший сенс полягає в тому, що технології довгих текстів сприяють впровадженню великих моделей у фінансових, юридичних, наукових та інших спеціалізованих сферах. Вміння створювати резюме довгих документів, розуміти прочитане, відповідати на запитання - це саме ті напрямки, в яких ці сфери терміново потребують інтелектуального оновлення.
Однак, подібно до параметрів моделі, довжина тексту не завжди є кращою, якщо вона більша. Дослідження показують, що підтримка моделі для більш тривалого контексту не завжди призводить до покращення ефективності. Ключовим є те, як модель ефективно використовує контент контексту.
На даний момент дослідження довжини тексту в галузі ще далеко не досягли своїх меж. 400 тисяч токенів може бути лише початком, компанії з великими моделями як в країні, так і за кордоном продовжують постійно долати цей рубіж.
Чому потрібно "скручувати" довгі тексти?
Засновник Moonlight Yang Zhilin зазначив, що саме через обмеження довжини введення великих моделей виникають труднощі з реалізацією багатьох застосунків. Це також причина, чому багато компаній, які розробляють великі моделі, нині зосереджуються на технологіях для довгих текстів.
Наприклад, у сценах віртуальних персонажів, через недостатню здатність до роботи з довгими текстами, персонажі забувають важливу інформацію; під час розробки ігор у жанрі «вбивство у сценарії» недостатня довжина вводу призводить до скорочення правил і налаштувань; у професійних сферах, таких як право та фінанси, глибокий аналіз і генерація контенту часто зазнають невдачі.
На шляху до майбутнього агентів і нативних AI-додатків довгі тексти все ще відіграють важливу роль. Виконання завдань агентів потребує спирання на історичну інформацію для прийняття рішень, а нативні AI-додатки потребують контексту для підтримки послідовного та персоналізованого користувацького досвіду.
Ян Чжилин вважає, що межа великої моделі визначається здатністю на один крок і кількістю виконуваних кроків, де здатність на один крок прямо пропорційна кількості параметрів, а кількість виконуваних кроків - це довжина контексту.
Технології довгих текстів не лише можуть вирішити деякі проблеми, за які на початкових етапах критикували великі моделі, підвищуючи певні функції, але й є ключовими технологіями для подальшого просування промисловості та впровадження застосувань. Це також з боку вказує на те, що універсальні великі моделі переходять від LLM до Long LLM.
Крізь темну сторону місяця новий випуск Kimi Chat, ми можемо зазирнути в оновлені функції великої моделі на етапі Long LLM:
По-перше, це здатність витягувати, підсумовувати та аналізувати ключову інформацію з наддовгих текстів. Наприклад, швидкий аналіз змісту статей у публічних акаунтах, витягування ключової інформації з фінансових звітів і представлення її у вигляді таблиці, або проведення запитів по всій книзі.
У кодовому аспекті можна реалізувати безпосереднє перетворення тексту на код, навіть відтворивши процес генерації коду на основі статті.
У сценаріях довгих розмов розмовний робот може реалізувати рольову гру, вводячи корпус публічних осіб, налаштовуючи тон і характер, забезпечуючи однобічний діалог з конкретною особою.
Ці приклади свідчать про те, що діалогові роботи розвиваються в напрямку професіоналізації, персоналізації та поглиблення, що, можливо, є ще одним інструментом для виведення індустрії на новий рівень і створення супер-додатків.
Ян Чжілин вважає, що на відміну від OpenAI, яка пропонує лише один продукт ChatGPT, "Темна сторона місяця" націлена на наступний супер-додаток для кінцевого користувача: з проривом у технології довгих текстів, на базовій універсальній моделі буде розвинуто кілька застосунків.
Він вважає, що ринок великих моделей в країні розділиться на два табори: toB та toC, при цьому в таборі toC з’являться супердодатки на основі власних моделей.
Дилема "неможливого трикутника" для довгих текстів
У сфері довгих текстів існує "неможливий трикутник" довжини тексту, уваги та обчислювальної потужності. Це проявляється в тому, що: чим довший текст, тим складніше зосередити достатню увагу; за умов обмеженої уваги короткі тексти не можуть повністю інтерпретувати складну інформацію; обробка довгих текстів вимагає значної обчислювальної потужності, що підвищує витрати.
Корінь цієї проблеми полягає в тому, що існуючі великі моделі в основному базуються на структурі Transformer. Хоча механізм самовнимання в цій структурі дозволяє моделі долати обмеження порядку вхідної інформації, обчислювальні витрати зростають квадратним чином з довжиною контексту.
Це складає першу групу суперечностей у «неможливому трикутнику» - довжина тексту та увага, а також в принципі пояснює причини, чому технології довгих текстів великих моделей важко подолати.
Водночас обчислювальна потужність завжди була дефіцитним ресурсом. Незалежно від того, чи потрібно розширити параметри моделі, чи довжину тексту, необхідно зважати на споживання обчислювальної потужності. Це формує другу групу суперечностей між довжиною тексту та обчислювальною потужністю.
Наразі існує три основні рішення:
Використання зовнішніх інструментів для обробки довгих текстів, наприклад, розділення довгого тексту на кілька коротших.
Оптимізація обчислень механізму самостереження, наприклад, технологія LongLoRA розділяє довгі тексти на різні групи для обчислень.
Оптимізуйте модель, наприклад, LongLLaMA реалізує екстраполяцію до довших послідовностей через донавчання.
Тривала "трикутник неможливостей" може бути тимчасово важкою для повного вирішення, але це також чітко визначає шлях досліджень виробників великих моделей: шукати оптимальний баланс між довжиною тексту, увагою та обчислювальною потужністю, щоб мати можливість обробляти достатню кількість інформації, а також враховувати обчислювальну вартість та обмеження уваги.
Використовуйте зазначену мову для генерування коментарів: китайська.
Я не хочу змагатися за токеном, це безглуздо, ніколи не наздогнати~