Великий стрибок у здатності моделей обробляти довгі тексти: від 4000 до 400000 токенів
Великі моделі неймовірно швидко підвищують свої можливості обробки довгих текстів. Від початкових 4000 токенів до сьогоднішніх 400000 токенів, цей стрибок свідчить про значний прогрес штучного інтелекту у обробці складної інформації.
У світі OpenAI неодноразово оновлює модель GPT, збільшуючи довжину контекстного введення з 4000 до 32000 токенів. Тим часом Anthropic разом розширила довжину контексту до 100000 токенів. LongLLaMA взагалі підвищила це число до 256000 токенів або навіть більше.
В країні нова велика модель компанії «Темна сторона місяця» запустила Kimi Chat, який підтримує введення тексту обсягом приблизно 400 000 токенів. Технологія LongLoRA, спільно розроблена Китайським університетом Гонконгу та MIT, також може розширити довжину тексту 7B моделі до 100 000 токенів.
Наразі багато провідних компаній та дослідницьких інститутів, таких як OpenAI, Anthropic, Meta та Місячна темрява, зосереджуються на розширенні довжини контексту як ключовому напрямку розвитку. Ці компанії користуються широкою підтримкою на ринку капіталу, їхня оцінка постійно зростає.
Покращення здатності обробки довгих текстів має велике значення. Це не лише розширює діапазон читання моделі, від коротких текстів до романів і навіть великих творів, але й сприяє застосуванню великих моделей у професійних сферах, таких як фінанси, право, наука тощо. Технології довгих текстів допомагають підвищити здатність до вилучення та аналізу інформації, зменшуючи ймовірність виникнення ілюзій у моделі.
Проте, довжина тексту не завжди є кращою. Дослідження показують, що ефективне використання контексту є більш важливим, ніж просто прагнення до довжини. Наразі в індустрії дослідження технологій довгих текстів все ще триває, 400 тисяч токенів може бути лише початком.
Розвиток технологій довгих текстів стикається з проблемою "неможливого трикутника": важко знайти баланс між довжиною тексту, розподілом уваги та вимогами до обчислювальної потужності. Це в основному пов'язано з тим, що обчислювальна складність механізму самостійної уваги в структурі Transformer зростає квадратично з довжиною контексту.
Щоб вирішити цю проблему, дослідники запропонували кілька оптимізаційних рішень:
Використання зовнішніх інструментів для обробки довгих текстів
Оптимізація обчислення механізму самостереження
Використання методів оптимізації моделі
Хоча обробка довгих текстів все ще є викликом, це означає, що великі моделі вступили в нову стадію розвитку. У майбутньому компанії, що займаються великими моделями, шукатимуть оптимальний баланс між довжиною тексту, розподілом уваги та вимогами до обчислювальної потужності, щоб забезпечити більш потужну здатність обробки довгих текстів.
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
9 лайків
Нагородити
9
3
Репост
Поділіться
Прокоментувати
0/400
BlockchainBouncer
· 5год тому
Ця хвиля До місяця, качка.
Переглянути оригіналвідповісти на0
LayerZeroEnjoyer
· 5год тому
Справжній прогрес так швидко! Наступного року, напевно, буде мільйон.
Революція великих моделей: прорив в обробці довгих текстів від 4000 до 400000 токенів
Великий стрибок у здатності моделей обробляти довгі тексти: від 4000 до 400000 токенів
Великі моделі неймовірно швидко підвищують свої можливості обробки довгих текстів. Від початкових 4000 токенів до сьогоднішніх 400000 токенів, цей стрибок свідчить про значний прогрес штучного інтелекту у обробці складної інформації.
У світі OpenAI неодноразово оновлює модель GPT, збільшуючи довжину контекстного введення з 4000 до 32000 токенів. Тим часом Anthropic разом розширила довжину контексту до 100000 токенів. LongLLaMA взагалі підвищила це число до 256000 токенів або навіть більше.
В країні нова велика модель компанії «Темна сторона місяця» запустила Kimi Chat, який підтримує введення тексту обсягом приблизно 400 000 токенів. Технологія LongLoRA, спільно розроблена Китайським університетом Гонконгу та MIT, також може розширити довжину тексту 7B моделі до 100 000 токенів.
Наразі багато провідних компаній та дослідницьких інститутів, таких як OpenAI, Anthropic, Meta та Місячна темрява, зосереджуються на розширенні довжини контексту як ключовому напрямку розвитку. Ці компанії користуються широкою підтримкою на ринку капіталу, їхня оцінка постійно зростає.
Покращення здатності обробки довгих текстів має велике значення. Це не лише розширює діапазон читання моделі, від коротких текстів до романів і навіть великих творів, але й сприяє застосуванню великих моделей у професійних сферах, таких як фінанси, право, наука тощо. Технології довгих текстів допомагають підвищити здатність до вилучення та аналізу інформації, зменшуючи ймовірність виникнення ілюзій у моделі.
Проте, довжина тексту не завжди є кращою. Дослідження показують, що ефективне використання контексту є більш важливим, ніж просто прагнення до довжини. Наразі в індустрії дослідження технологій довгих текстів все ще триває, 400 тисяч токенів може бути лише початком.
Розвиток технологій довгих текстів стикається з проблемою "неможливого трикутника": важко знайти баланс між довжиною тексту, розподілом уваги та вимогами до обчислювальної потужності. Це в основному пов'язано з тим, що обчислювальна складність механізму самостійної уваги в структурі Transformer зростає квадратично з довжиною контексту.
Щоб вирішити цю проблему, дослідники запропонували кілька оптимізаційних рішень:
Хоча обробка довгих текстів все ще є викликом, це означає, що великі моделі вступили в нову стадію розвитку. У майбутньому компанії, що займаються великими моделями, шукатимуть оптимальний баланс між довжиною тексту, розподілом уваги та вимогами до обчислювальної потужності, щоб забезпечити більш потужну здатність обробки довгих текстів.