大模型革命:從4000到40萬token的長文本處理突破

robot
摘要生成中

大模型長文本能力大躍進:從4000到40萬token

大模型正以驚人的速度提升其長文本處理能力。從最初的4000 token到如今的40萬token,這一飛躍標志着人工智能在處理復雜信息方面取得了重大進展。

國際上,OpenAI通過多次升級將GPT模型的上下文輸入長度從4千提升至3.2萬token。與此同時,Anthropic一舉將上下文長度擴展到10萬token。LongLLaMA更是將這一數字推至25.6萬token甚至更高。

國內,新興的大模型公司月之暗面推出的Kimi Chat可支持輸入約40萬token的文本。港中文和MIT聯合研發的LongLoRA技術也能將7B模型的文本長度擴展到10萬token。

目前,包括OpenAI、Anthropic、Meta、月之暗面在內的衆多頂級大模型公司和研究機構都將擴展上下文長度作爲重點發展方向。這些公司普遍受到資本市場的青睞,估值節節攀升。

長文本處理能力的提升意義重大。它不僅擴大了模型的閱讀範圍,從短文到長篇小說乃至巨著,還推動了大模型在金融、法律、科研等專業領域的應用。長文本技術有助於提高信息提取和分析能力,減少模型產生幻覺的可能性。

然而,文本長度並非越長越好。研究表明,模型對上下文內容的有效利用比單純追求長度更爲關鍵。目前業界對長文本技術的探索仍在繼續,40萬token可能只是一個開始。

長文本技術的發展面臨"不可能三角"困境:文本長度、注意力分配和算力需求三者難以兼顧。這主要源於Transformer結構中自注意力機制的計算復雜度隨上下文長度呈平方級增長。

爲解決這一問題,研究人員提出了多種優化方案:

  1. 借助外部工具輔助處理長文本
  2. 優化自注意力機制計算
  3. 利用模型優化方法

盡管長文本處理仍存在挑戰,但它標志着大模型進入了新的發展階段。未來,大模型公司將在文本長度、注意力分配和算力需求之間尋求最佳平衡點,以實現更強大的長文本處理能力。

TOKEN3.53%
查看原文
此頁面可能包含第三方內容,僅供參考(非陳述或保證),不應被視為 Gate 認可其觀點表述,也不得被視為財務或專業建議。詳見聲明
  • 讚賞
  • 3
  • 轉發
  • 分享
留言
0/400
BlockchainBouncervip
· 7小時前
这波起飞了鸭
回復0
LayerZeroEnjoyervip
· 7小時前
真进步这么快啊 明年估计要上百万了
回復0
SerumSqueezervip
· 7小時前
又要卷token了?
回復0
交易,隨時隨地
qrCode
掃碼下載 Gate APP
社群列表
繁體中文
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)