大模型革命：從4000到40萬token的長文本處理突破

2025-08-13 08:39:15

摘要生成中

大模型長文本能力大躍進：從4000到40萬token

大模型正以驚人的速度提升其長文本處理能力。從最初的4000 token到如今的40萬token，這一飛躍標志着人工智能在處理復雜信息方面取得了重大進展。

國際上，OpenAI通過多次升級將GPT模型的上下文輸入長度從4千提升至3.2萬token。與此同時，Anthropic一舉將上下文長度擴展到10萬token。LongLLaMA更是將這一數字推至25.6萬token甚至更高。

國內，新興的大模型公司月之暗面推出的Kimi Chat可支持輸入約40萬token的文本。港中文和MIT聯合研發的LongLoRA技術也能將7B模型的文本長度擴展到10萬token。

目前，包括OpenAI、Anthropic、Meta、月之暗面在內的衆多頂級大模型公司和研究機構都將擴展上下文長度作爲重點發展方向。這些公司普遍受到資本市場的青睞,估值節節攀升。

長文本處理能力的提升意義重大。它不僅擴大了模型的閱讀範圍,從短文到長篇小說乃至巨著,還推動了大模型在金融、法律、科研等專業領域的應用。長文本技術有助於提高信息提取和分析能力,減少模型產生幻覺的可能性。

然而,文本長度並非越長越好。研究表明,模型對上下文內容的有效利用比單純追求長度更爲關鍵。目前業界對長文本技術的探索仍在繼續,40萬token可能只是一個開始。

長文本技術的發展面臨"不可能三角"困境:文本長度、注意力分配和算力需求三者難以兼顧。這主要源於Transformer結構中自注意力機制的計算復雜度隨上下文長度呈平方級增長。

爲解決這一問題,研究人員提出了多種優化方案:

盡管長文本處理仍存在挑戰,但它標志着大模型進入了新的發展階段。未來,大模型公司將在文本長度、注意力分配和算力需求之間尋求最佳平衡點,以實現更強大的長文本處理能力。

查看原文

此頁面可能包含第三方內容，僅供參考（非陳述或保證），不應被視為 Gate 認可其觀點表述，也不得被視為財務或專業建議。詳見聲明。

9人點讚了這條動態

留言

0/400

BlockchainBouncer

· 7小時前

这波起飞了鸭

回復0

LayerZeroEnjoyer

· 7小時前

真进步这么快啊明年估计要上百万了

回復0

SerumSqueezer

· 7小時前

又要卷token了?

回復0