💙 Gate廣場 #Gate品牌蓝创作挑战# 💙
用Gate品牌藍,描繪你的無限可能!
📅 活動時間
2025年8月11日 — 8月20日
🎯 活動玩法
1. 在 Gate廣場 發布原創內容(圖片 / 視頻 / 手繪 / 數字創作等),需包含 Gate品牌藍 或 Gate Logo 元素。
2. 帖子標題或正文必須包含標籤: #Gate品牌蓝创作挑战# 。
3. 內容中需附上一句對Gate的祝福或寄語(例如:“祝Gate交易所越辦越好,藍色永恆!”)。
4. 內容需爲原創且符合社區規範,禁止抄襲或搬運。
🎁 獎勵設置
一等獎(1名):Gate × Redbull 聯名賽車拼裝套裝
二等獎(3名):Gate品牌衛衣
三等獎(5名):Gate品牌足球
備注:若無法郵寄,將統一替換爲合約體驗券:一等獎 $200、二等獎 $100、三等獎 $50。
🏆 評選規則
官方將綜合以下維度評分:
創意表現(40%):主題契合度、創意獨特性
內容質量(30%):畫面精美度、敘述完整性
社區互動度(30%):點讚、評論及轉發等數據
大模型長文本競賽升級 40萬token或成新起點
大模型廠商掀起長文本技術競賽,40萬token或許只是開始
大模型正以驚人的速度擴展其處理長文本的能力。從4000到40萬token,這一能力的提升可謂"肉眼可見"。
長文本處理能力似乎已成爲大模型廠商的新標配。國際上,OpenAI經過多次升級,將GPT-3.5和GPT-4的上下文長度分別提升至1.6萬和3.2萬token。其主要競爭對手Anthropic更是一舉將上下文長度擴展到10萬token。LongLLaMA則將這一數字提高到了25.6萬token甚至更多。
國內方面,大模型初創公司月之暗面推出的Kimi Chat可支持輸入20萬漢字,約合40萬token。港中文和MIT聯合開發的LongLoRA技術,能將7B模型的文本長度擴展至10萬token,70B模型則達到3.2萬token。
目前,包括OpenAI、Anthropic、Meta、月之暗面在內的多家頂級大模型公司和研究機構,都將拓展上下文長度作爲重點升級方向。這些公司無一例外地受到資本市場的青睞。
OpenAI已獲得近120億美元投資;Anthropic最新估值有望達到300億美元;成立僅半年的月之暗面估值已超3億美元,並完成近20億元融資。
大模型公司爲何如此重視長文本技術?上下文長度擴大100倍意味着什麼?
表面上看,這意味着模型可以處理更長的文本輸入,閱讀能力大大增強。但更深層的意義在於,長文本技術正在推動大模型在金融、司法、科研等專業領域的應用落地。長文檔摘要、閱讀理解、問答等能力,正是這些領域亟需智能化升級的方向。
然而,與模型參數類似,文本長度並非越長越好。研究表明,模型支持更長上下文輸入與效果提升並不能直接畫等號。關鍵在於模型如何有效利用上下文內容。
目前,業界對文本長度的探索還遠未達到極限。40萬token可能只是一個開始,國內外大模型公司仍在不斷突破這一frontier。
爲什麼要"卷"長文本?
月之暗面創始人楊植麟表示,正是由於大模型輸入長度受限,才造成了許多應用落地的困境。這也是衆多大模型公司當前聚焦長文本技術的原因所在。
比如在虛擬角色場景中,由於長文本能力不足,角色會遺忘重要信息;在開發劇本殺遊戲時,輸入長度不夠導致只能削減規則和設定;在法律、金融等專業領域,深度內容分析和生成常常受挫。
在通往未來Agent和AI原生應用的道路上,長文本仍扮演着重要角色。Agent任務運行需要依靠歷史信息進行規劃決策,AI原生應用需要上下文來保持連貫、個性化的用戶體驗。
楊植麟認爲,大模型的上限由單步能力和執行步驟數共同決定,其中單步能力與參數量正相關,而執行步驟數即上下文長度。
長文本技術不僅可以解決大模型初期被詬病的一些問題,增強某些功能,還是進一步推進產業和應用落地的關鍵技術。這也從側面表明通用大模型正邁入從LLM到Long LLM的新階段。
透過月之暗面新發布的Kimi Chat,我們可以一窺Long LLM階段大模型的升級功能:
首先是對超長文本的關鍵信息提取、總結和分析能力。如快速分析公衆號文章大意,提取財報關鍵信息並以表格形式呈現,或對整本書進行問答。
在代碼方面,可以實現文字直接轉化爲代碼,甚至根據論文復現代碼生成過程。
在長對話場景中,對話機器人可以實現角色扮演,通過輸入公衆人物語料,設置語氣和性格,實現與特定人物一對一對話。
這些例子表明,對話機器人正朝着專業化、個性化、深度化方向發展,這或許是撬動產業落地和打造超級APP的又一抓手。
楊植麟認爲,不同於OpenAI只提供ChatGPT一個產品,月之暗面瞄準的是下一個C端超級APP:以長文本技術爲突破,在基礎通用模型上衍生出多個應用。
他判斷,國內大模型市場格局會分爲toB和toC兩個陣營,在toC陣營中會出現基於自研模型的超級應用。
長文本的"不可能三角"困境
在長文本領域,存在着文本長短、注意力和算力的"不可能三角"。這表現爲:文本越長,越難聚集充分注意力;在注意力限制下,短文本無法完整解讀復雜信息;處理長文本需要大量算力,提高成本。
這一困境的根源在於現有大模型多基於Transformer結構。該結構中的自注意力機制雖然使模型能夠跨越輸入信息順序限制,但計算量會隨上下文長度增加呈平方級增長。
這構成了"不可能三角"中的第一組矛盾 - 文本長短與注意力,也從根本上解釋了大模型長文本技術難以突破的原因。
同時,算力一直是稀缺資源。無論是擴大模型參數還是文本長度,都要權衡算力消耗。這形成了文本長短與算力之間的第二組矛盾。
目前主要有三種解決方案:
借助外部工具輔助處理長文本,如將長文本切分爲多個短文本處理。
優化自注意力機制計算,如LongLoRA技術將長文本劃分成不同組進行計算。
對模型進行優化,如LongLLaMA通過微調實現外推到更長序列。
長文本的"不可能三角"困境或許暫時難以完全解決,但這也明確了大模型廠商的探索路徑:在文本長短、注意力和算力三者之間尋求最佳平衡點,既能處理足夠信息,又能兼顧注意力計算與算力成本限制。
用指定语言生成评论:中文
我不想对token, 赛跑了,永远追不上啊~