大模型革命:从4000到40万token的长文本处理突破

robot
摘要生成中

大模型长文本能力大跃进:从4000到40万token

大模型正以惊人的速度提升其长文本处理能力。从最初的4000 token到如今的40万token,这一飞跃标志着人工智能在处理复杂信息方面取得了重大进展。

国际上,OpenAI通过多次升级将GPT模型的上下文输入长度从4千提升至3.2万token。与此同时,Anthropic一举将上下文长度扩展到10万token。LongLLaMA更是将这一数字推至25.6万token甚至更高。

国内,新兴的大模型公司月之暗面推出的Kimi Chat可支持输入约40万token的文本。港中文和MIT联合研发的LongLoRA技术也能将7B模型的文本长度扩展到10万token。

目前,包括OpenAI、Anthropic、Meta、月之暗面在内的众多顶级大模型公司和研究机构都将扩展上下文长度作为重点发展方向。这些公司普遍受到资本市场的青睐,估值节节攀升。

长文本处理能力的提升意义重大。它不仅扩大了模型的阅读范围,从短文到长篇小说乃至巨著,还推动了大模型在金融、法律、科研等专业领域的应用。长文本技术有助于提高信息提取和分析能力,减少模型产生幻觉的可能性。

然而,文本长度并非越长越好。研究表明,模型对上下文内容的有效利用比单纯追求长度更为关键。目前业界对长文本技术的探索仍在继续,40万token可能只是一个开始。

长文本技术的发展面临"不可能三角"困境:文本长度、注意力分配和算力需求三者难以兼顾。这主要源于Transformer结构中自注意力机制的计算复杂度随上下文长度呈平方级增长。

为解决这一问题,研究人员提出了多种优化方案:

  1. 借助外部工具辅助处理长文本
  2. 优化自注意力机制计算
  3. 利用模型优化方法

尽管长文本处理仍存在挑战,但它标志着大模型进入了新的发展阶段。未来,大模型公司将在文本长度、注意力分配和算力需求之间寻求最佳平衡点,以实现更强大的长文本处理能力。

TOKEN3.53%
此页面可能包含第三方内容,仅供参考(非陈述/保证),不应被视为 Gate 认可其观点表述,也不得被视为财务或专业建议。详见声明
  • 赞赏
  • 3
  • 转发
  • 分享
评论
0/400
BlockchainBouncervip
· 7小时前
这波起飞了鸭
回复0
LayerZeroEnjoyervip
· 7小时前
真进步这么快啊 明年估计要上百万了
回复0
SerumSqueezervip
· 7小时前
又要卷token了?
回复0
交易,随时随地
qrCode
扫码下载 Gate APP
社群列表
简体中文
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)