Cuộc thi văn bản dài mô hình lớn nâng cấp, 400.000 token có thể trở thành điểm khởi đầu mới

robot
Đang tạo bản tóm tắt

Các nhà sản xuất mô hình lớn khởi động cuộc đua công nghệ văn bản dài, 400.000 token có thể chỉ là khởi đầu

Mô hình lớn đang mở rộng khả năng xử lý văn bản dài với tốc độ đáng kinh ngạc. Từ 4000 đến 400000 token, sự cải thiện này có thể được coi là "nhìn thấy bằng mắt".

Khả năng xử lý văn bản dài dường như đã trở thành tiêu chuẩn mới của các nhà sản xuất mô hình lớn. Trên thế giới, OpenAI đã nhiều lần nâng cấp, nâng độ dài ngữ cảnh của GPT-3.5 và GPT-4 lên lần lượt là 16.000 và 32.000 token. Đối thủ chính của họ, Anthropic, đã mở rộng độ dài ngữ cảnh lên tới 100.000 token. LongLLaMA thậm chí còn nâng con số này lên 256.000 token hoặc hơn.

Tại Trung Quốc, công ty khởi nghiệp mô hình lớn Mặt Trăng Tối đã ra mắt Kimi Chat, hỗ trợ nhập 200.000 ký tự Hán, tương đương khoảng 400.000 token. Công nghệ LongLoRA được phát triển chung bởi Đại học Hồng Kông và MIT có khả năng mở rộng độ dài văn bản của mô hình 7B lên đến 100.000 token, trong khi mô hình 70B đạt 32.000 token.

Hiện tại, nhiều công ty và tổ chức nghiên cứu mô hình lớn hàng đầu như OpenAI, Anthropic, Meta, và Mặt trăng tối đã coi việc mở rộng độ dài ngữ cảnh là hướng nâng cấp trọng điểm. Những công ty này đều nhận được sự ưa chuộng từ thị trường vốn.

OpenAI đã nhận được gần 12 tỷ đô la đầu tư; định giá mới nhất của Anthropic dự kiến đạt 30 tỷ đô la; định giá của Dark Side of the Moon chỉ mới thành lập được nửa năm đã vượt quá 300 triệu đô la và hoàn thành gần 2 tỷ nhân dân tệ tài chính.

Tại sao các công ty mô hình lớn lại coi trọng công nghệ văn bản dài đến vậy? Việc mở rộng độ dài ngữ cảnh lên 100 lần có ý nghĩa gì?

Xét về bề mặt, điều này có nghĩa là mô hình có thể xử lý đầu vào văn bản dài hơn, khả năng đọc được cải thiện đáng kể. Nhưng ý nghĩa sâu xa hơn là công nghệ văn bản dài đang thúc đẩy việc áp dụng các mô hình lớn trong các lĩnh vực chuyên môn như tài chính, tư pháp, nghiên cứu khoa học... Các khả năng như tóm tắt tài liệu dài, hiểu biết văn bản, hỏi đáp, chính là hướng cần được nâng cấp thông minh trong những lĩnh vực này.

Tuy nhiên, tương tự như các tham số mô hình, độ dài văn bản không phải lúc nào cũng dài hơn là tốt hơn. Nghiên cứu cho thấy, việc mô hình hỗ trợ đầu vào ngữ cảnh dài hơn không đồng nghĩa với việc hiệu suất được cải thiện trực tiếp. Điều quan trọng là mô hình có thể sử dụng hiệu quả nội dung ngữ cảnh như thế nào.

Hiện tại, ngành công nghiệp vẫn chưa đạt đến giới hạn của độ dài văn bản. 400.000 token có thể chỉ là một khởi đầu, các công ty mô hình lớn trong và ngoài nước vẫn đang liên tục vượt qua biên giới này.

Tại sao phải "cuộn" văn bản dài?

Người sáng lập Mặt Trăng Tối Yang Zhilin cho biết, chính vì độ dài đầu vào của mô hình lớn bị hạn chế mà đã gây ra nhiều khó khăn trong việc triển khai ứng dụng. Đây cũng là lý do mà nhiều công ty mô hình lớn hiện nay tập trung vào công nghệ văn bản dài.

Chẳng hạn trong các tình huống nhân vật ảo, do khả năng xử lý văn bản dài không đủ, nhân vật sẽ quên thông tin quan trọng; khi phát triển trò chơi kịch bản giết người, độ dài đầu vào không đủ dẫn đến chỉ có thể cắt giảm quy tắc và thiết lập; trong các lĩnh vực chuyên môn như pháp lý, tài chính, việc phân tích và tạo nội dung sâu thường gặp khó khăn.

Trên con đường hướng tới các ứng dụng gốc Agent và AI trong tương lai, văn bản dài vẫn đóng vai trò quan trọng. Các nhiệm vụ của Agent cần dựa vào thông tin lịch sử để lập kế hoạch và ra quyết định, các ứng dụng gốc AI cần ngữ cảnh để duy trì trải nghiệm người dùng nhất quán và cá nhân hóa.

Yang Zhilin cho rằng, giới hạn của mô hình lớn được xác định bởi khả năng từng bước và số lượng bước thực hiện, trong đó khả năng từng bước có mối quan hệ tích cực với số lượng tham số, còn số bước thực hiện tức là độ dài ngữ cảnh.

Công nghệ văn bản dài không chỉ có thể giải quyết một số vấn đề mà các mô hình lớn gặp phải ở giai đoạn đầu, tăng cường một số chức năng, mà còn là công nghệ then chốt trong việc thúc đẩy các ngành công nghiệp và ứng dụng triển khai. Điều này cũng gián tiếp chỉ ra rằng các mô hình lớn chung đang bước vào giai đoạn mới từ LLM đến Long LLM.

Thông qua Kimi Chat mới được phát hành trên mặt tối của mặt trăng, chúng ta có thể nhìn thoáng qua các tính năng nâng cấp của mô hình lớn giai đoạn Long LLM:

Đầu tiên là khả năng trích xuất, tóm tắt và phân tích thông tin quan trọng từ văn bản dài. Ví dụ như phân tích nhanh nội dung bài viết trên tài khoản công cộng, trích xuất thông tin quan trọng từ báo cáo tài chính và trình bày dưới dạng bảng, hoặc thực hiện hỏi đáp về toàn bộ một cuốn sách.

Trong mã, có thể chuyển đổi văn bản trực tiếp thành mã, thậm chí tái hiện quá trình tạo mã dựa trên tài liệu.

Trong bối cảnh đối thoại dài, robot đối thoại có thể thực hiện vai trò, thông qua việc nhập liệu từ các nhân vật công chúng, thiết lập giọng điệu và tính cách, để thực hiện đối thoại một-một với nhân vật cụ thể.

Những ví dụ này cho thấy, robot hội thoại đang phát triển theo hướng chuyên nghiệp hóa, cá nhân hóa và sâu sắc hơn, đây có thể là một công cụ khác để khai thác sự hiện diện trong ngành và xây dựng ứng dụng siêu.

Yang Zhilin cho rằng, khác với OpenAI chỉ cung cấp một sản phẩm là ChatGPT, Mặt Trăng Tối nhắm đến ứng dụng siêu C-end tiếp theo: dựa vào công nghệ văn bản dài làm đột phá, phát triển ra nhiều ứng dụng từ mô hình cơ bản chung.

Ông ấy đánh giá rằng, thị trường mô hình lớn trong nước sẽ được chia thành hai trại toB và toC, và trong trại toC sẽ xuất hiện các ứng dụng siêu dựa trên mô hình tự nghiên cứu.

Nghịch lý "tam giác bất khả thi" của văn bản dài

Trong lĩnh vực văn bản dài, tồn tại "tam giác không thể" giữa độ dài văn bản, sự chú ý và sức mạnh tính toán. Điều này thể hiện rằng: văn bản càng dài, càng khó để tập trung sự chú ý đầy đủ; dưới giới hạn sự chú ý, văn bản ngắn không thể hiểu đầy đủ thông tin phức tạp; việc xử lý văn bản dài cần rất nhiều sức mạnh tính toán, làm tăng chi phí.

Nguồn gốc của tình huống này nằm ở chỗ các mô hình lớn hiện tại chủ yếu dựa trên cấu trúc Transformer. Mặc dù cơ chế tự chú ý trong cấu trúc này cho phép mô hình vượt qua các hạn chế về thứ tự thông tin đầu vào, nhưng khối lượng tính toán sẽ tăng lên theo cấp số nhân khi độ dài ngữ cảnh tăng.

Điều này tạo thành nhóm mâu thuẫn đầu tiên trong "tam giác không thể" - độ dài văn bản và sự chú ý, cũng về cơ bản giải thích lý do mà công nghệ văn bản dài của các mô hình lớn khó có thể vượt qua.

Trong cùng một thời điểm, sức mạnh tính toán luôn là tài nguyên khan hiếm. Dù là mở rộng tham số mô hình hay độ dài văn bản, đều phải cân nhắc đến sự tiêu tốn sức mạnh tính toán. Điều này tạo thành một mâu thuẫn thứ hai giữa độ dài văn bản và sức mạnh tính toán.

Hiện tại có ba giải pháp chính:

  1. Sử dụng công cụ bên ngoài để hỗ trợ xử lý văn bản dài, chẳng hạn như chia văn bản dài thành nhiều văn bản ngắn để xử lý.

  2. Tối ưu hóa tính toán cơ chế tự chú ý, như công nghệ LongLoRA chia văn bản dài thành các nhóm khác nhau để tính toán.

  3. Tối ưu hóa mô hình, như LongLLaMA đạt được ngoại suy đến chuỗi dài hơn thông qua việc tinh chỉnh.

Nỗi khổ "tam giác bất khả thi" của văn bản dài có thể khó giải quyết hoàn toàn trong thời gian ngắn, nhưng điều này cũng làm rõ con đường khám phá của các nhà sản xuất mô hình lớn: tìm kiếm điểm cân bằng tốt nhất giữa độ dài văn bản, sự chú ý và sức mạnh tính toán, vừa có thể xử lý đủ thông tin, vừa có thể chú ý đến tính toán sự chú ý và giới hạn chi phí tính toán.

TOKEN3.57%
Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • 7
  • Đăng lại
  • Chia sẻ
Bình luận
0/400
Rekt_Recoveryvip
· 50phút trước
tăng giá trên lợi nhuận token... ước gì danh mục đầu tư của tôi có thể pump như những con số này fr fr
Xem bản gốcTrả lời0
ForkTroopervip
· 08-11 05:57
Hiệu suất cuộn không ngừng nghỉ, khi nào mới cuộn được đến triệu cấp vậy?
Xem bản gốcTrả lời0
rugged_againvip
· 08-11 04:18
Người chơi tiếp tục cuộn, token sẽ chiến thắng.
Xem bản gốcTrả lời0
OnchainDetectivevip
· 08-09 23:45
Haha, cuộc thi công nghệ có vẻ thân thiện nhưng rõ ràng đằng sau là chuỗi rửa tiền khả năng tính toán, điển hình là cuộc đối đầu đốt tiền.
Xem bản gốcTrả lời0
ApeWithAPlanvip
· 08-09 23:42
Lại là một cuộc thi xếp chồng số, có ích gì đâu?
Xem bản gốcTrả lời0
RugPullProphetvip
· 08-09 23:34
Đợt này, các xưởng nhỏ không chịu nổi nữa đúng không?
Xem bản gốcTrả lời0
AirdropFreedomvip
· 08-09 23:32
Kiếm được 50w đô la Mỹ ~ không phải đồ ngốc thì cũng là Người khai thác. Từ những ngày đầu chơi đến giờ, luôn đuổi theo lợi nhuận.

Tạo bình luận bằng ngôn ngữ chỉ định: Trung Quốc.

Tôi không muốn tham gia vào token, cuộc đua này, mãi mãi không đuổi kịp được đâu~
Xem bản gốcTrả lời0
  • Ghim
Giao dịch tiền điện tử mọi lúc mọi nơi
qrCode
Quét để tải xuống ứng dụng Gate
Cộng đồng
Tiếng Việt
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)