Revolusi Model Besar: Terobosan Pengolahan Teks Panjang dari 4000 hingga 400000 token

robot
Pembuatan abstrak sedang berlangsung

Kemajuan Besar Kemampuan Teks Panjang Model Besar: Dari 4000 hingga 400.000 token

Model besar sedang meningkatkan kemampuan pemrosesan teks panjangnya dengan kecepatan yang mengagumkan. Dari awalnya 4000 token hingga kini 400.000 token, lompatan ini menandai kemajuan signifikan dalam kecerdasan buatan dalam menangani informasi yang kompleks.

Di tingkat internasional, OpenAI telah meningkatkan panjang input konteks model GPT dari 4 ribu menjadi 32 ribu token melalui beberapa pembaruan. Sementara itu, Anthropic telah memperpanjang panjang konteks menjadi 100 ribu token. LongLLaMA bahkan telah mendorong angka ini hingga 256 ribu token atau lebih tinggi.

Di dalam negeri, perusahaan model besar baru Moon's Dark Side telah meluncurkan Kimi Chat yang dapat mendukung input teks sekitar 400.000 token. Teknologi LongLoRA yang dikembangkan bersama oleh Universitas Hong Kong dan MIT juga dapat memperluas panjang teks model 7B hingga 100.000 token.

Saat ini, banyak perusahaan model besar terkemuka dan lembaga penelitian, termasuk OpenAI, Anthropic, Meta, dan Bulan Gelap, menjadikan perpanjangan panjang konteks sebagai arah pengembangan utama. Perusahaan-perusahaan ini umumnya mendapat perhatian dari pasar modal, dan valuasi mereka terus meningkat.

Peningkatan kemampuan pemrosesan teks panjang memiliki arti yang signifikan. Ini tidak hanya memperluas jangkauan bacaan model, dari artikel pendek hingga novel panjang bahkan karya besar, tetapi juga mendorong penerapan model besar di bidang profesional seperti keuangan, hukum, dan penelitian. Teknologi teks panjang membantu meningkatkan kemampuan ekstraksi dan analisis informasi, serta mengurangi kemungkinan model menghasilkan ilusi.

Namun, panjang teks tidak selalu menjadi lebih baik. Penelitian menunjukkan bahwa pemanfaatan konten konteks yang efektif oleh model jauh lebih penting daripada sekadar mengejar panjang. Saat ini, eksplorasi teknologi teks panjang di industri masih berlanjut, 400 ribu token mungkin hanya merupakan awal.

Perkembangan teknologi teks panjang menghadapi dilema "segitiga yang tidak mungkin": sulit untuk memperhatikan panjang teks, alokasi perhatian, dan kebutuhan daya komputasi secara bersamaan. Hal ini terutama disebabkan oleh kompleksitas perhitungan mekanisme perhatian diri dalam struktur Transformer yang tumbuh secara kuadratik seiring dengan panjang konteks.

Untuk mengatasi masalah ini, para peneliti telah mengusulkan berbagai solusi optimasi:

  1. Menggunakan alat eksternal untuk membantu memproses teks panjang
  2. Mengoptimalkan perhitungan mekanisme perhatian diri
  3. Menggunakan metode optimasi model

Meskipun masih ada tantangan dalam pengolahan teks panjang, itu menandakan bahwa model besar telah memasuki tahap perkembangan baru. Di masa depan, perusahaan model besar akan mencari titik keseimbangan terbaik antara panjang teks, alokasi perhatian, dan kebutuhan komputasi untuk mencapai kemampuan pengolahan teks panjang yang lebih kuat.

TOKEN3.53%
Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • 3
  • Posting ulang
  • Bagikan
Komentar
0/400
BlockchainBouncervip
· 7jam yang lalu
Ini terbang, ya.
Lihat AsliBalas0
LayerZeroEnjoyervip
· 7jam yang lalu
Kemajuan yang cepat sekali ya, diperkirakan tahun depan akan mencapai satu juta.
Lihat AsliBalas0
SerumSqueezervip
· 7jam yang lalu
Apakah kita akan mengumpulkan token lagi?
Lihat AsliBalas0
  • Sematkan
Perdagangkan Kripto Di Mana Saja Kapan Saja
qrCode
Pindai untuk mengunduh aplikasi Gate
Komunitas
Bahasa Indonesia
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)