Kompetisi teks panjang model besar ditingkatkan, 400.000 token mungkin menjadi titik awal baru

robot
Pembuatan abstrak sedang berlangsung

Perusahaan model besar memicu kompetisi teknologi teks panjang, 400.000 token mungkin hanya permulaan

Model besar sedang memperluas kemampuannya untuk memproses teks panjang dengan kecepatan yang menakjubkan. Dari 4000 hingga 400.000 token, peningkatan kemampuan ini dapat dikatakan "terlihat jelas".

Kemampuan pemrosesan teks panjang tampaknya telah menjadi standar baru bagi penyedia model besar. Di tingkat internasional, OpenAI telah melakukan beberapa pembaruan, meningkatkan panjang konteks GPT-3.5 dan GPT-4 masing-masing menjadi 16.000 dan 32.000 token. Pesaing utamanya, Anthropic, bahkan berhasil memperluas panjang konteks menjadi 100.000 token. LongLLaMA telah meningkatkan angka ini menjadi 256.000 token atau bahkan lebih.

Di dalam negeri, perusahaan rintisan model besar, Kimi Chat yang diluncurkan oleh Dark Side of the Moon, dapat mendukung input sebanyak 200.000 karakter Tiongkok, setara dengan sekitar 400.000 token. Teknologi LongLoRA yang dikembangkan bersama oleh CUHK dan MIT dapat memperpanjang panjang teks model 7B hingga 100.000 token, sedangkan model 70B mencapai 32.000 token.

Saat ini, banyak perusahaan dan lembaga penelitian model besar terkemuka, termasuk OpenAI, Anthropic, Meta, dan Bulan Gelap, menjadikan perpanjangan panjang konteks sebagai arah peningkatan utama. Perusahaan-perusahaan ini tidak terkecuali mendapatkan perhatian dari pasar modal.

OpenAI telah mendapatkan investasi hampir 12 miliar dolar; valuasi terbaru Anthropic diperkirakan mencapai 30 miliar dolar; valuasi bulan gelap yang baru berdiri selama setengah tahun telah melebihi 300 juta dolar, dan telah menyelesaikan pembiayaan hampir 2 miliar yuan.

Mengapa perusahaan model besar sangat memperhatikan teknologi teks panjang? Apa arti dari perpanjangan panjang konteks hingga 100 kali?

Secara superficial, ini berarti model dapat menangani input teks yang lebih panjang, kemampuan membaca meningkat secara signifikan. Namun, makna yang lebih dalam adalah bahwa teknologi teks panjang sedang mendorong penerapan model besar di bidang profesional seperti keuangan, peradilan, dan penelitian. Kemampuan seperti ringkasan dokumen panjang, pemahaman bacaan, dan tanya jawab adalah arah yang sangat dibutuhkan untuk peningkatan kecerdasan di bidang-bidang ini.

Namun, mirip dengan parameter model, panjang teks tidak selalu lebih baik. Penelitian menunjukkan bahwa dukungan model untuk masukan konteks yang lebih panjang tidak serta merta berarti peningkatan kinerja. Kuncinya adalah bagaimana model memanfaatkan konten konteks dengan efektif.

Saat ini, eksplorasi panjang teks di industri masih jauh dari batasnya. 400.000 token mungkin hanya merupakan awal, perusahaan model besar di dalam dan luar negeri masih terus menerobos frontier ini.

Mengapa perlu "menggulir" teks panjang?

Pendiri Dark Side of the Moon, Yang Zhilin, menyatakan bahwa keterbatasan panjang input model besar adalah penyebab dari banyaknya kesulitan dalam penerapan aplikasi. Ini juga merupakan alasan mengapa banyak perusahaan model besar saat ini fokus pada teknologi teks panjang.

Misalnya, dalam skenario karakter virtual, karena kemampuan teks panjang yang tidak mencukupi, karakter akan melupakan informasi penting; saat mengembangkan permainan skrip pembunuhan, panjang input yang tidak cukup menyebabkan hanya bisa mengurangi aturan dan pengaturan; dalam bidang profesional seperti hukum dan keuangan, analisis dan generasi konten yang mendalam sering terhambat.

Dalam perjalanan menuju aplikasi Agent dan AI asli di masa depan, teks panjang masih memainkan peran penting. Tugas Agent membutuhkan informasi historis untuk perencanaan dan pengambilan keputusan, sedangkan aplikasi AI asli memerlukan konteks untuk mempertahankan pengalaman pengguna yang koheren dan dipersonalisasi.

Yang Zhilin percaya bahwa batas atas model besar ditentukan oleh kemampuan langkah tunggal dan jumlah langkah eksekusi, di mana kemampuan langkah tunggal berhubungan positif dengan jumlah parameter, sedangkan jumlah langkah eksekusi adalah panjang konteks.

Teknologi teks panjang tidak hanya dapat menyelesaikan beberapa masalah yang sering dikeluhkan tentang model besar di tahap awal, memperkuat beberapa fungsi, tetapi juga merupakan teknologi kunci untuk mendorong industri dan aplikasi lebih lanjut. Ini juga secara tidak langsung menunjukkan bahwa model besar umum sedang memasuki tahap baru dari LLM ke Long LLM.

Melalui Kimi Chat yang baru dirilis di sisi gelap bulan, kita dapat melihat peningkatan fungsi model besar tahap Long LLM:

Pertama, kemampuan untuk mengekstrak, merangkum, dan menganalisis informasi kunci dari teks yang sangat panjang. Seperti menganalisis dengan cepat inti dari artikel publikasi, mengekstrak informasi kunci dari laporan keuangan dan menyajikannya dalam bentuk tabel, atau menjawab pertanyaan tentang seluruh buku.

Dalam hal kode, dapat mewujudkan konversi teks langsung menjadi kode, bahkan mereproduksi proses pembuatan kode berdasarkan makalah.

Dalam skenario percakapan panjang, robot percakapan dapat melakukan peran, dengan memasukkan korpus tokoh publik, mengatur nada dan kepribadian, untuk melakukan percakapan satu lawan satu dengan orang tertentu.

Contoh-contoh ini menunjukkan bahwa robot percakapan sedang berkembang ke arah spesialisasi, personalisasi, dan kedalaman, yang mungkin merupakan salah satu cara untuk mendorong penerapan industri dan menciptakan super APP.

Yang Zhilin berpendapat, berbeda dengan OpenAI yang hanya menawarkan satu produk ChatGPT, Dark Side of the Moon mengincar aplikasi super C-end berikutnya: dengan teknologi teks panjang sebagai terobosan, menghasilkan berbagai aplikasi dari model dasar yang umum.

Dia menilai, pasar model besar domestik akan terbagi menjadi dua kelompok yaitu toB dan toC, di mana dalam kelompok toC akan muncul aplikasi super yang berbasis model yang dikembangkan sendiri.

Dilema "Segitiga Tak Mungkin" dalam Teks Panjang

Dalam bidang teks panjang, terdapat "segitiga ketidakmungkinan" antara panjang teks, perhatian, dan daya komputasi. Ini terlihat bahwa: semakin panjang teks, semakin sulit untuk mengumpulkan perhatian yang cukup; di bawah batasan perhatian, teks pendek tidak dapat sepenuhnya mengartikan informasi yang kompleks; memproses teks panjang membutuhkan daya komputasi yang besar, meningkatkan biaya.

Akar dari dilema ini terletak pada model besar yang ada yang sebagian besar didasarkan pada struktur Transformer. Meskipun mekanisme perhatian diri dalam struktur ini memungkinkan model untuk melampaui batasan urutan informasi input, beban komputasi akan meningkat secara kuadrat seiring bertambahnya panjang konteks.

Ini membentuk kelompok pertama kontradiksi dalam "segitiga ketidakmungkinan" - panjang teks dan perhatian, juga secara fundamental menjelaskan alasan mengapa teknologi teks panjang model besar sulit untuk diatasi.

Sementara itu, daya komputasi selalu menjadi sumber daya yang langka. Baik memperluas parameter model maupun panjang teks, harus mempertimbangkan konsumsi daya komputasi. Ini membentuk kelompok kontradiksi kedua antara panjang teks dan daya komputasi.

Saat ini ada tiga solusi utama:

  1. Menggunakan alat eksternal untuk membantu memproses teks panjang, seperti membagi teks panjang menjadi beberapa teks pendek untuk diproses.

  2. Mengoptimalkan perhitungan mekanisme perhatian diri, seperti teknologi LongLoRA yang membagi teks panjang menjadi kelompok yang berbeda untuk perhitungan.

  3. Mengoptimalkan model, seperti LongLLaMA yang mencapai ekstensi ke urutan yang lebih panjang melalui fine-tuning.

Dilema "segitiga tak mungkin" dari teks panjang mungkin sulit untuk diselesaikan sepenuhnya saat ini, tetapi ini juga jelas menunjukkan jalur eksplorasi untuk produsen model besar: mencari titik keseimbangan terbaik antara panjang teks, perhatian, dan daya komputasi, sehingga dapat memproses informasi yang cukup, sekaligus memperhatikan pembatasan biaya perhatian dan daya komputasi.

TOKEN-4.75%
Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • 4
  • Posting ulang
  • Bagikan
Komentar
0/400
OnchainDetectivevip
· 11jam yang lalu
Hehe, kompetisi teknologi tampaknya bersahabat, tetapi di baliknya jelas ada Daya Komputasi Pencucian Uang, sebuah pertarungan pembakaran uang yang khas.
Lihat AsliBalas0
ApeWithAPlanvip
· 11jam yang lalu
Ini lagi kompetisi tumpukan angka, ada gunanya?
Lihat AsliBalas0
RugPullProphetvip
· 11jam yang lalu
Gelombang ini tidak bisa ditangani oleh pabrik kecil, kan?
Lihat AsliBalas0
AirdropFreedomvip
· 11jam yang lalu
Sedikit untung 50w dolar~ bukan suckers ya penambang Dari awal bermain sampai sekarang Selalu mengejar keuntungan

Gunakan bahasa yang ditentukan untuk membuat komentar: Mandarin

Saya tidak ingin berlomba dengan token, terus menerus mengejar tidak akan pernah bisa mengejar~
Lihat AsliBalas0
Perdagangkan Kripto Di Mana Saja Kapan Saja
qrCode
Pindai untuk mengunduh aplikasi Gate
Komunitas
Bahasa Indonesia
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)