Kemajuan Besar Kemampuan Teks Panjang Model Besar: Dari 4000 hingga 400.000 token
Model besar sedang meningkatkan kemampuan pemrosesan teks panjangnya dengan kecepatan yang mengagumkan. Dari awalnya 4000 token hingga kini 400.000 token, lompatan ini menandai kemajuan signifikan dalam kecerdasan buatan dalam menangani informasi yang kompleks.
Di tingkat internasional, OpenAI telah meningkatkan panjang input konteks model GPT dari 4 ribu menjadi 32 ribu token melalui beberapa pembaruan. Sementara itu, Anthropic telah memperpanjang panjang konteks menjadi 100 ribu token. LongLLaMA bahkan telah mendorong angka ini hingga 256 ribu token atau lebih tinggi.
Di dalam negeri, perusahaan model besar baru Moon's Dark Side telah meluncurkan Kimi Chat yang dapat mendukung input teks sekitar 400.000 token. Teknologi LongLoRA yang dikembangkan bersama oleh Universitas Hong Kong dan MIT juga dapat memperluas panjang teks model 7B hingga 100.000 token.
Saat ini, banyak perusahaan model besar terkemuka dan lembaga penelitian, termasuk OpenAI, Anthropic, Meta, dan Bulan Gelap, menjadikan perpanjangan panjang konteks sebagai arah pengembangan utama. Perusahaan-perusahaan ini umumnya mendapat perhatian dari pasar modal, dan valuasi mereka terus meningkat.
Peningkatan kemampuan pemrosesan teks panjang memiliki arti yang signifikan. Ini tidak hanya memperluas jangkauan bacaan model, dari artikel pendek hingga novel panjang bahkan karya besar, tetapi juga mendorong penerapan model besar di bidang profesional seperti keuangan, hukum, dan penelitian. Teknologi teks panjang membantu meningkatkan kemampuan ekstraksi dan analisis informasi, serta mengurangi kemungkinan model menghasilkan ilusi.
Namun, panjang teks tidak selalu menjadi lebih baik. Penelitian menunjukkan bahwa pemanfaatan konten konteks yang efektif oleh model jauh lebih penting daripada sekadar mengejar panjang. Saat ini, eksplorasi teknologi teks panjang di industri masih berlanjut, 400 ribu token mungkin hanya merupakan awal.
Perkembangan teknologi teks panjang menghadapi dilema "segitiga yang tidak mungkin": sulit untuk memperhatikan panjang teks, alokasi perhatian, dan kebutuhan daya komputasi secara bersamaan. Hal ini terutama disebabkan oleh kompleksitas perhitungan mekanisme perhatian diri dalam struktur Transformer yang tumbuh secara kuadratik seiring dengan panjang konteks.
Untuk mengatasi masalah ini, para peneliti telah mengusulkan berbagai solusi optimasi:
Menggunakan alat eksternal untuk membantu memproses teks panjang
Mengoptimalkan perhitungan mekanisme perhatian diri
Menggunakan metode optimasi model
Meskipun masih ada tantangan dalam pengolahan teks panjang, itu menandakan bahwa model besar telah memasuki tahap perkembangan baru. Di masa depan, perusahaan model besar akan mencari titik keseimbangan terbaik antara panjang teks, alokasi perhatian, dan kebutuhan komputasi untuk mencapai kemampuan pengolahan teks panjang yang lebih kuat.
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
9 Suka
Hadiah
9
3
Posting ulang
Bagikan
Komentar
0/400
BlockchainBouncer
· 7jam yang lalu
Ini terbang, ya.
Lihat AsliBalas0
LayerZeroEnjoyer
· 7jam yang lalu
Kemajuan yang cepat sekali ya, diperkirakan tahun depan akan mencapai satu juta.
Revolusi Model Besar: Terobosan Pengolahan Teks Panjang dari 4000 hingga 400000 token
Kemajuan Besar Kemampuan Teks Panjang Model Besar: Dari 4000 hingga 400.000 token
Model besar sedang meningkatkan kemampuan pemrosesan teks panjangnya dengan kecepatan yang mengagumkan. Dari awalnya 4000 token hingga kini 400.000 token, lompatan ini menandai kemajuan signifikan dalam kecerdasan buatan dalam menangani informasi yang kompleks.
Di tingkat internasional, OpenAI telah meningkatkan panjang input konteks model GPT dari 4 ribu menjadi 32 ribu token melalui beberapa pembaruan. Sementara itu, Anthropic telah memperpanjang panjang konteks menjadi 100 ribu token. LongLLaMA bahkan telah mendorong angka ini hingga 256 ribu token atau lebih tinggi.
Di dalam negeri, perusahaan model besar baru Moon's Dark Side telah meluncurkan Kimi Chat yang dapat mendukung input teks sekitar 400.000 token. Teknologi LongLoRA yang dikembangkan bersama oleh Universitas Hong Kong dan MIT juga dapat memperluas panjang teks model 7B hingga 100.000 token.
Saat ini, banyak perusahaan model besar terkemuka dan lembaga penelitian, termasuk OpenAI, Anthropic, Meta, dan Bulan Gelap, menjadikan perpanjangan panjang konteks sebagai arah pengembangan utama. Perusahaan-perusahaan ini umumnya mendapat perhatian dari pasar modal, dan valuasi mereka terus meningkat.
Peningkatan kemampuan pemrosesan teks panjang memiliki arti yang signifikan. Ini tidak hanya memperluas jangkauan bacaan model, dari artikel pendek hingga novel panjang bahkan karya besar, tetapi juga mendorong penerapan model besar di bidang profesional seperti keuangan, hukum, dan penelitian. Teknologi teks panjang membantu meningkatkan kemampuan ekstraksi dan analisis informasi, serta mengurangi kemungkinan model menghasilkan ilusi.
Namun, panjang teks tidak selalu menjadi lebih baik. Penelitian menunjukkan bahwa pemanfaatan konten konteks yang efektif oleh model jauh lebih penting daripada sekadar mengejar panjang. Saat ini, eksplorasi teknologi teks panjang di industri masih berlanjut, 400 ribu token mungkin hanya merupakan awal.
Perkembangan teknologi teks panjang menghadapi dilema "segitiga yang tidak mungkin": sulit untuk memperhatikan panjang teks, alokasi perhatian, dan kebutuhan daya komputasi secara bersamaan. Hal ini terutama disebabkan oleh kompleksitas perhitungan mekanisme perhatian diri dalam struktur Transformer yang tumbuh secara kuadratik seiring dengan panjang konteks.
Untuk mengatasi masalah ini, para peneliti telah mengusulkan berbagai solusi optimasi:
Meskipun masih ada tantangan dalam pengolahan teks panjang, itu menandakan bahwa model besar telah memasuki tahap perkembangan baru. Di masa depan, perusahaan model besar akan mencari titik keseimbangan terbaik antara panjang teks, alokasi perhatian, dan kebutuhan komputasi untuk mencapai kemampuan pengolahan teks panjang yang lebih kuat.