قفزة كبيرة في قدرة النماذج الكبيرة على معالجة النصوص الطويلة: من 4000 إلى 400000 توكن
تعمل النماذج الكبيرة على تعزيز قدرتها على معالجة النصوص الطويلة بسرعة مذهلة. من 4000 توكن في البداية إلى 400000 توكن اليوم، يمثل هذا الانتقال تقدمًا كبيرًا في قدرة الذكاء الاصطناعي على معالجة المعلومات المعقدة.
على الصعيد الدولي، قامت OpenAI بترقية نموذج GPT عدة مرات لزيادة طول إدخال السياق من 4000 إلى 32000 توكن. في الوقت نفسه، قامت Anthropic بتمديد طول السياق إلى 100000 توكن بشكل كبير. بينما قامت LongLLaMA برفع هذا الرقم إلى 256000 توكن أو أكثر.
في البلاد، أطلقت شركة النماذج الكبرى الناشئة "الجانب المظلم من القمر" نموذج Kimi Chat الذي يدعم إدخال نصوص تبلغ حوالي 400,000 توكن. كما أن تقنية LongLoRA التي تم تطويرها بشكل مشترك بين جامعة هونغ كونغ الصينية ومعهد ماساتشوستس للتكنولوجيا يمكنها توسيع طول النص لنموذج 7B إلى 100,000 توكن.
في الوقت الحالي، تعتبر العديد من شركات النماذج الكبيرة والهيئات البحثية الرائدة مثل OpenAI وAnthropic وMeta و月之暗面 أن توسيع طول السياق هو اتجاه رئيسي للتطوير. هذه الشركات تحظى بشعبية كبيرة في أسواق رأس المال، وتزداد قيمتها بشكل ملحوظ.
إن تحسين القدرة على معالجة النصوص الطويلة له أهمية كبيرة. فهو لا يوسع فقط نطاق قراءة النموذج، من المقالات القصيرة إلى الروايات الطويلة وحتى الأعمال العظيمة، بل يعزز أيضًا تطبيق النماذج الكبيرة في مجالات متخصصة مثل المالية والقانون والبحث العلمي. تساعد تقنية النصوص الطويلة في تحسين قدرة استخراج المعلومات وتحليلها، وتقليل احتمال حدوث الأوهام من قبل النموذج.
ومع ذلك، فإن طول النص ليس بالضرورة كلما كان أطول كان أفضل. أظهرت الأبحاث أن الاستخدام الفعال لمحتوى السياق من قبل النموذج هو أكثر أهمية من السعي لتحقيق الطول فقط. لا يزال الاستكشاف في صناعة تقنيات النصوص الطويلة مستمراً، وقد يكون 400,000 توكن مجرد بداية.
تواجه تطوير تقنيات النصوص الطويلة "مأزق الثلاثي المستحيل": من الصعب التوفيق بين طول النص وتوزيع الانتباه ومتطلبات القدرة الحاسوبية. وهذا يعود أساسًا إلى أن تعقيد حساب آلية الانتباه الذاتي في هيكل Transformer ينمو بشكل تربيعي مع طول السياق.
لحل هذه المشكلة، اقترح الباحثون عدة حلول تحسين:
استخدام أدوات خارجية للمساعدة في معالجة النصوص الطويلة
تحسين حساب آلية الانتباه الذاتي
استخدام طرق تحسين النموذج
على الرغم من أن معالجة النصوص الطويلة لا تزال تواجه تحديات، إلا أنها تمثل علامة على دخول النماذج الكبيرة مرحلة جديدة من التطور. في المستقبل، ستسعى شركات النماذج الكبيرة إلى إيجاد التوازن الأمثل بين طول النص، وتوزيع الانتباه، ومتطلبات القوة الحسابية لتحقيق قدرات أقوى في معالجة النصوص الطويلة.
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
تسجيلات الإعجاب 9
أعجبني
9
3
إعادة النشر
مشاركة
تعليق
0/400
BlockchainBouncer
· منذ 5 س
هذه الموجة للقمر يا
شاهد النسخة الأصليةرد0
LayerZeroEnjoyer
· منذ 5 س
تقدم حقيقي بهذه السرعة! من المتوقع أن يصل العدد إلى مليون العام المقبل.
ثورة النماذج الكبيرة: من 4000 إلى 400000 توكن في معالجة النصوص الطويلة
قفزة كبيرة في قدرة النماذج الكبيرة على معالجة النصوص الطويلة: من 4000 إلى 400000 توكن
تعمل النماذج الكبيرة على تعزيز قدرتها على معالجة النصوص الطويلة بسرعة مذهلة. من 4000 توكن في البداية إلى 400000 توكن اليوم، يمثل هذا الانتقال تقدمًا كبيرًا في قدرة الذكاء الاصطناعي على معالجة المعلومات المعقدة.
على الصعيد الدولي، قامت OpenAI بترقية نموذج GPT عدة مرات لزيادة طول إدخال السياق من 4000 إلى 32000 توكن. في الوقت نفسه، قامت Anthropic بتمديد طول السياق إلى 100000 توكن بشكل كبير. بينما قامت LongLLaMA برفع هذا الرقم إلى 256000 توكن أو أكثر.
في البلاد، أطلقت شركة النماذج الكبرى الناشئة "الجانب المظلم من القمر" نموذج Kimi Chat الذي يدعم إدخال نصوص تبلغ حوالي 400,000 توكن. كما أن تقنية LongLoRA التي تم تطويرها بشكل مشترك بين جامعة هونغ كونغ الصينية ومعهد ماساتشوستس للتكنولوجيا يمكنها توسيع طول النص لنموذج 7B إلى 100,000 توكن.
في الوقت الحالي، تعتبر العديد من شركات النماذج الكبيرة والهيئات البحثية الرائدة مثل OpenAI وAnthropic وMeta و月之暗面 أن توسيع طول السياق هو اتجاه رئيسي للتطوير. هذه الشركات تحظى بشعبية كبيرة في أسواق رأس المال، وتزداد قيمتها بشكل ملحوظ.
إن تحسين القدرة على معالجة النصوص الطويلة له أهمية كبيرة. فهو لا يوسع فقط نطاق قراءة النموذج، من المقالات القصيرة إلى الروايات الطويلة وحتى الأعمال العظيمة، بل يعزز أيضًا تطبيق النماذج الكبيرة في مجالات متخصصة مثل المالية والقانون والبحث العلمي. تساعد تقنية النصوص الطويلة في تحسين قدرة استخراج المعلومات وتحليلها، وتقليل احتمال حدوث الأوهام من قبل النموذج.
ومع ذلك، فإن طول النص ليس بالضرورة كلما كان أطول كان أفضل. أظهرت الأبحاث أن الاستخدام الفعال لمحتوى السياق من قبل النموذج هو أكثر أهمية من السعي لتحقيق الطول فقط. لا يزال الاستكشاف في صناعة تقنيات النصوص الطويلة مستمراً، وقد يكون 400,000 توكن مجرد بداية.
تواجه تطوير تقنيات النصوص الطويلة "مأزق الثلاثي المستحيل": من الصعب التوفيق بين طول النص وتوزيع الانتباه ومتطلبات القدرة الحاسوبية. وهذا يعود أساسًا إلى أن تعقيد حساب آلية الانتباه الذاتي في هيكل Transformer ينمو بشكل تربيعي مع طول السياق.
لحل هذه المشكلة، اقترح الباحثون عدة حلول تحسين:
على الرغم من أن معالجة النصوص الطويلة لا تزال تواجه تحديات، إلا أنها تمثل علامة على دخول النماذج الكبيرة مرحلة جديدة من التطور. في المستقبل، ستسعى شركات النماذج الكبيرة إلى إيجاد التوازن الأمثل بين طول النص، وتوزيع الانتباه، ومتطلبات القوة الحسابية لتحقيق قدرات أقوى في معالجة النصوص الطويلة.