القدرة على معالجة النصوص الطويلة: المعيار الجديد للنماذج الكبيرة
مع التطور السريع لتقنية الذكاء الاصطناعي، أصبحت قدرة النماذج الكبيرة على معالجة النصوص الطويلة معيارًا جديدًا لقياس تقدمها. من 4000 توكن في البداية إلى 400000 توكن اليوم، حققت طول إدخال السياق للنماذج الكبيرة زيادة بمقدار مئة مرة في فترة زمنية قصيرة.
حالياً، تركز الشركات والمؤسسات البحثية الكبرى في الداخل والخارج على توسيع طول السياق كاتجاه رئيسي للتحديث. في الخارج، قامت OpenAI بترقية GPT-3.5 وGPT-4 عدة مرات لزيادة طول السياق إلى 16000 و32000 توكن على التوالي. بينما قامت Anthropic بزيادة طول السياق لنموذجها Claude إلى 100000 توكن مرة واحدة. أما LongLLaMA فقد دفعت طول السياق إلى 256000 توكن أو أكثر.
فيما يتعلق بالجانب المحلي، أطلق شركة الناشئة في النماذج الكبيرة "جانب القمر المظلم" دردشة كيمي التي تدعم إدخال 200,000 حرف صيني، ما يعادل حوالي 400,000 توكن. يمكن لتقنية LongLoRA التي تم تطويرها بالتعاون بين جامعة هونغ كونغ الصينية ومعهد ماساتشوستس للتكنولوجيا توسيع طول النص لنموذج 7B إلى 100,000 توكن، وتوسيع نموذج 70B إلى 32,000 توكن.
لقد جلب تحسين القدرة على معالجة النصوص الطويلة فوائد متعددة. أولاً، يمكن للنموذج معالجة نصوص إدخال أطول، من النصوص القصيرة إلى الروايات الطويلة وحتى الكتب الكاملة. ثانياً، تدفع القدرة على معالجة النصوص الطويلة النموذج الكبير في مجالات متخصصة مثل المالية والعدالة والبحث العلمي، مما يوفر أساساً لمهام تلخيص الوثائق الطويلة وفهم القراءة والإجابة على الأسئلة. بالإضافة إلى ذلك، تساعد النصوص الطويلة في تقليل مشكلة الهلوسة في النموذج، من خلال توفير المزيد من السياق ومعلومات التفاصيل لمساعدة النموذج على الفهم والاستنتاج.
ومع ذلك، فإن قدرة توسيع النصوص الطويلة تواجه أيضًا تحديات. تكمن المشكلة الرئيسية في "مثلث الاستحالة" بين طول النص، وآلية الانتباه، ومتطلبات قوة الحوسبة: كلما كان النص أطول، أصبح من الصعب التركيز على المعلومات الرئيسية؛ تزداد كمية حسابات آلية الانتباه بشكل مربع مع زيادة طول النص؛ يتطلب معالجة النصوص الطويلة قوة حوسبة كبيرة، مما يزيد من التكاليف.
لحل هذه المشكلات، اقترح الباحثون العديد من الحلول، بما في ذلك استخدام أدوات خارجية للمساعدة في المعالجة، وتحسين حساب آلية الانتباه الذاتي، واستخدام تحسين النموذج. ومع ذلك، لا يزال تعزيز القدرة على معالجة النصوص الطويلة تحديًا تقنيًا معقدًا، يتطلب البحث عن أفضل نقطة توازن بين طول النص والانتباه وقوة الحوسبة.
بشكل عام، تشير تحسينات القدرة على معالجة النصوص الطويلة إلى دخول النماذج الكبيرة مرحلة تطوير جديدة. فهي لا تعالج فقط بعض المشكلات التي كانت موجودة في النماذج الكبيرة في مراحلها الأولى، بل تقدم أيضًا دعمًا تقنيًا حيويًا لدفع تطبيقات الصناعة وتحقيق التطبيقات الفائقة. في المستقبل، مع التقدم المستمر في التكنولوجيا، من المتوقع أن تستمر القدرة على معالجة النصوص الطويلة في التحسن، مما يمهد الطريق لتطبيق الذكاء الاصطناعي في مجالات أوسع.
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
تسجيلات الإعجاب 9
أعجبني
9
3
مشاركة
تعليق
0/400
GasFeeTears
· 07-18 02:56
النموذج لا يزال لا يفهم كيف يُقال كلمتين.
شاهد النسخة الأصليةرد0
quiet_lurker
· 07-18 02:35
نفخوا طوال اليوم دون أن يحددوا بالضبط كم يمكن أن يطول.
قدرة النصوص الطويلة للنماذج الكبيرة ارتفعت مئة مرة لتصبح معيارًا جديدًا في تطوير الذكاء الاصطناعي
القدرة على معالجة النصوص الطويلة: المعيار الجديد للنماذج الكبيرة
مع التطور السريع لتقنية الذكاء الاصطناعي، أصبحت قدرة النماذج الكبيرة على معالجة النصوص الطويلة معيارًا جديدًا لقياس تقدمها. من 4000 توكن في البداية إلى 400000 توكن اليوم، حققت طول إدخال السياق للنماذج الكبيرة زيادة بمقدار مئة مرة في فترة زمنية قصيرة.
حالياً، تركز الشركات والمؤسسات البحثية الكبرى في الداخل والخارج على توسيع طول السياق كاتجاه رئيسي للتحديث. في الخارج، قامت OpenAI بترقية GPT-3.5 وGPT-4 عدة مرات لزيادة طول السياق إلى 16000 و32000 توكن على التوالي. بينما قامت Anthropic بزيادة طول السياق لنموذجها Claude إلى 100000 توكن مرة واحدة. أما LongLLaMA فقد دفعت طول السياق إلى 256000 توكن أو أكثر.
فيما يتعلق بالجانب المحلي، أطلق شركة الناشئة في النماذج الكبيرة "جانب القمر المظلم" دردشة كيمي التي تدعم إدخال 200,000 حرف صيني، ما يعادل حوالي 400,000 توكن. يمكن لتقنية LongLoRA التي تم تطويرها بالتعاون بين جامعة هونغ كونغ الصينية ومعهد ماساتشوستس للتكنولوجيا توسيع طول النص لنموذج 7B إلى 100,000 توكن، وتوسيع نموذج 70B إلى 32,000 توكن.
لقد جلب تحسين القدرة على معالجة النصوص الطويلة فوائد متعددة. أولاً، يمكن للنموذج معالجة نصوص إدخال أطول، من النصوص القصيرة إلى الروايات الطويلة وحتى الكتب الكاملة. ثانياً، تدفع القدرة على معالجة النصوص الطويلة النموذج الكبير في مجالات متخصصة مثل المالية والعدالة والبحث العلمي، مما يوفر أساساً لمهام تلخيص الوثائق الطويلة وفهم القراءة والإجابة على الأسئلة. بالإضافة إلى ذلك، تساعد النصوص الطويلة في تقليل مشكلة الهلوسة في النموذج، من خلال توفير المزيد من السياق ومعلومات التفاصيل لمساعدة النموذج على الفهم والاستنتاج.
ومع ذلك، فإن قدرة توسيع النصوص الطويلة تواجه أيضًا تحديات. تكمن المشكلة الرئيسية في "مثلث الاستحالة" بين طول النص، وآلية الانتباه، ومتطلبات قوة الحوسبة: كلما كان النص أطول، أصبح من الصعب التركيز على المعلومات الرئيسية؛ تزداد كمية حسابات آلية الانتباه بشكل مربع مع زيادة طول النص؛ يتطلب معالجة النصوص الطويلة قوة حوسبة كبيرة، مما يزيد من التكاليف.
لحل هذه المشكلات، اقترح الباحثون العديد من الحلول، بما في ذلك استخدام أدوات خارجية للمساعدة في المعالجة، وتحسين حساب آلية الانتباه الذاتي، واستخدام تحسين النموذج. ومع ذلك، لا يزال تعزيز القدرة على معالجة النصوص الطويلة تحديًا تقنيًا معقدًا، يتطلب البحث عن أفضل نقطة توازن بين طول النص والانتباه وقوة الحوسبة.
بشكل عام، تشير تحسينات القدرة على معالجة النصوص الطويلة إلى دخول النماذج الكبيرة مرحلة تطوير جديدة. فهي لا تعالج فقط بعض المشكلات التي كانت موجودة في النماذج الكبيرة في مراحلها الأولى، بل تقدم أيضًا دعمًا تقنيًا حيويًا لدفع تطبيقات الصناعة وتحقيق التطبيقات الفائقة. في المستقبل، مع التقدم المستمر في التكنولوجيا، من المتوقع أن تستمر القدرة على معالجة النصوص الطويلة في التحسن، مما يمهد الطريق لتطبيق الذكاء الاصطناعي في مجالات أوسع.