النصوص الطويلة تصبح معيارًا جديدًا للنماذج الكبيرة، والعمالقة داخليًا وخارجيًا يتنافسون على تجاوز 400,000 توكن

robot
إنشاء الملخص قيد التقدم

قدرة النص الطويل تصبح "المعيار" الجديد لشركات النماذج الكبيرة

تعمل النماذج الكبيرة على تعزيز قدرتها على معالجة النصوص الطويلة بسرعة مذهلة، حيث تم توسيعها من 4000 توكن إلى 400000 توكن. يبدو أن القدرة على معالجة النصوص الطويلة أصبحت "ميزة قياسية" جديدة لموردي النماذج الكبيرة.

في الخارج، قامت OpenAI من خلال عدة ترقيات بزيادة طول إدخال السياق لـ GPT-3.5 من 4000 إلى 16000 توكن، بينما تم زيادة GPT-4 من 8000 إلى 32000 توكن. أما المنافس الرئيسي لـ OpenAI، Anthropic، فقد قامت بزيادة طول السياق دفعة واحدة إلى 100000 توكن. كما أن LongLLaMA قامت بتوسيع طول السياق إلى 256000 توكن أو أكثر.

فيما يتعلق بالجانب المحلي، أطلقت شركة النماذج الكبيرة الناشئة "الجانب المظلم من القمر" الدردشة كيمي، التي تدعم إدخال 200,000 حرف صيني، ما يعادل حوالي 400,000 توكن. تم تطوير تقنية LongLoRA بالتعاون بين جامعة هونغ كونغ الصينية ومعهد ماساتشوستس للتكنولوجيا، والتي يمكن أن تمدد طول النص لنموذج 7B إلى 100,000 توكن، ونموذج 70B إلى 32,000 توكن.

في الوقت الحالي، تعتبر الشركات والمؤسسات البحثية الكبرى مثل OpenAI وAnthropic وMeta و"وجه القمر المظلم" من الشركات الرائدة في تطوير نماذج الذكاء الاصطناعي، حيث يركزون على توسيع طول السياق كأحد أولويات الترقية. كما أن هذه الشركات تعتبر من الأهداف المفضلة في سوق رأس المال. حصلت OpenAI على استثمار يقارب 12 مليار دولار، ومن المتوقع أن تصل قيمة Anthropic إلى 30 مليار دولار، بينما أكملت "وجه القمر المظلم" تمويلًا يقارب 2 مليار يوان في غضون ستة أشهر فقط.

ما معنى أن تتنافس شركات النماذج الكبيرة في تجاوز تقنية النصوص الطويلة، مما يعني توسيع طول السياق بمقدار 100 مرة؟

سطحياً، يعني هذا أن النموذج يمكنه إدخال نصوص أطول ولديه قدرة قراءة أعلى. يمكن لـ GPT-3.5 إدخال حوالي 2000 حرف صيني فقط بحد أقصى 4000 توكن، بينما يمكن لـ Kimi Chat إدخال 200000 حرف صيني بحد أقصى 400000 توكن، وهو ما يكفي لقراءة رواية طويلة.

من منظور أعمق، تعمل تقنيات النصوص الطويلة على دفع تطبيق النماذج الكبيرة في مجالات مثل المال، والعدالة، والبحث العلمي. في هذه المجالات، تعتبر مهارات تلخيص الوثائق الطويلة، وفهم القراءة، والإجابة على الأسئلة من المتطلبات الأساسية، كما أنها الاتجاه الذي يحتاج إلى ترقية ذكية.

ومع ذلك، فإن طول النص، مثل معلمات النموذج، ليس بالضرورة أفضل كلما كان أطول. أظهرت الدراسات أن دعم النموذج لإدخال سياق أطول لا يعني بالضرورة تحقيق نتائج أفضل. المفتاح هو كيفية استغلال النموذج لمحتوى السياق بشكل فعال.

ومع ذلك، لم تصل الأبحاث الداخلية والخارجية حول طول النص إلى "نقطة حرجة" بعد. لا تزال شركات النماذج الكبرى تعمل على تحقيق الاختراقات، وقد تكون 400,000 توكن مجرد بداية.

لماذا يجب "لف" النصوص الطويلة؟

أشار مؤسس جانب القمر المظلم، يانغ زهي لين، إلى أن السبب في صعوبة تطبيق العديد من التطبيقات هو أن طول مدخلات النماذج الكبيرة محدود. وهذا هو السبب وراء تركيز شركات النماذج الكبرى الحالية على تقنيات النصوص الطويلة.

على سبيل المثال، في مشهد الشخصيات الافتراضية، بسبب عدم كفاية قدرة النص الطويل، قد تنسى الشخصيات الافتراضية معلومات مهمة. عند تطوير ألعاب من نوع القتل بالسيناريو، قد يؤدي عدم كفاية طول الإدخال إلى تقليل القواعد والإعدادات، مما يؤدي إلى عدم تحقيق النتائج المتوقعة. في المجالات المهنية مثل القانون والبنوك، غالبًا ما تعترض التحليلات والتوليد العميق للمحتوى.

تلعب النصوص الطويلة أيضًا دورًا مهمًا في تطبيقات Agent و AI الأصلية في المستقبل. تحتاج الـ Agent إلى الاعتماد على المعلومات التاريخية للتخطيط واتخاذ القرارات، بينما تحتاج التطبيقات الأصلية للذكاء الاصطناعي إلى السياق للحفاظ على تجربة مستخدم متسقة وشخصية.

يعتقد يانغ تشي لين أن الضغط غير المفقود للبيانات الضخمة، سواء كانت نصوصًا أو صوتيات أو فيديوهات، يمكن أن يحقق مستوى عالٍ من الذكاء. إن الحد الأقصى للنموذج الكبير يتحدد من خلال القدرة على الخطوة الواحدة وعدد خطوات التنفيذ، حيث ترتبط القدرة على الخطوة الواحدة بكمية المعلمات، بينما يشير عدد خطوات التنفيذ إلى طول السياق.

في الوقت نفسه، يمكن لنصوص طويلة أن تساعد النموذج على الحكم بدقة أكبر على المعنى من خلال توفير المزيد من السياق والمعلومات التفصيلية، مما يقلل من الغموض ويزيد من دقة الاستدلال.

تكنولوجيا النصوص الطويلة يمكن أن تحل بعض المشاكل المبكرة للنماذج الكبيرة، وتعزز بعض الوظائف، كما أنها التقنية الرئيسية لدفع تطبيقات الصناعة إلى الأمام. وهذا يُشير إلى دخول تطوير النماذج الكبيرة العامة إلى مرحلة جديدة من LLM إلى Long LLM.

كمثال على Kimi Chat الذي تم إصداره حديثًا من الجانب المظلم للقمر، يمكن إلقاء نظرة على ميزات ترقية النماذج الكبيرة في مرحلة Long LLM:

  • استخراج المعلومات الأساسية، والتلخيص، والتحليل للنصوص الطويلة للغاية
  • تحويل الورقة البحثية مباشرة إلى كود، مع القدرة على تعديلها بناءً على ذلك
  • تحقيق الأدوار، يمكن التحدث مع الشخصيات العامة أو الشخصيات الافتراضية

هذا يشير إلى أن الروبوتات الحوارية تتطور نحو التخصص والشخصية والعمق، وقد تكون هذه وسيلة أخرى لتحفيز تطبيقات الصناعة وتحقيق تطبيقات فائقة.

يعتقد يانغ زهي لين أن سوق النماذج الكبيرة في البلاد سينقسم إلى معسكرين: toB و toC. في مجال toC، ستظهر تطبيقات فائقة تعتمد على نماذج تم تطويرها ذاتيًا.

ومع ذلك، لا يزال هناك مجال كبير لتحسين مشاهد الحوار الطويلة في السوق الحالية. مثل عدم دعم الوصول إلى الإنترنت للحصول على أحدث المعلومات، وعدم إمكانية إيقاف عملية التوليد لتعديلها، وما زالت تحدث أحيانًا حالات من الهراء.

مأزق "المثلث المستحيل" في النصوص الطويلة

في تقنيات النصوص الطويلة، توجد معضلة "مثلث المستحيل" بين طول النص، والانتباه، والحوسبة:

  • كلما كان النص أطول، كان من الصعب جمع الانتباه الكافي، وصعب هضمه بشكل كامل.
  • التركيز محدود، النصوص القصيرة لا يمكنها تفسير المعلومات المعقدة بالكامل
  • معالجة النصوص الطويلة تتطلب قوة حسابية كبيرة، مما يزيد من التكاليف

تعود جذور هذه الأزمة إلى النماذج الكبيرة الحالية التي تعتمد بشكل أساسي على هيكل الـ Transformer. على الرغم من أن آلية الانتباه الذاتي الأكثر أهمية يمكن أن تتجاوز قيود ترتيب المدخلات، إلا أن عبء الحساب سيزداد بشكل متزايد مع طول السياق.

هذا يشكل المجموعة الأولى من التناقضات في "مثلث المستحيل": طول النص والانتباه. في نفس الوقت، يتطلب معالجة النصوص الطويلة المزيد من القوة الحاسوبية، مما يشكل المجموعة الثانية من التناقضات في ظل نقص القوة الحاسوبية.

هناك حاليًا ثلاث حلول رئيسية:

  1. استخدام أدوات خارجية لمساعدة في معالجة النصوص الطويلة، تقسيم النص الطويل إلى نصوص قصيرة متعددة.

  2. تحسين حساب آلية الانتباه الذاتي، مثل تقنية LongLoRA التي تقلل من كمية الحساب من خلال حساب المجموعات.

  3. تحسين النموذج، مثل LongLLaMA الذي يدعم تسلسلات أطول من خلال تعديل النموذج الحالي.

قد تكون "مشكلة مثلث المستحيل" الخاصة بالنصوص الطويلة بلا حل مؤقت، لكن هذا يحدد بوضوح مسار استكشاف الشركات المصنعة للنماذج الكبيرة: السعي لتحقيق توازن بين طول النصوص، والانتباه، والقوة الحاسوبية، بحيث يمكن معالجة معلومات كافية مع الأخذ في الاعتبار تكاليف حساب الانتباه والقوة الحاسوبية.

TOKEN3.57%
شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
  • أعجبني
  • 5
  • مشاركة
تعليق
0/400
LiquidationWatchervip
· 07-15 12:13
قوة الحوسبة这么贵 يُستغل بغباء.还差不多
شاهد النسخة الأصليةرد0
LiquidationAlertvip
· 07-13 09:58
انظر من لديه قوة الحوسبة الكافية
شاهد النسخة الأصليةرد0
RiddleMastervip
· 07-12 12:53
لم يصل بعد إلى الواقع حتى الآن
شاهد النسخة الأصليةرد0
CrossChainBreathervip
· 07-12 12:36
هذا الاختناق سيتجاوز عاجلاً أم آجلاً
شاهد النسخة الأصليةرد0
SilentObservervip
· 07-12 12:32
العشب يلعب بهذا الحجم الكبير
شاهد النسخة الأصليةرد0
  • تثبيت