Способности больших моделей к обработке длинного текста возросли в сто раз, став новым стандартом развития ИИ.

robot
Генерация тезисов в процессе

Долгие тексты: Новая "стандартная функция" больших моделей

С быстрым развитием технологий искусственного интеллекта способность больших моделей обрабатывать длинные тексты становится новым стандартом для оценки их современности. С первоначальных 4000 токенов до нынешних 400000 токенов, длина контекстного ввода больших моделей увеличилась в сотни раз за короткий промежуток времени.

В настоящее время ведущие компании и исследовательские учреждения в области технологий больших моделей как в стране, так и за рубежом сосредоточены на увеличении длины контекста как ключевом направлении обновления. Что касается зарубежных компаний, OpenAI многократно обновляла и увеличила длину контекста GPT-3.5 и GPT-4 до 16,000 и 32,000 токенов соответственно. Anthropic же в один момент расширила длину контекста своей модели Claude до 100,000 токенов. LongLLaMA же увеличила длину контекста до 256,000 токенов и даже больше.

На внутреннем рынке стартап компании "Темная сторона Луны" под названием Kimi Chat поддерживает ввод 200000 иероглифов, что эквивалентно примерно 400000 токенам. Технология LongLoRA, разработанная совместно Китайским университетом и MIT, может увеличить длину текста 7B модели до 100000 токенов, а 70B модели до 32000 токенов.

Улучшение способностей к обработке длинных текстов принесло множество преимуществ. Во-первых, модели могут обрабатывать более длинные входные тексты, от коротких статей до романов и даже целых книг. Во-вторых, способность работы с длинными текстами способствует применению больших моделей в таких профессиональных областях, как финансы, юриспруденция и научные исследования, предоставляя основу для таких задач, как резюмирование длинных документов, понимание прочитанного и вопросы-ответы. Кроме того, работа с длинными текстами помогает уменьшить проблему иллюзий в моделях, предоставляя больше контекста и деталей для поддержки понимания и рассуждений моделей.

Однако расширение способности работы с длинными текстами также сталкивается с вызовами. Основная проблема заключается в "невозможном треугольнике" между длиной текста, механизмом внимания и требованиями к вычислительной мощности: чем длиннее текст, тем труднее сосредоточиться на ключевой информации; вычислительная нагрузка механизма внимания увеличивается в квадратной зависимости от длины текста; обработка длинных текстов требует значительной вычислительной мощности, что увеличивает затраты.

Для решения этих проблем исследователи предложили несколько решений, включая использование внешних инструментов для помощи в обработке, оптимизацию вычислений механизма самовнимания, использование методов оптимизации модели и т.д. Тем не менее, повышение способности обработки длинных текстов по-прежнему остается сложной технической задачей, требующей поиска оптимального баланса между длиной текста, вниманием и вычислительной мощностью.

В целом, повышение способности обработки длинных текстов знаменует собой новый этап развития больших моделей. Это не только решает некоторые проблемы, существовавшие в ранних версиях больших моделей, но и предоставляет ключевую техническую поддержку для продвижения отраслевых приложений и реализации суперприложений. В будущем, с постоянным прогрессом технологий, способность обработки длинных текстов, вероятно, продолжит улучшаться, прокладывая путь для применения искусственного интеллекта в более широких областях.

TOKEN1.81%
Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • 5
  • Поделиться
комментарий
0/400
BearMarketMonkvip
· 07-21 02:25
Короткие и длинные хорошо.
Посмотреть ОригиналОтветить0
NftPhilanthropistvip
· 07-20 12:53
сер... просто токенизируйте блоки памяти и позвольте управлению dao справляться с масштабированием
Посмотреть ОригиналОтветить0
GasFeeTearsvip
· 07-18 02:56
Модель все еще не понимает, как сказать "тысяча иероглифов".
Посмотреть ОригиналОтветить0
quiet_lurkervip
· 07-18 02:35
Дул полдня, так и не сказал, сколько именно можно вырастить.
Посмотреть ОригиналОтветить0
ForumLurkervip
· 07-18 02:31
Снова хвалят способности, плохой отзыв
Посмотреть ОригиналОтветить0
  • Закрепить