Способности больших моделей к обработке длинного текста возросли в сто раз, став новым стандартом развития ИИ.

2025-07-18 02:27:45

Генерация тезисов в процессе

Долгие тексты: Новая "стандартная функция" больших моделей

С быстрым развитием технологий искусственного интеллекта способность больших моделей обрабатывать длинные тексты становится новым стандартом для оценки их современности. С первоначальных 4000 токенов до нынешних 400000 токенов, длина контекстного ввода больших моделей увеличилась в сотни раз за короткий промежуток времени.

В настоящее время ведущие компании и исследовательские учреждения в области технологий больших моделей как в стране, так и за рубежом сосредоточены на увеличении длины контекста как ключевом направлении обновления. Что касается зарубежных компаний, OpenAI многократно обновляла и увеличила длину контекста GPT-3.5 и GPT-4 до 16,000 и 32,000 токенов соответственно. Anthropic же в один момент расширила длину контекста своей модели Claude до 100,000 токенов. LongLLaMA же увеличила длину контекста до 256,000 токенов и даже больше.

На внутреннем рынке стартап компании "Темная сторона Луны" под названием Kimi Chat поддерживает ввод 200000 иероглифов, что эквивалентно примерно 400000 токенам. Технология LongLoRA, разработанная совместно Китайским университетом и MIT, может увеличить длину текста 7B модели до 100000 токенов, а 70B модели до 32000 токенов.

Улучшение способностей к обработке длинных текстов принесло множество преимуществ. Во-первых, модели могут обрабатывать более длинные входные тексты, от коротких статей до романов и даже целых книг. Во-вторых, способность работы с длинными текстами способствует применению больших моделей в таких профессиональных областях, как финансы, юриспруденция и научные исследования, предоставляя основу для таких задач, как резюмирование длинных документов, понимание прочитанного и вопросы-ответы. Кроме того, работа с длинными текстами помогает уменьшить проблему иллюзий в моделях, предоставляя больше контекста и деталей для поддержки понимания и рассуждений моделей.

Однако расширение способности работы с длинными текстами также сталкивается с вызовами. Основная проблема заключается в "невозможном треугольнике" между длиной текста, механизмом внимания и требованиями к вычислительной мощности: чем длиннее текст, тем труднее сосредоточиться на ключевой информации; вычислительная нагрузка механизма внимания увеличивается в квадратной зависимости от длины текста; обработка длинных текстов требует значительной вычислительной мощности, что увеличивает затраты.

Для решения этих проблем исследователи предложили несколько решений, включая использование внешних инструментов для помощи в обработке, оптимизацию вычислений механизма самовнимания, использование методов оптимизации модели и т.д. Тем не менее, повышение способности обработки длинных текстов по-прежнему остается сложной технической задачей, требующей поиска оптимального баланса между длиной текста, вниманием и вычислительной мощностью.

В целом, повышение способности обработки длинных текстов знаменует собой новый этап развития больших моделей. Это не только решает некоторые проблемы, существовавшие в ранних версиях больших моделей, но и предоставляет ключевую техническую поддержку для продвижения отраслевых приложений и реализации суперприложений. В будущем, с постоянным прогрессом технологий, способность обработки длинных текстов, вероятно, продолжит улучшаться, прокладывая путь для применения искусственного интеллекта в более широких областях.

TOKEN0.63%

Посмотреть Оригинал

На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .

12 Лайков

Награда
12
5
Поделиться

комментарий

0/400

BearMarketMonk

· 07-21 02:25

Короткие и длинные хорошо.

Посмотреть ОригиналОтветить0

NftPhilanthropist

· 07-20 12:53

сер... просто токенизируйте блоки памяти и позвольте управлению dao справляться с масштабированием

Посмотреть ОригиналОтветить0

GasFeeTears

· 07-18 02:56

Модель все еще не понимает, как сказать "тысяча иероглифов".

Посмотреть ОригиналОтветить0

quiet_lurker

· 07-18 02:35

Дул полдня, так и не сказал, сколько именно можно вырастить.

Посмотреть ОригиналОтветить0

ForumLurker

· 07-18 02:31

Снова хвалят способности, плохой отзыв

Посмотреть ОригиналОтветить0

Тема
1/3
1Gate ETH Staking APY 5%
966 Популярность
2Show My Alpha Points
23k Популярность
3SOL Futures Reach New High
5k Популярность
4ETH ETF Sees 12 Weeks of Inflows
4k Популярность
5Crypto Market Rebound
170k Популярность

Закрепить

Карта сайта