Долгие тексты: Новая "стандартная функция" больших моделей
С быстрым развитием технологий искусственного интеллекта способность больших моделей обрабатывать длинные тексты становится новым стандартом для оценки их современности. С первоначальных 4000 токенов до нынешних 400000 токенов, длина контекстного ввода больших моделей увеличилась в сотни раз за короткий промежуток времени.
В настоящее время ведущие компании и исследовательские учреждения в области технологий больших моделей как в стране, так и за рубежом сосредоточены на увеличении длины контекста как ключевом направлении обновления. Что касается зарубежных компаний, OpenAI многократно обновляла и увеличила длину контекста GPT-3.5 и GPT-4 до 16,000 и 32,000 токенов соответственно. Anthropic же в один момент расширила длину контекста своей модели Claude до 100,000 токенов. LongLLaMA же увеличила длину контекста до 256,000 токенов и даже больше.
На внутреннем рынке стартап компании "Темная сторона Луны" под названием Kimi Chat поддерживает ввод 200000 иероглифов, что эквивалентно примерно 400000 токенам. Технология LongLoRA, разработанная совместно Китайским университетом и MIT, может увеличить длину текста 7B модели до 100000 токенов, а 70B модели до 32000 токенов.
Улучшение способностей к обработке длинных текстов принесло множество преимуществ. Во-первых, модели могут обрабатывать более длинные входные тексты, от коротких статей до романов и даже целых книг. Во-вторых, способность работы с длинными текстами способствует применению больших моделей в таких профессиональных областях, как финансы, юриспруденция и научные исследования, предоставляя основу для таких задач, как резюмирование длинных документов, понимание прочитанного и вопросы-ответы. Кроме того, работа с длинными текстами помогает уменьшить проблему иллюзий в моделях, предоставляя больше контекста и деталей для поддержки понимания и рассуждений моделей.
Однако расширение способности работы с длинными текстами также сталкивается с вызовами. Основная проблема заключается в "невозможном треугольнике" между длиной текста, механизмом внимания и требованиями к вычислительной мощности: чем длиннее текст, тем труднее сосредоточиться на ключевой информации; вычислительная нагрузка механизма внимания увеличивается в квадратной зависимости от длины текста; обработка длинных текстов требует значительной вычислительной мощности, что увеличивает затраты.
Для решения этих проблем исследователи предложили несколько решений, включая использование внешних инструментов для помощи в обработке, оптимизацию вычислений механизма самовнимания, использование методов оптимизации модели и т.д. Тем не менее, повышение способности обработки длинных текстов по-прежнему остается сложной технической задачей, требующей поиска оптимального баланса между длиной текста, вниманием и вычислительной мощностью.
В целом, повышение способности обработки длинных текстов знаменует собой новый этап развития больших моделей. Это не только решает некоторые проблемы, существовавшие в ранних версиях больших моделей, но и предоставляет ключевую техническую поддержку для продвижения отраслевых приложений и реализации суперприложений. В будущем, с постоянным прогрессом технологий, способность обработки длинных текстов, вероятно, продолжит улучшаться, прокладывая путь для применения искусственного интеллекта в более широких областях.
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
12 Лайков
Награда
12
5
Поделиться
комментарий
0/400
BearMarketMonk
· 07-21 02:25
Короткие и длинные хорошо.
Посмотреть ОригиналОтветить0
NftPhilanthropist
· 07-20 12:53
сер... просто токенизируйте блоки памяти и позвольте управлению dao справляться с масштабированием
Посмотреть ОригиналОтветить0
GasFeeTears
· 07-18 02:56
Модель все еще не понимает, как сказать "тысяча иероглифов".
Посмотреть ОригиналОтветить0
quiet_lurker
· 07-18 02:35
Дул полдня, так и не сказал, сколько именно можно вырастить.
Способности больших моделей к обработке длинного текста возросли в сто раз, став новым стандартом развития ИИ.
Долгие тексты: Новая "стандартная функция" больших моделей
С быстрым развитием технологий искусственного интеллекта способность больших моделей обрабатывать длинные тексты становится новым стандартом для оценки их современности. С первоначальных 4000 токенов до нынешних 400000 токенов, длина контекстного ввода больших моделей увеличилась в сотни раз за короткий промежуток времени.
В настоящее время ведущие компании и исследовательские учреждения в области технологий больших моделей как в стране, так и за рубежом сосредоточены на увеличении длины контекста как ключевом направлении обновления. Что касается зарубежных компаний, OpenAI многократно обновляла и увеличила длину контекста GPT-3.5 и GPT-4 до 16,000 и 32,000 токенов соответственно. Anthropic же в один момент расширила длину контекста своей модели Claude до 100,000 токенов. LongLLaMA же увеличила длину контекста до 256,000 токенов и даже больше.
На внутреннем рынке стартап компании "Темная сторона Луны" под названием Kimi Chat поддерживает ввод 200000 иероглифов, что эквивалентно примерно 400000 токенам. Технология LongLoRA, разработанная совместно Китайским университетом и MIT, может увеличить длину текста 7B модели до 100000 токенов, а 70B модели до 32000 токенов.
Улучшение способностей к обработке длинных текстов принесло множество преимуществ. Во-первых, модели могут обрабатывать более длинные входные тексты, от коротких статей до романов и даже целых книг. Во-вторых, способность работы с длинными текстами способствует применению больших моделей в таких профессиональных областях, как финансы, юриспруденция и научные исследования, предоставляя основу для таких задач, как резюмирование длинных документов, понимание прочитанного и вопросы-ответы. Кроме того, работа с длинными текстами помогает уменьшить проблему иллюзий в моделях, предоставляя больше контекста и деталей для поддержки понимания и рассуждений моделей.
Однако расширение способности работы с длинными текстами также сталкивается с вызовами. Основная проблема заключается в "невозможном треугольнике" между длиной текста, механизмом внимания и требованиями к вычислительной мощности: чем длиннее текст, тем труднее сосредоточиться на ключевой информации; вычислительная нагрузка механизма внимания увеличивается в квадратной зависимости от длины текста; обработка длинных текстов требует значительной вычислительной мощности, что увеличивает затраты.
Для решения этих проблем исследователи предложили несколько решений, включая использование внешних инструментов для помощи в обработке, оптимизацию вычислений механизма самовнимания, использование методов оптимизации модели и т.д. Тем не менее, повышение способности обработки длинных текстов по-прежнему остается сложной технической задачей, требующей поиска оптимального баланса между длиной текста, вниманием и вычислительной мощностью.
В целом, повышение способности обработки длинных текстов знаменует собой новый этап развития больших моделей. Это не только решает некоторые проблемы, существовавшие в ранних версиях больших моделей, но и предоставляет ключевую техническую поддержку для продвижения отраслевых приложений и реализации суперприложений. В будущем, с постоянным прогрессом технологий, способность обработки длинных текстов, вероятно, продолжит улучшаться, прокладывая путь для применения искусственного интеллекта в более широких областях.