Великі моделі мають в сотні разів більшу здатність до роботи з довгими текстами, що стає новим стандартом розвитку ШІ.

2025-07-18 02:27:45

Генерація анотацій у процесі

Довгий текст: новий "стандарт" великих моделей

З розвитком технологій штучного інтелекту, здатність великих моделей обробляти довгі тексти стає новим стандартом вимірювання їхньої передовості. Від початкових 4000 токенів до теперішніх 400000 токенів, довжина вхідного контексту великих моделей за короткий час зросла в сотні разів.

Наразі провідні компанії та дослідницькі установи в галузі технологій великих моделей в Україні та за кордоном зосереджують свої зусилля на розширенні довжини контексту як ключовому напрямку оновлення. З-за кордону, OpenAI неодноразово оновлювала GPT-3.5 і GPT-4, збільшивши їхню довжину контексту до 16 тисяч і 32 тисяч токенів відповідно. Anthropic навіть розширила довжину контексту своєї моделі Claude до 100 тисяч токенів. LongLLaMA ж підняла довжину контексту до 256 тисяч токенів і навіть більше.

На внутрішньому ринку стартап компанії "Місяць тінь" представив Kimi Chat, який підтримує введення 200 тисяч китайських ієрогліфів, що приблизно дорівнює 400 тисячам токенів. Технологія LongLoRA, розроблена спільно Гонконгським університетом китайської мови та MIT, дозволяє розширити довжину тексту для 7B моделей до 100 тисяч токенів, а для 70B моделей до 32 тисяч токенів.

Покращення можливостей роботи з довгими текстами принесло численні переваги. По-перше, модель може обробляти довші вхідні тексти, розширюючись від коротких статей до романів і навіть цілих книг. По-друге, можливості роботи з довгими текстами сприяють застосуванню великих моделей у професійних сферах, таких як фінанси, юстиція, наука, забезпечуючи основу для завдань, пов'язаних із резюме довгих документів, розумінням прочитаного та запитаннями-відповідями. Крім того, довгі тексти допомагають зменшити проблему ілюзій у моделях, надаючи більше контексту та детальної інформації для підтримки розуміння та міркувань моделі.

Однак розширення можливостей обробки довгих текстів також стикається з викликами. Основною проблемою є «неможливий трикутник» між довжиною тексту, механізмом уваги та вимогами до обчислювальної потужності: чим довший текст, тим складніше зосередитися на ключовій інформації; обсяг обчислень механізму уваги зростає в квадраті з довжиною тексту; обробка довгих текстів вимагає великої обчислювальної потужності, що підвищує витрати.

Для розв'язання цих проблем дослідники запропонували кілька рішень, зокрема використання зовнішніх інструментів для допомоги в обробці, оптимізацію обчислень самостійної уваги, використання оптимізації моделі та інші методи. Попри це, підвищення здатності до обробки довгих текстів все ще є складним технічним викликом, що вимагає пошуку оптимального балансу між довжиною тексту, увагою та обчислювальною потужністю.

В цілому, покращення здатності обробки довгих текстів є ознакою того, що великі моделі входять у нову стадію розвитку. Це не тільки вирішує деякі проблеми, які існували на ранніх етапах великих моделей, але й забезпечує ключову технологічну підтримку для реалізації промислових застосувань та супердодатків. У майбутньому, з постійним розвитком технологій, здатність обробки довгих текстів, ймовірно, продовжить покращуватися, прокладаючи шлях для застосування штучного інтелекту в більш широких сферах.

TOKEN0.12%

Переглянути оригінал

Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.

12 лайків

Нагородити
12
5
Поділіться

Прокоментувати

0/400

BearMarketMonk

· 07-21 02:25

Короткий і довгий - це добре