La capacité des grands modèles à traiter des textes longs a connu une hausse centuple, devenant la nouvelle norme pour le développement de l'IA.

robot
Création du résumé en cours

Capacité de long texte : le nouveau "standard" des grands modèles

Avec le développement rapide des technologies d'intelligence artificielle, la capacité des grands modèles à traiter de longs textes devient un nouveau standard pour mesurer leur avancée. Passant des 4000 tokens initiaux à aujourd'hui 400 000 tokens, la longueur d'entrée contextuelle des grands modèles a connu une augmentation centuple en peu de temps.

Actuellement, les principales entreprises de technologie de modèles de grande taille et les instituts de recherche, tant nationaux qu'internationaux, considèrent l'extension de la longueur du contexte comme une direction de mise à niveau prioritaire. À l'étranger, OpenAI a augmenté la longueur du contexte de GPT-3.5 et GPT-4 respectivement à 16 000 et 32 000 tokens grâce à plusieurs mises à niveau. Anthropic a même porté la longueur du contexte de son modèle Claude à 100 000 tokens. LongLLaMA a quant à lui poussé la longueur du contexte à 256 000 tokens, voire plus.

Dans le domaine national, la startup de grands modèles Moonside a lancé Kimi Chat, qui prend en charge l'entrée de 200 000 caractères chinois, soit environ 400 000 tokens. La technologie LongLoRA, développée conjointement par l'Université Chinoise de Hong Kong et le MIT, peut étendre la longueur de texte des modèles de 7B à 100 000 tokens et celle des modèles de 70B à 32 000 tokens.

L'amélioration de la capacité à traiter des textes longs apporte de nombreux avantages. Tout d'abord, le modèle peut traiter des textes d'entrée plus longs, s'étendant de courts essais à des romans et même à des livres entiers. Deuxièmement, la capacité à traiter des textes longs favorise l'application de grands modèles dans des domaines spécialisés tels que la finance, la justice et la recherche scientifique, fournissant une base pour des tâches telles que le résumé de documents longs, la compréhension de lecture et les questions-réponses. De plus, les textes longs aident à réduire les problèmes d'illusions du modèle, en fournissant plus de contexte et d'informations détaillées pour aider le modèle à comprendre et à raisonner.

Cependant, la capacité à étendre les textes longs est également confrontée à des défis. Il existe principalement un dilemme des "trois impossibilités" entre la longueur du texte, le mécanisme d'attention et les exigences en termes de puissance de calcul : plus le texte est long, plus il est difficile de se concentrer sur les informations clés ; la charge de calcul du mécanisme d'attention augmente de manière quadratique avec la longueur du texte ; le traitement de longs textes nécessite une grande puissance de calcul, ce qui augmente les coûts.

Pour résoudre ces problèmes, les chercheurs ont proposé plusieurs solutions, y compris l'utilisation d'outils externes pour aider au traitement, l'optimisation du calcul des mécanismes d'attention, et l'utilisation de l'optimisation des modèles. Néanmoins, l'amélioration de la capacité de traitement des longs textes reste un défi technologique complexe, nécessitant de rechercher le meilleur compromis entre la longueur du texte, l'attention et la puissance de calcul.

Dans l'ensemble, l'amélioration de la capacité de traitement des longs textes marque une nouvelle étape dans le développement des grands modèles. Elle résout non seulement certains problèmes rencontrés par les grands modèles à leurs débuts, mais elle fournit également un soutien technologique clé pour promouvoir l'application industrielle et la mise en œuvre des super APP. À l'avenir, avec les progrès continus de la technologie, la capacité de traitement des longs textes devrait continuer à s'améliorer, ouvrant la voie à l'application de l'intelligence artificielle dans des domaines plus larges.

TOKEN-10.45%
Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • 5
  • Partager
Commentaire
0/400
BearMarketMonkvip
· 07-21 02:25
C'est bien court et long.
Voir l'originalRépondre0
NftPhilanthropistvip
· 07-20 12:53
ser... il suffit de tokeniser les blocs de mémoire et de laisser la gouvernance dao gérer l'échelle
Voir l'originalRépondre0
GasFeeTearsvip
· 07-18 02:56
Le modèle ne comprend toujours pas comment dire un texte de k caractères.
Voir l'originalRépondre0
quiet_lurkervip
· 07-18 02:35
Après avoir soufflé pendant un bon moment, il n'a pas dit combien cela pourrait vraiment augmenter.
Voir l'originalRépondre0
ForumLurkervip
· 07-18 02:31
Encore en train de souffler sur les valeurs de capacité, mauvaise critique
Voir l'originalRépondre0
  • Épingler
Trader les cryptos partout et à tout moment
qrCode
Scan pour télécharger Gate app
Communauté
Français (Afrique)
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)