La capacidad de los grandes modelos para manejar textos largos ha subido cien veces, convirtiéndose en un nuevo estándar en el desarrollo de la IA.

robot
Generación de resúmenes en curso

Capacidad de texto largo: "estándar" de nuevos modelos grandes

Con el rápido desarrollo de la tecnología de inteligencia artificial, la capacidad de procesamiento de texto largo de los grandes modelos se está convirtiendo en un nuevo estándar para medir su sofisticación. Desde los iniciales 4000 tokens hasta los actuales 400,000 tokens, la longitud de entrada del contexto de los grandes modelos ha crecido cien veces en un corto período de tiempo.

Actualmente, las principales empresas de tecnología de modelos y los institutos de investigación tanto nacionales como internacionales están enfocando sus actualizaciones en la expansión de la longitud del contexto. En el extranjero, OpenAI ha aumentado la longitud del contexto de GPT-3.5 y GPT-4 a 16,000 y 32,000 tokens respectivamente a través de múltiples actualizaciones. Anthropic ha llevado la longitud del contexto de su modelo Claude a 100,000 tokens. LongLLaMA ha empujado la longitud del contexto a 256,000 tokens o incluso más.

En el ámbito nacional, Kimi Chat, lanzado por la startup de modelos grandes "El Lado Oscuro de la Luna", admite la entrada de 200,000 caracteres chinos, lo que equivale a aproximadamente 400,000 tokens. La tecnología LongLoRA, desarrollada conjuntamente por la Universidad China de Hong Kong y el MIT, puede ampliar la longitud del texto del modelo de 7B a 100,000 tokens y del modelo de 70B a 32,000 tokens.

La mejora de la capacidad de manejar textos largos ha traído múltiples beneficios. En primer lugar, el modelo puede procesar entradas de texto más largas, expandiéndose de textos cortos a novelas largas e incluso a libros completos. En segundo lugar, la capacidad para manejar textos largos impulsa la aplicación de grandes modelos en campos profesionales como las finanzas, la justicia y la investigación científica, proporcionando una base para tareas como el resumen de documentos largos, la comprensión de lectura y las preguntas y respuestas. Además, los textos largos ayudan a reducir el problema de las alucinaciones del modelo, al ofrecer más contexto e información detallada para ayudar al modelo a entender y razonar.

Sin embargo, la capacidad de expandir el texto largo también enfrenta desafíos. Existe principalmente el dilema del "triángulo imposible" entre la longitud del texto, el mecanismo de atención y la demanda de potencia de cálculo: cuanto más largo es el texto, más difícil es centrarse en la información clave; la cantidad de cálculo del mecanismo de atención crece de manera cuadrática con la longitud del texto; procesar textos largos requiere una gran cantidad de potencia de cálculo, lo que aumenta los costos.

Para abordar estos problemas, los investigadores han propuesto diversas soluciones, incluyendo el uso de herramientas externas para ayudar en el procesamiento, la optimización del cálculo del mecanismo de atención y el uso de la optimización de modelos. A pesar de esto, mejorar la capacidad de procesamiento de texto largo sigue siendo un desafío técnico complejo, que requiere encontrar el mejor punto de equilibrio entre la longitud del texto, la atención y la potencia de cálculo.

En general, la mejora de la capacidad de procesamiento de textos largos marca la entrada de los grandes modelos en una nueva etapa de desarrollo. No solo aborda algunos de los problemas que existían en las primeras versiones de los grandes modelos, sino que también proporciona un soporte técnico clave para impulsar la aplicación industrial y el despliegue de superaplicaciones. En el futuro, a medida que la tecnología continúe avanzando, se espera que la capacidad de procesamiento de textos largos siga mejorando, allanando el camino para la aplicación de la inteligencia artificial en una gama más amplia de campos.

TOKEN-6.37%
Ver originales
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • 5
  • Compartir
Comentar
0/400
BearMarketMonkvip
· 07-21 02:25
corto y largo es bastante bueno
Ver originalesResponder0
NftPhilanthropistvip
· 07-20 12:53
ser... solo tokeniza los bloques de memoria y deja que la gobernanza del dao maneje la escalabilidad
Ver originalesResponder0
GasFeeTearsvip
· 07-18 02:56
El modelo todavía no entiende cómo se dice el texto de mil caracteres.
Ver originalesResponder0
quiet_lurkervip
· 07-18 02:35
Sopló durante medio día sin decir exactamente cuánto puede crecer.
Ver originalesResponder0
ForumLurkervip
· 07-18 02:31
Otra vez hablando de valores de habilidades, mala reseña.
Ver originalesResponder0
Opere con criptomonedas en cualquier momento y lugar
qrCode
Escanee para descargar la aplicación Gate
Comunidad
Español
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)