El gran modelo rompe los 400,000 tokens y la capacidad de texto largo lidera la nueva era de LLM.

robot
Generación de resúmenes en curso

La capacidad de los grandes modelos para manejar textos largos ha mejorado rápidamente, 400,000 tokens pueden ser solo el comienzo.

La capacidad de los grandes modelos para procesar textos largos está mejorando a un ritmo asombroso. Desde los inicialmente 4000 tokens hasta los actuales 400,000 tokens, el crecimiento de esta capacidad es claramente visible.

La capacidad de procesamiento de textos largos parece haberse convertido en un nuevo estándar para los fabricantes de grandes modelos. A nivel internacional, OpenAI ha aumentado la longitud de entrada de contexto de GPT-3.5 y GPT-4 a 16,000 y 32,000 tokens, respectivamente, a través de múltiples actualizaciones. Anthropic, por su parte, ha elevado la longitud de contexto de su modelo Claude a 100,000 tokens de una sola vez. LongLLaMA incluso ha expandido este número a 256,000 tokens.

El mercado nacional tampoco se queda atrás. Según se informa, Kimi Chat, lanzado por la startup "La cara oculta de la luna", admite la entrada de 200,000 caracteres chinos, lo que equivale a aproximadamente 400,000 tokens. La tecnología LongLoRA, desarrollada conjuntamente por la Universidad de Hong Kong y el MIT, puede ampliar la longitud del texto del modelo de 7B a 100,000 tokens y del modelo de 70B a 32,000 tokens.

Actualmente, varias de las principales empresas de modelos grandes, incluidas OpenAI, Anthropic, Meta y Moonlight, están enfocando sus actualizaciones en la expansión de la longitud del contexto. Sin excepción, estas empresas son queridas por el mercado de capitales, con rondas de financiamiento que alcanzan fácilmente decenas de miles de millones de dólares.

La ruptura de la tecnología de texto largo tiene un significado importante. A primera vista, esto significa que el modelo puede manejar textos de entrada más largos, lo que mejora significativamente su capacidad de lectura. A un nivel más profundo, esta tecnología está impulsando la implementación de grandes modelos en campos profesionales como las finanzas, el derecho y la investigación científica.

Sin embargo, es importante tener en cuenta que la longitud del texto no siempre es mejor. Los estudios muestran que el hecho de que un modelo soporte entradas de contexto más largas no equivale a una mejora en el rendimiento. La clave está en cómo el modelo utiliza eficazmente el contenido del contexto.

Sin embargo, la exploración actual de la longitud del texto parece estar lejos de alcanzar el límite. 400,000 tokens pueden ser solo un comienzo, y las empresas de modelos grandes siguen esforzándose por superar este límite.

La ruptura de la tecnología de texto largo no solo ha resuelto algunos de los problemas que enfrentaban los grandes modelos en sus primeras etapas, sino que también ha mejorado su funcionalidad. Esto marca la entrada de los grandes modelos generales en una nueva etapa de desarrollo: de LLM a la era de Long LLM.

La tecnología de texto largo ha traído muchas nuevas capacidades a los grandes modelos. Por ejemplo, puede analizar rápidamente largos artículos, extraer información clave de informes financieros y permitir interacciones de preguntas y respuestas sobre libros enteros. En el ámbito del código, incluso puede convertir directamente artículos en código. En escenarios de diálogos largos, también puede lograr interacciones más especializadas, personalizadas y profundas.

Sin embargo, el desarrollo de la tecnología de texto largo también enfrenta el dilema del "triángulo imposible": existe una restricción mutua entre la longitud del texto, la atención y la capacidad de cálculo. A medida que la longitud del texto aumenta, el modelo tiene dificultades para concentrar suficiente atención, y al mismo tiempo requiere más soporte de capacidad de cálculo.

Actualmente, la industria utiliza principalmente tres soluciones para enfrentar este desafío: utilizar herramientas externas para ayudar a procesar textos largos, optimizar el cálculo del mecanismo de atención y optimizar el modelo. Cada solución tiene sus ventajas y desventajas, y las empresas de grandes modelos están trabajando para encontrar el mejor equilibrio entre la longitud del texto, la atención y la capacidad de cómputo.

Con el constante avance de la tecnología, se espera que la capacidad de procesamiento de textos largos mejore aún más, allanando el camino para la aplicación de grandes modelos en más campos.

TOKEN-3.71%
Ver originales
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • 7
  • Compartir
Comentar
0/400
NFTArchaeologistvip
· 07-24 00:05
¿Cuánto cuesta la potencia computacional? Reconocer el dinero, no a la gente.
Ver originalesResponder0
FlashLoanPrincevip
· 07-23 21:51
Mejora de rendimiento, Potencia computacional bomba y listo.
Ver originalesResponder0
AirdropHarvestervip
· 07-23 10:30
Este token sube muy rápido, ¡cien veces!
Ver originalesResponder0
CryptoSurvivorvip
· 07-21 05:41
Cuanto más sube, más tranquilo; cuanto más cae, más emocionado.
Ver originalesResponder0
PumpStrategistvip
· 07-21 05:40
subir como este, riesgo técnico +1, atención a retroceso en niveles altos
Ver originalesResponder0
HodlOrRegretvip
· 07-21 05:37
La aceleración es demasiado intensa, increíble.
Ver originalesResponder0
HappyToBeDumpedvip
· 07-21 05:33
No entendí la IA ni con 40,000 palabras.
Ver originalesResponder0
Opere con criptomonedas en cualquier momento y lugar
qrCode
Escanee para descargar la aplicación Gate
Comunidad
Español
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)