Большая модель преодолела 400000 токенов, способности к длинным текстам открывают новую эпоху LLM.

robot
Генерация тезисов в процессе

Способности больших моделей к обработке длинных текстов быстро растут, 400000 токенов могут быть только началом

Способность больших моделей обрабатывать длинные тексты растет с поразительной скоростью. С первоначальных 4000 токенов до нынешних 400000 токенов, этот рост способности очевиден невооруженным глазом.

Способность обрабатывать длинные тексты, похоже, стала новым стандартом для производителей крупных моделей. На международной арене OpenAI многократно обновляла GPT-3.5 и GPT-4, увеличив длину контекста ввода до 16 000 и 32 000 токенов соответственно. Anthropic даже увеличила длину контекста своей модели Claude до 100 000 токенов. LongLLaMA даже расширила эту цифру до 256 000 токенов.

Внутренний рынок тоже не отстает. Как сообщается, стартап "Лунная сторона" запустил Kimi Chat, который поддерживает ввод 200 000 иероглифов, что эквивалентно 400 000 токенов. Технология LongLoRA, разработанная совместно Гонконгским китайским университетом и MIT, позволяет увеличить длину текста для модели 7B до 100 000 токенов, а для модели 70B — до 32 000 токенов.

В настоящее время несколько ведущих компаний по разработке крупных моделей, включая OpenAI, Anthropic, Meta и Лунную Тень, делают акцент на расширении длины контекста в качестве ключевого направления обновлений. Эти компании, без исключения, являются любимцами капитального рынка, и объемы финансирования составляют десятки миллиардов долларов.

Прорыв в технологии обработки длинных текстов имеет огромное значение. На поверхностном уровне это означает, что модели могут обрабатывать более длинные входные тексты, что значительно улучшает их способности к чтению. На более глубоком уровне эта технология способствует внедрению больших моделей в таких профессиональных областях, как финансы, право и научные исследования.

Однако стоит отметить, что длина текста не всегда означает лучшее качество. Исследования показывают, что поддержка более длинного контекстного ввода моделью не равнозначна повышению производительности. Ключевым моментом является то, как модель эффективно использует контент контекста.

Тем не менее, текущее исследование длины текстов, похоже, еще далеко от достижения предела. 400000 токенов может быть лишь началом, компании по разработке крупных моделей продолжают неустанно работать над преодолением этой границы.

Прорыв в технологии длинных текстов не только решил некоторые проблемы, с которыми сталкивались большие модели на ранних стадиях, но и улучшил их функциональность. Это знаменует собой переход универсальных больших моделей на новый этап развития — от LLM к эпохе Long LLM.

Долгие текстовые технологии принесли много новых возможностей для больших моделей. Например, они могут быстро анализировать длинные статьи, извлекать ключевую информацию из финансовых отчетов и реализовывать взаимодействие в формате вопросов и ответов по целым книгам. В области кода они даже могут напрямую преобразовывать статьи в код. В сценариях длинных диалогов также возможно более профессиональное, персонализированное и глубокое взаимодействие.

Однако развитие технологий длинных текстов также сталкивается с трудностями "треугольника невозможного": существует взаимное ограничение между длиной текста, вниманием и вычислительной мощностью. С увеличением длины текста модели становится трудно сосредоточить достаточное внимание, а также необходимо больше вычислительной мощности.

В настоящее время в отрасли используются три основных решения для преодоления этой проблемы: использование внешних инструментов для обработки длинных текстов, оптимизация вычислений механизма самовнимания и оптимизация модели. У каждого из этих решений есть свои преимущества и недостатки, и компании с большими моделями прилагают усилия к поиску наилучшего баланса между длиной текста, вниманием и вычислительными мощностями.

С учетом непрерывного прогресса технологий, возможности обработки длинных текстов могут быть значительно улучшены, что проложит путь для применения больших моделей в более широком диапазоне областей.

TOKEN-5.02%
Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • 7
  • Поделиться
комментарий
0/400
NFTArchaeologistvip
· 07-24 00:05
Вычислительная мощность сколько стоит? Признаем деньги, а не людей.
Посмотреть ОригиналОтветить0
FlashLoanPrincevip
· 07-23 21:51
Повышение производительности, вычислительная мощность насос в полном объеме и дело с концом.
Посмотреть ОригиналОтветить0
AirdropHarvestervip
· 07-23 10:30
Этот токен растет действительно быстро, целых сто раз.
Посмотреть ОригиналОтветить0
CryptoSurvivorvip
· 07-21 05:41
Чем выше рост, тем спокойнее. Чем больше падение, тем больше волнение.
Посмотреть ОригиналОтветить0
PumpStrategistvip
· 07-21 05:40
рост像这样陡峭,технический риск+1,注意高位 откат
Посмотреть ОригиналОтветить0
HodlOrRegretvip
· 07-21 05:37
Ускорение слишком велико, невероятно.
Посмотреть ОригиналОтветить0
HappyToBeDumpedvip
· 07-21 05:33
40 тысяч слов тоже не помогли понять ai
Посмотреть ОригиналОтветить0
  • Закрепить