Долгосрочные текстовые возможности становятся новой "стандартной комплектацией" больших моделей, 400000 токенов могут быть только началом
Большие модели стремительно повышают свои способности обработки длинных текстов, от 4000 токенов до 400000 токенов, и эта способность, похоже, стала новым стандартом для оценки технологической силы компаний, занимающихся большими моделями.
На международной арене OpenAI многократно обновляла GPT-3.5, увеличив длину входного контекста с 4000 до 16000 токенов, а GPT-4 — с 8000 до 32000 токенов. Anthropic даже расширила длину контекста до 100000 токенов. LongLLaMA даже довела это число до более чем 256000 токенов.
На внутреннем рынке стартап Kimi Chat, разработанный компанией 月之暗面, поддерживает ввод 200 000 иероглифов, что соответствует примерно 400 000 токенам. Технология LongLoRA, разработанная совместно Гонконгским китайским университетом и MIT, позволяет увеличить длину текста для модели 7B до 100 000 токенов, а для модели 70B - до 32 000 токенов.
В настоящее время многие ведущие компании и исследовательские учреждения в области больших моделей, включая OpenAI, Anthropic, Meta и Лунная Тень, делают расширение длины контекста одним из ключевых направлений технического обновления.
Все эти компании без исключения являются любимцами капитального рынка. OpenAI получил около 12 миллиардов долларов инвестиций, стоимость Anthropic, по ожиданиям, достигнет 30 миллиардов долларов, а созданная всего полгода назад "Темная сторона Луны" завершила два раунда финансирования на сумму почти 2 миллиарда юаней.
Прорыв в технологии обработки длинных текстов означает значительное улучшение способности модели к пониманию прочитанного. С первоначальных трудностей с прочтением статьи в публичном аккаунте до легкости чтения длинного романа и даже обработки сложной специализированной литературы. Эта технология также способствует внедрению больших моделей в таких областях, как финансы, юстиция и научные исследования.
Однако длина текста не всегда означает лучшее качество. Исследования показывают, что эффективное использование контекстного содержания важнее, чем простое увеличение длины. Тем не менее, текущее исследование, похоже, еще далеко от "критической точки", и 400 тысяч токенов может быть лишь началом.
Долгосрочные текстовые технологии не только решают некоторые проблемы, с которыми сталкивались большие модели на раннем этапе, но и усиливают их функциональность, становясь одной из ключевых технологий, способствующих индустриальному применению. Это знаменует собой переход больших моделей от LLM к Long LLM.
Применение технологий длинного текста уже проявилось в нескольких аспектах: быстрая аналитика длинных статей, извлечение ключевой информации из финансовых отчетов, прямая конвертация текста в код, сложные диалоги с ролевым взаимодействием и т.д. Эти функции показывают, что большие модели развиваются в направлении профессионализации, персонализации и углубления.
Тем не менее, технологии длинных текстов также сталкиваются с "треугольником невозможного": компромисс между длиной текста, вниманием и вычислительной мощностью. Чем длиннее текст, тем труднее сосредоточиться на ключевой информации; когда внимание ограничено, короткие тексты трудно полностью передать сложную информацию; обработка длинных текстов требует значительных вычислительных ресурсов, что увеличивает затраты.
В настоящее время существует три основных решения: использование внешних инструментов для поддержки обработки, оптимизация вычислений механизма самовнимания и использование методов оптимизации модели. У каждого из этих методов есть свои преимущества и недостатки, и их цель - найти оптимальный баланс между длиной текста, вниманием и вычислительной мощностью.
Несмотря на то, что технологии обработки длинных текстов по-прежнему сталкиваются с многочисленными проблемами, они, безусловно, являются одним из важных направлений развития больших моделей. С учетом постоянного прогресса технологий у нас есть все основания ожидать появления более мощных и умных возможностей обработки длинных текстов.
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
10 Лайков
Награда
10
8
Репост
Поделиться
комментарий
0/400
NervousFingers
· 07-24 16:10
70 тысяч? Да это ничего, я играю с 100 тысяч.
Посмотреть ОригиналОтветить0
NftDataDetective
· 07-24 09:33
хм 400k токенов... похоже, производители GPU будут в восторге от этого
Посмотреть ОригиналОтветить0
WalletDivorcer
· 07-23 19:12
Это всё? Уровень ИИ, я не верю ни в один токен.
Посмотреть ОригиналОтветить0
StablecoinGuardian
· 07-22 00:53
Так быстро инволюция? Длина заработала в 20 раз больше.
Посмотреть ОригиналОтветить0
PhantomMiner
· 07-22 00:51
Технология мертва, игроки с вычислительной мощностью в восторге
Посмотреть ОригиналОтветить0
StableBoi
· 07-22 00:50
Вычислительная мощность быстро превысила миллион, не так ли?
Посмотреть ОригиналОтветить0
NeverVoteOnDAO
· 07-22 00:40
Данные все могут расти, только вычислительная мощность не хватает.
Посмотреть ОригиналОтветить0
CommunityWorker
· 07-22 00:33
40w и это всё? По сравнению с кибер宇宙, это ещё далеко не всё.
Способности больших моделей к работе с длинными текстами взлетели, 400000 токенов могут быть лишь началом.
Долгосрочные текстовые возможности становятся новой "стандартной комплектацией" больших моделей, 400000 токенов могут быть только началом
Большие модели стремительно повышают свои способности обработки длинных текстов, от 4000 токенов до 400000 токенов, и эта способность, похоже, стала новым стандартом для оценки технологической силы компаний, занимающихся большими моделями.
На международной арене OpenAI многократно обновляла GPT-3.5, увеличив длину входного контекста с 4000 до 16000 токенов, а GPT-4 — с 8000 до 32000 токенов. Anthropic даже расширила длину контекста до 100000 токенов. LongLLaMA даже довела это число до более чем 256000 токенов.
На внутреннем рынке стартап Kimi Chat, разработанный компанией 月之暗面, поддерживает ввод 200 000 иероглифов, что соответствует примерно 400 000 токенам. Технология LongLoRA, разработанная совместно Гонконгским китайским университетом и MIT, позволяет увеличить длину текста для модели 7B до 100 000 токенов, а для модели 70B - до 32 000 токенов.
В настоящее время многие ведущие компании и исследовательские учреждения в области больших моделей, включая OpenAI, Anthropic, Meta и Лунная Тень, делают расширение длины контекста одним из ключевых направлений технического обновления.
Все эти компании без исключения являются любимцами капитального рынка. OpenAI получил около 12 миллиардов долларов инвестиций, стоимость Anthropic, по ожиданиям, достигнет 30 миллиардов долларов, а созданная всего полгода назад "Темная сторона Луны" завершила два раунда финансирования на сумму почти 2 миллиарда юаней.
Прорыв в технологии обработки длинных текстов означает значительное улучшение способности модели к пониманию прочитанного. С первоначальных трудностей с прочтением статьи в публичном аккаунте до легкости чтения длинного романа и даже обработки сложной специализированной литературы. Эта технология также способствует внедрению больших моделей в таких областях, как финансы, юстиция и научные исследования.
Однако длина текста не всегда означает лучшее качество. Исследования показывают, что эффективное использование контекстного содержания важнее, чем простое увеличение длины. Тем не менее, текущее исследование, похоже, еще далеко от "критической точки", и 400 тысяч токенов может быть лишь началом.
Долгосрочные текстовые технологии не только решают некоторые проблемы, с которыми сталкивались большие модели на раннем этапе, но и усиливают их функциональность, становясь одной из ключевых технологий, способствующих индустриальному применению. Это знаменует собой переход больших моделей от LLM к Long LLM.
Применение технологий длинного текста уже проявилось в нескольких аспектах: быстрая аналитика длинных статей, извлечение ключевой информации из финансовых отчетов, прямая конвертация текста в код, сложные диалоги с ролевым взаимодействием и т.д. Эти функции показывают, что большие модели развиваются в направлении профессионализации, персонализации и углубления.
Тем не менее, технологии длинных текстов также сталкиваются с "треугольником невозможного": компромисс между длиной текста, вниманием и вычислительной мощностью. Чем длиннее текст, тем труднее сосредоточиться на ключевой информации; когда внимание ограничено, короткие тексты трудно полностью передать сложную информацию; обработка длинных текстов требует значительных вычислительных ресурсов, что увеличивает затраты.
В настоящее время существует три основных решения: использование внешних инструментов для поддержки обработки, оптимизация вычислений механизма самовнимания и использование методов оптимизации модели. У каждого из этих методов есть свои преимущества и недостатки, и их цель - найти оптимальный баланс между длиной текста, вниманием и вычислительной мощностью.
Несмотря на то, что технологии обработки длинных текстов по-прежнему сталкиваются с многочисленными проблемами, они, безусловно, являются одним из важных направлений развития больших моделей. С учетом постоянного прогресса технологий у нас есть все основания ожидать появления более мощных и умных возможностей обработки длинных текстов.