Какой чип нужен ChatGPT? - Промышленные новости

В последнее время ChatGPT стал новой горячей точкой для ИИ, поскольку Microsoft и Google в Силиконовой долине вложили значительные средства в эту технологию (Microsoft владеет 10-миллиардной долей в OpenAI, компании, стоящей за ChatGPT, а Google недавно выпустила собственную модель BARD). в то время как интернет-технологические компании в Китае, представленные Baidu и другими, также указали, что они разрабатывают такую технологию и будут запущены в ближайшем будущем. В Китае Baidu и другие интернет-технологические компании также указали, что они разрабатывают такие технологии и запустят их в ближайшем будущем.

Генеративные модели, представленные ChatGPT, имеют общую черту: они используют массивные данные для предварительного обучения и часто сочетаются с более мощной языковой моделью. Основная функция языковой модели состоит в том, чтобы учиться на массивном существующем корпусе, и после обучения она может понимать лингвистические инструкции пользователя или, кроме того, генерировать соответствующий текстовый вывод в соответствии с инструкциями пользователя.

Генеративные модели можно разделить на две категории: генеративные модели, основанные на языке, и генеративные модели, основанные на изображениях. Генеративные модели на основе языка представлены ChatGPT, чья языковая модель может не только научиться понимать значение пользовательских команд (например, «написать стихотворение в стиле Ли Бая»), но и генерировать соответствующий текст на основе пользовательских команды после тренировки с массивными данными (в приведенном выше примере написание стихотворения в стиле Ли Бая). стих). Это означает, что ChatGPT должна иметь большую языковую модель (LLM), которая понимает язык пользователя и может производить высококачественный языковой вывод — например, модель должна понимать, как генерировать стихи, как генерировать стихи в стиле Ли Бай. , и так далее. Это также означает, что большие языковые модели в языковом генеративном ИИ требуют очень большого количества параметров, чтобы выполнять такое сложное обучение и запоминать так много информации. ChatGPT, например, имеет 175 миллиардов параметров (700 ГБ дискового пространства, если используются стандартные числа с плавающей запятой), что показывает, насколько «большой» является его языковая модель.

Другой класс генеративных моделей — это модель генерации изображений, представленная Diffusion, как правило, Dalle от OpenAI, ImaGen от Google и в настоящее время самая популярная Stable Diffusion от Runway AI. Эти модели генерации, подобные изображениям, также используют языковую модель для понимания лингвистических команд пользователя, а затем создают высококачественные изображения на основе этих команд. В отличие от генеративных моделей на основе языка, используемая здесь языковая модель в основном использует язык для понимания пользовательского ввода без создания языкового вывода, поэтому количество параметров может быть довольно небольшим (порядка нескольких сотен миллионов), в то время как количество параметров для Модели распространения на основе изображений относительно невелики, всего порядка нескольких миллиардов, но вычислительные затраты не малы, поскольку разрешение сгенерированных изображений или видео может быть очень высоким.

Генеративные модели могут давать беспрецедентно высокое качество результатов за счет обучения массивным данным, и уже существует ряд четких рынков приложений, включая поисковые, диалоговые боты, создание и редактирование изображений и т. д. В будущем ожидается больше приложений, что также создает спрос на родственные фишки.

Необходимость чипов для генерации моделей классов

Как упоминалось ранее, ChatGPT представляет собой генеративную модель, которая должна учиться на больших объемах обучающих данных для достижения высококачественного генеративного вывода. Для поддержки эффективного обучения и логического вывода генеративные модели предъявляют собственные требования к связанным микросхемам.

Во-первых, это необходимость распределенных вычислений; количество параметров для языковых генеративных моделей, таких как ChatGPT, исчисляется сотнями миллиардов, и почти невозможно использовать обучение и вывод на одном компьютере, но необходимо использовать много распределенных вычислений. В распределенных вычислениях пропускная способность соединения данных между машинами и вычислительным чипом для таких распределенных вычислений (таких как RDMA) имеет большой спрос, потому что часто узкое место задачи может быть не в вычислениях, а в соединении данных выше, особенно в Этот вид крупномасштабных распределенных вычислений, чип для эффективной поддержки распределенных вычислений стал более важным.

Далее идет объем памяти и пропускная способность. Хотя распределенное обучение и вывод неизбежны для генеративных моделей на основе языка, локальная память и пропускная способность каждого чипа в значительной степени определяют эффективность выполнения отдельного чипа (поскольку память каждого чипа используется до предела). Для генеративных моделей на основе изображений можно поместить все модели (около 20 ГБ) в память чипа, но по мере дальнейшего развития генеративных моделей на основе изображений в будущем вполне вероятно, что требования к памяти также будут увеличиваться. . С этой точки зрения технология памяти со сверхвысокой пропускной способностью, представленная HBM, станет неизбежным выбором для соответствующих чипов-ускорителей, в то время как модели генеративного класса также будут ускорять память HBM для дальнейшего увеличения емкости и пропускной способности. В дополнение к HBM, новые технологии хранения, такие как CXL, в сочетании с оптимизацией программного обеспечения также могут увеличить емкость и производительность локального хранилища в таких приложениях, и, по оценкам, они получат более широкое распространение в промышленности благодаря развитию модели генеративного класса.

Наконец, вычислительные модели генеративного класса, основанные как на языке, так и на основе изображений, требуют больших вычислительных ресурсов, а генеративные модели на основе изображений могут иметь гораздо более высокие требования к арифметической мощности, поскольку они генерируют все более и более высокие разрешения и движутся в сторону видеоприложений. основные модели генерации изображений имеют вычислительный объем около 20 TFLOPS, а что касается высокого разрешения и изображений, то 100-1000 TFLOPS арифметического запроса, вероятно, будет нормой.

Подводя итог, мы считаем, что требования генеративных моделей для чипов включают распределенные вычисления, хранение и вычисления, которые, можно сказать, включают все аспекты проектирования чипов и, что более важно, как разумно объединить все эти требования вместе. чтобы гарантировать, что один аспект не станет узким местом, которое также станет проблемой разработки системы проектирования микросхем.

GPU и новый AI-чип, у кого больше шансов

У генеративных моделей появился новый спрос на чипы. У кого больше шансов удовлетворить этот новый спрос и рынок для графических процессоров (представленных Nvidia и AMD) и новых чипов искусственного интеллекта (представленных Habana, GraphCore)?

Во-первых, с точки зрения генеративных моделей на основе языка поставщики графических процессоров, которые в настоящее время имеют полную компоновку в такого рода экологии, более выгодны из-за огромного количества участников и потребности в хорошей поддержке распределенных вычислений. Это проблема системной инженерии, требующая комплексного программного и аппаратного решения, и в связи с этим Nvidia объединила свои графические процессоры для запуска решения Triton, которое поддерживает распределенное обучение и распределенный вывод, позволяя разделить модель на несколько частей и обработать их. на разных графических процессорах, тем самым решая проблему слишком большого количества параметров, которые не могут быть размещены в основной памяти одного графического процессора. Это решает проблему слишком большого количества параметров для основной памяти одного GPU. Независимо от того, используете ли вы Triton напрямую или будете заниматься дальнейшими разработками на основе Triton в будущем, удобнее иметь полноценный экологический GPU. С вычислительной точки зрения, поскольку основным вычислением модели генерации на основе языка являются матричные вычисления, что является сильной стороной графического процессора, с этой точки зрения новый чип ИИ не имеет очевидного преимущества перед графическим процессором.

С точки зрения моделей генерации на основе изображений количество параметров таких моделей также велико, но на один-два порядка меньше, чем у моделей генерации на основе языка, кроме того, его вычисление все равно будет использоваться в большом количестве. количество сверточных вычислений, поэтому приложения для вывода, если вы можете сделать очень хорошую оптимизацию, чипы ИИ могут иметь некоторые возможности. Здесь оптимизация включает большой объем встроенной памяти для размещения параметров и промежуточных результатов вычислений, для свертки и эффективной поддержки матричных операций.

В целом, текущее поколение чипов ИИ предназначено для небольших моделей (количество параметров на уровне миллиарда, вычислений на уровне 1TOPS), в то время как спрос на генеративные модели по-прежнему относительно выше, чем исходная цель дизайна. Графические процессоры спроектированы так, чтобы быть более гибкими за счет эффективности, в то время как чипы ИИ предназначены для того, чтобы делать обратное, добиваясь эффективности целевого приложения. Поэтому мы считаем, что графические процессоры по-прежнему будут доминировать в таком ускорении генеративных моделей в ближайшие год или два, но по мере того, как конструкции генеративных моделей становятся более стабильными, а конструкции микросхем ИИ имеют время, чтобы догнать итерации генеративных моделей, у микросхем ИИ появляется возможность превзойти графические процессоры. в пространстве генеративной модели с точки зрения эффективности.

ND2N9T12-full-automatic5