AMD анонсирует новый графический процессор Instinct MI100, преодолевающий барьер в 10 TFLOPS в FP64

В связи с растущим спросом на облачные приложения для высокопроизводительных вычислений и искусственного интеллекта возникает потребность в очень мощных графических процессорах для центров обработки данных. Обычно NVIDIA является королем в этой области, но новейший графический процессор AMD MI100 представляет собой серьезную конкуренцию.

Карта для рынка HPC

Карта быстрая, серьезно быстрая. Высокопроизводительный графический процессор NVIDIA A100 достигает максимальной производительности 9,7 TFLOPS при рабочих нагрузках FP64. Новый «AMD Instinct MI100» превосходит этот показатель — 11,5 терафлопс.

Конечно, карты NVIDIA поддерживают другие методы ускорения для рабочих нагрузок, связанных с ИИ, в различных числовых форматах, таких как формат точности TensorFloat-32 и мелкозернистая структурированная разреженность. Для рабочих нагрузок искусственного интеллекта и машинного обучения NVIDIA по-прежнему лидирует, поскольку их карты созданы специально для тензорных операций.

Но для высокопроизводительных вычислений общего назначения MI100 берет корону за чистую вычислительную мощность. Кроме того, это почти вдвое дешевле и намного эффективнее на ватт.

Помимо других улучшений, новая архитектура также обеспечивает улучшения смешанной точности, а их технология «Matrix Core» обеспечивает в 7 раз более высокую производительность FP16 по сравнению с картами предыдущего поколения.

Процессоры AMD и графические процессоры Instinct используются в двух экзафлопсных суперкомпьютерах Министерства энергетики США. Суперкомпьютер Frontier планируется построить в следующем году с использованием современных процессоров Epyc и MI100, и он будет обеспечивать пиковую вычислительную мощность более 1,5 экзафлопс. Планируется, что суперкомпьютер El Capitan будет построен в 2023 году на оборудовании следующего поколения и будет обеспечивать мощность двойной точности более 2 экзафлопс.

Может ли ROCm соответствовать CUDA?

Конечно, вся эта мощь бесполезна, если программное обеспечение ее не поддерживает. Ни для кого не секрет, что NVIDIA удалось сделать машинное обучение чем-то вроде огороженного сада.

Платформа вычислений NVIDIA называется CUDA или Compute Unified Device Architecture. Он проприетарный и работает только с их картами. Но поскольку их карты исторически были самыми быстрыми, многие приложения в первую очередь создаются только с поддержкой CUDA.

Существуют кроссплатформенные модели программирования, в первую очередь OpenCL, которые AMD очень хорошо поддерживает со своей платформой ROCm. И карты NVIDIA, и карты AMD поддерживают OpenCL, но поскольку NVIDIA поддерживает его только путем преобразования в CUDA, использование OpenCL с картой NVIDIA на самом деле медленнее. Из-за этого не все приложения будут его поддерживать.

В конечном счете, вам нужно будет провести собственное исследование и посмотреть, может ли приложение, которое вы собираетесь запустить, работать на картах AMD, и, возможно, быть готовым к некоторой доработке и исправлению ошибок. С другой стороны, графические процессоры NVIDIA в основном работают по принципу plug and play, поэтому, даже если AMD быстрее, NVIDIA может продолжать мешать им с помощью программного обеспечения с закрытым исходным кодом.

Тем не менее, эта ситуация улучшается — AMD стремится открывать все исходные коды и создавать открытую среду. Tensorflow и PyTorch, два очень популярных фреймворка машинного обучения, поддерживают экосистему ROCm.

Надеемся, что исходные характеристики последних предложений AMD могут подтолкнуть отрасль к более конкурентной среде. В конце концов, они используются в суперкомпьютерах.