Поиск по сайту:

Новый графический процессор Ampere от NVIDIA меняет правила игры для искусственного интеллекта


Сегодня NVIDIA анонсировала свою новую архитектуру Ampere вместе с новым A100, на котором она работает. Это значительное улучшение по сравнению с Turing, уже ориентированной на ИИ архитектурой, обеспечивающей работу центров обработки данных на высоком уровне и трассировкой лучей на базе машинного обучения в области потребительской графики.

Если вам нужен полный обзор всех технических деталей, вы можете прочитать подробный обзор архитектуры NVIDIA. Мы разберем самое важное.

Новая матрица абсолютно массивна

С самого начала они изо всех сил стараются использовать этот новый чип. Чип Tesla V100 последнего поколения составлял 815 мм на уже зрелом 14-нм технологическом узле TSMC с 21,1 миллиардами транзисторов. Уже довольно большой, но A100 посрамляет его 826 мм на 7-нм TSMC, гораздо более плотный процесс и колоссальные 54,2 миллиарда транзисторов. Впечатляет этот новый узел.

Этот новый графический процессор имеет производительность 19,5 терафлопс FP32, 6912 ядер CUDA, 40 ГБ памяти и пропускную способность памяти 1,6 ТБ/с. При довольно специфической рабочей нагрузке (разреженный INT8) A100 фактически преодолевает 1 петафлопс чистой вычислительной мощности. Конечно, это на INT8, но все равно карта очень мощная.

Затем, как и в случае с V100, они взяли восемь таких графических процессоров и создали мини-суперкомпьютер, который продают за 200 000 долларов. Скорее всего, вы скоро увидите, как они появятся у облачных провайдеров, таких как AWS и Google Cloud Platform.

Однако, в отличие от V100, это не один массивный графический процессор — на самом деле это 8 отдельных графических процессоров, которые можно виртуализировать и арендовать по отдельности для различных задач, а также в 7 раз увеличить пропускную способность памяти для загрузки.

Что касается использования всех этих транзисторов, то новый чип работает намного быстрее, чем V100. Для обучения и логического вывода ИИ A100 предлагает 6-кратное ускорение для FP32, 3-кратное для FP16 и 7-кратное ускорение для вывода при совместном использовании всех этих графических процессоров.

Обратите внимание, что V100, отмеченный на втором графике, — это сервер V100 с 8 GPU, а не один V100.

NVIDIA также обещает двукратное ускорение во многих рабочих нагрузках HPC:

Что касается необработанных чисел TFLOP, производительность A100 FP64 с двойной точностью составляет 20 TFLOP против 8 для V100 FP64. В целом, эти ускорения являются настоящим улучшением по сравнению с Тьюрингом на целое поколение и являются отличной новостью для области искусственного интеллекта и машинного обучения.

TensorFloat-32: новый числовой формат, оптимизированный для тензорных ядер

В Ampere NVIDIA использует новый числовой формат, предназначенный для замены FP32 в некоторых рабочих нагрузках. По сути, FP32 использует 8 бит для диапазона числа (насколько оно может быть большим или маленьким) и 23 бита для точности.

NVIDIA утверждает, что эти 23 бита точности не совсем необходимы для многих рабочих нагрузок ИИ, и вы можете получить аналогичные результаты и гораздо лучшую производительность всего за 10 из них. Этот новый формат называется Tensor Float 32, и тензорные ядра A100 оптимизированы для его обработки. Это, помимо уменьшения размера кристалла и увеличения количества ядер, позволяет им получить значительное 6-кратное ускорение в обучении ИИ.

Они утверждают, что «Пользователям не нужно вносить какие-либо изменения в код, потому что TF32 работает только внутри графического процессора A100. TF32 работает с входными данными FP32 и выдает результаты в FP32. Нетензорные операции продолжают использовать FP32”. Это означает, что он должен заменить рабочие нагрузки, не требующие дополнительной точности.

Сравнив производительность FP на V100 с производительностью TF на A100, вы увидите, откуда берутся эти огромные ускорения. TF32 до десяти раз быстрее. Конечно, во многом это также связано с другими улучшениями в Ampere, которые в целом вдвое быстрее, и это не прямое сравнение.

Они также представили новую концепцию, называемую мелкозернистой структурированной разреженностью, которая способствует повышению вычислительной производительности глубоких нейронных сетей. По сути, некоторые веса менее важны, чем другие, и матричные математические операции можно сжать для повышения пропускной способности. Хотя выбрасывание данных не кажется хорошей идеей, они утверждают, что это не влияет на точность обученной сети для вывода, а просто ускоряет.

Для вычислений Sparse INT8 пиковая производительность одного A100 составляет 1250 TFLOPS, что является ошеломляюще высоким показателем. Конечно, вам будет трудно найти реальную рабочую нагрузку, запускающую только INT8, но ускорение есть ускорение.

Статьи по данной тематике: