Сколько терафлопс у rtx 3090

GeForce RTX 3090, архитектура Ampere и новые технологии NVIDIA. Общий обзор второго поколения GeForce RTX

Настало время подвести итоги недавней презентации NVIDIA и собрать воедино всю озвученную информацию. После долгих слухов и домыслов графический гигант наконец-то анонсировал второе поколение GeForce RTX. Новая архитектура, новые программные возможности и новый уровень производительности. Обо всем этом мы поговорим в данном обзоре.

NVIDIA Ampere

Видеокарты GeForce RTX 3000 должны стать серьезным скачком для индустрии, делая RTX-технологии доступнее. Ключевыми преимуществами последнего поколения являются: реализация новой архитектуры Ampere с обновленными RT-ядрами и тензорными ядрами, переход на 8-нм техпроцесс и применение самой быстрой в мире памяти GDDR6X. Также компания продолжает развивать программные технологии, представляя новые инициативы в рамках NVIDIA Reflex, NVIDIA Omniverse Machinima и NVIDIA RTX IO, о которых подробнее поговорим ниже.

NVIDIA Ampere

Ampere серьезно превосходит Turing в производительности на ватт, вплоть до 1,9 раз в играх и до 2 раз в профессиональных приложениях для рендеринга.

NVIDIA Ampere

Пока нам представлено три видеокарты — GeForce RTX 3090, GeForce RTX 3080 и GeForce RTX 3070. И все они должны превзойти по производительности GeForce RTX 2080 Ti, даже младшая из названных моделей. А для GeForce RTX 3080 заявлено двукратное превосходство над GeForce RTX 2080.

NVIDIA Ampere

Сложно припомнить ситуацию, когда сразу несколько новых моделей могли потеснить существующий флагман. А GeForce RTX 3090 и вовсе выглядит «монстром» со своими характеристиками — 10496 потоковых процессоров CUDA и 24 ГБ памяти на 384-битной шине.

NVIDIA Ampere

Даже GeForce RTX 3080 впечатляет своими основными параметрами, поскольку в активе этой видеокарты 8704 потоковых процессоров CUDA, что вдвое больше количества аналогичных блоков у GeForce RTX 2080 Ti.

NVIDIA Ampere

Но прежде чем сравнивать характеристики нужно поговорить об архитектуре.

Архитектура Ampere и особенности новых GPU

Компания NVIDIA пока не раскрыла всю информацию о технических нюансах Ampere, но основные моменты нам уже известны. Первым продуктом на новой архитектуре стал представленный в мае ускоритель вычислений NVIDIA A100.

NVIDIA Ampere

Это специализированное устройство для высокопроизводительных систем. В основе его находится графический процессор A100 с 8192 ядрами CUDA, но рабочие версии GPU оперируют 6912 потоковыми ядрами. Специально для игрового направления разработанный GPU GA102 стал основной для GeForce RTX 3090 и GeForce RTX 3080. GPU A100 насчитывал 128 мультипроцессорных блоков SM по 64 вычислительных ядра и 4 обновленных тензорных ядра в каждом.

NVIDIA Ampere

На более крупном уровне все SM объединены в кластеры GPC. У A100 это 8 кластеров по 16 SM в каждом. У процессора TU102 (GeForce RTX 2080 Ti и Titan RTX) это 6 GPC по 12 SM, у TU104 (GeForce RTX 2080) это 6 GPC по 8 SM. И во всех случаях SM оперирует 64 ядрами для графических вычислений FP32. Полная схема процессора GA102 пока недоступна, хотя NVIDIA использует определенную иллюстрацию, на которой можно четко выделить 7 кластеров.

NVIDIA Ampere

Ключевым изменением игровых GPU Ampere стало удвоение вычислительных блоков FP32 — по 128 на SM, плюс 64 блока INT32. При этом новый SM сохранил основную структуру старых SM. Это четыре массива обработки данных со своими диспетчерами и планировщиками задач, 4 блока выборки текстур и блок RT для ускорения трассировки лучей. В данном случае реализованы новые RT-ядра второго поколения с повышенной производительностью. Задействовано 4 тензорных ядра по типу NVIDIA A100. У Turing было по 8 тензорных ядер на в SM. Но тензорные ядра Ampere 3-го поколения обещают намного большую производительность.

Сравнить структуру SM к NVIDIA 100, GeForce RTX 3090 и GeForce RTX 2080 Ti можно по нижнему слайду.

NVIDIA Ampere

Увеличение производительности SM важно для выполнения современных алгоритмов, часто сочетающих операции разного типа. Новый SM выполняет за такт 128 операций FP32 или 64 FP32 + 64 INT32. Изменена структура кэша, чтобы обеспечить удвоение пропускной способности кэш-памяти L1: 128 байт/такт в Ampere против 64 байтов/такт в Turing. Общая пропускная способность L1 для GeForce RTX 3080 составляет 219 ГБ/с против 116 ГБ/с у GeForce RTX 2080 Super.

Опираясь на известные данные о 10496 потоковых процессорах FP32, мы получаем 82 активных SM. Отсюда можно вычислить количество других блоков — 328 текстурных блока, 328 тензорных ядра и 82 ядра RT. При 7 кластерах общее количество вычислительных блоков должно быть выше, и мы имеет типичную ситуацию, когда в топовом GPU часть SM отключена. Судя по приведенной выше иллюстрации тут 12 SM на кластер, что дает 84 SM и 10752 потоковых процессора. Нельзя исключать, что по мере совершенствования техпроцесса в будущем мы увидим новый Titan на полноценном процессоре GA102.

Если провести аналогичный анализ для GeForce RTX 3070 и GA104 с 5888 потоковыми процессорами, то получим 46 SM, что намекает на конфигурацию из 48 SM (4 GPC x 12 SM) при 6144 потоковых процессорах. Это неплохо согласуется со слухами о наличии некоей видеокарты GeForce RTX 3070 Ti.

Старшие видеокарты оснащены новой памятью GDDR6X, разработанной Micron для NVIDIA. У GeForce RTX 3090 эффективная частота обмена данных модулей GDDR6X соответствует 19500 МГц. При этом видеокарта оснащена 24 ГБ видеобуфера на 384-битной шине. В GeForce RTX 3080 последняя урезана до 320 бит, а объем видеобуфера GDDR6X уменьшен до 10 ГБ при частоте 19000 МГц. Младшая видеокарта GeForce RTX 3070 работает с 8 ГБ памяти GDDR6 на 256-битной шине.

Характеристики видеокарт GeForce RTX 3090, GeForce RTX 3080 и GeForce RTX 3070

Видеоадаптер	GeForce RTX 3090	GeForce RTX 3080	GeForce RTX 3070	GeForce RTX 2080 Ti	GeForce RTX 2080 Super	GeForce RTX 2080
Ядро	GA102	GA102	GA104	TU102	TU104	TU104
Количество транзисторов, млн. шт	28000	28000	17000	18600	13600	13600
Техпроцесс, нм	8	8	8	12	12	12
Площадь ядра, кв. мм	627	627	450	754	545	545
Количество потоковых процессоров CUDA	10496	8704	5888	4352	3072	2944
Количество тензорных ядер	328	272	184	544	384	368
Количество ядер RT	82	68	46	68	46	46
Количество текстурных блоков	328	272	184	272	192	184
Количество блоков рендеринга	96	88	64	88	64	64
Базовая частота ядра, МГц	1395	1440	1500	1350	1650	1515
Частота Boost, МГц	1695	1710	1725	1545	1815	1710
Шина памяти, бит	384	320	256	352	256	256
Тип памяти	GDDR6X	GDDR6X	GDDR6	GDDR6	GDDR6	GDDR6
Частота памяти, МГц	19500	19000	16000	14000	15500	14000
Объём памяти, ГБ	24	10	8	11	8	8
Поддерживаемая версия DirectX	12 Ultimate (12_2)	12 Ultimate (12_2)	12 Ultimate (12_2)	12 Ultimate (12_2)	12 Ultimate (12_2)	12 Ultimate (12_2)
Интерфейс	PCI-E 4.0	PCI-E 4.0	PCI-E 4.0	PCI-E 3.0	PCI-E 3.0	PCI-E 3.0
Мощность, Вт	350	320	220	250	250	225
Дата выхода	17 сентября 2020	24 сентября 2020	?	27 сентября 2018	23 июля 2019	20 сентября 2018
Цена MSRP	$1499	$699	$499	$999	$699	$799

И немного красивых цифр, характеризующих производительность. При прямом сравнении GeForce RTX 3080 с видеоадаптером-предшественником GeForce RTX 2080 Super имеем увеличение производительности шейдерных блоков в 2,7 раз, рост операций по расчету трассировки в 1,7 раз, а тензорная производительность выше в 2,7 раз.

NVIDIA Ampere

Для наглядности можно привести еще одну таблицу с примерной пиковой производительностью новых и старых GeForce RTX.

Видеоадаптер	GeForce RTX 3090	GeForce RTX 3080	GeForce RTX 3070	GeForce RTX 2080 Ti	GeForce RTX 2080 Super
FP32 TFLOPS	36	30	20	13,5	11
RT-TFLOPS	69	58	40	42	34
Tensor RT-TFLOPS	285	238	163	108	89

Дополнительно отметим, что ранее NVIDIA говорила о неких операциях RTX-OPS, а теперь оперирует немного иными данными производительности трассировки RT-TFLOPS. Поэтому цифры в новых слайдах отличаются от тех, что указывались ранее.

Все GPU Ampere производятся на заводах Samsung по специальному 8-нм техпроцессу, разработанному совместно с NVIDIA. Примечательно, что процессоры A100 выпускаются на TSMC 7-нм. При всех оптимизациях GA102 разросся до 28 млрд. транзисторов вместо 18,6 млрд. у TU102. И хотя площадь нового процессора меньше, его тепловыделение и энергопотребление серьезно возросло. Для GeForce RTX 3090 заявлен TGP (Total Graphics Power) на уровне 350 Вт, для GeForce RTX 3080 это 320 Вт, а GeForce RTX 3070 ограничится значением в 220 Вт.

Это новый вызов для проектировщиков систем охлаждения. И хотя большинство партнеров пошло традиционным путем, создавая «бутерброды» с толстым радиатором и вентиляторами над ним, сама NVIDIA представила оригинальные референсные решения с необычным кулером. Охлаждение старших видеоадаптеров использует конструкцию с крупными вентиляторами на лицевой и задней стороне. Все остальное пространство занимает радиатор с разнонаправленными ребрами, в отводе тепла от GPU задействовано несколько тепловых трубок.

NVIDIA Ampere

Двухстороннее расположение вентиляторов не только улучшает продуваемость радиатора, но и правильно организует воздушные потоки внутри корпуса.

NVIDIA Ampere

Наглядно конструкция охлаждения продемонстрирована в видеоролике:

Кулер референсной GeForce RTX 3090 занимает три слота расширения, остальные карты ограничены двухслотовым форматом. GeForce RTX 3070 меньше в размерах и предполагает одностороннее расположение вентиляторов.

NVIDIA Ampere

NVIDIA реализовала новый компактный разъем питания на 12 контактов. В нереференсных продуктах распаяно два разъема по 8 контактов, что позволяет подключать видеокарты стандартными кабелями.

Если говорить о старших видеокартах от партнеров NVIDIA, то это зачастую трехслотовые варианты с тремя вентиляторами. В качестве примера можно взглянуть на ASUS TUF Gaming RTX 3090.

NVIDIA Ampere

Все референсные видеокарты оснащены портом HDMI 2.1 и тремя разъемами DisplayPort 1.4a. Ampere получит новый блок обработки видео NVENC 7, на что намекает заявленная поддержка режима 8K для аппаратного захвата видео через ShadowPlay. То есть новые видеокарты могут не только выводить картинку в 8K, но и позволяют записывать игровой процесс в 8K HDR с аппаратным кодированием на GPU.

NVIDIA Ampere

Новые технологии NVIDIA

Говоря о 8K мы плавно подходим к технологическим инновациям NVIDIA. Компания ищет новые сферы практического применения систем искусственного интеллекта на базе глубокого обучения нейросетей. Эти технологии уже реализованы для шумоподавления при рендеринге с трассировкой лучей и для режима DLSS. Перспективными направлениями являются захват движений для создания анимации, преобразование 2D в 3D, симуляции физических эффектов.

NVIDIA Ampere

NVIDIA DLSS 2.1

Еще недавно разрешение 8K (7680 × 4320) казалось фантастикой, но на презентации GeForce RTX 30 нам показали, что это реальность, продемонстрировав Wolfenstein: Youngblood с RTX-эффектами в таком формате.

Демонстрация проводилась на GeForce RTX 3090, но итоговый результат все равно впечатляет. Секрет успеха не только в вычислительной мощи нового флагмана, но и в применении DLSS 2.1. Это усовершенствованная технология Deep Learning Super Sampling — интеллектуальное масштабирование на основе технологии ИИ, которое выдает картинку высокого разрешения из меньшего количества входных данных. Ранее мы уже отмечали, насколько хорошо работает DLSS 4K в играх Control и Death Stranding.

Теперь технология стала еще лучше и позволяет работать с разрешением 8K. Добавлена функция динамического разрешения и поддержка VR. Игры для виртуальной реальности получат серьезное ускорение, это важный шаг для популяризации VR.

NVIDIA Broadcast

Стриминг набирает популярность. Растет аудитория Twitch и количество активных стримеров. Видеокарты NVIDIA уже обладают преимуществами благодаря аппаратному блоку кодирования видео. Но теперь представлена вспомогательная программа NVIDIA Broadcast.

NVIDIA Ampere

Это приложение содержит три инструмента на базе ИИ:

Устранение шумов с помощью интеллектуального шумоподавления RTX Voice.
Удаление и наложение любого фона при трансляциях.
Автоматическое кадрирование с автоматическим наведением и фокусировкой камеры при отклонении головы.

NVIDIA Omniverse Machinima

Компания обращает свой взор в сторону тех, кто создает видеоистории на базе игровых движков. Речь идет о так называемой «Машиниме». Приятным дополнением для виртуальных режиссеров станет инструментарий NVIDIA Omniverse Machinima.

NVIDIA Ampere

Это приложение позволит микшировать разные объекты и эффекты, импортируя свои ассеты в игровую сцену, добавляя физические эффекты огня и дыма на базе PhysX, плюс захват движений для создания анимации поз с помощью ИИ и создание лицевой анимации с липсинком через NVIDIA Audio2Face. В сцене можно будет применить RTX-рендеринг с трассировкой лучей.

Оценить потенциальные возможности позволяет постановочный ролик с масштабной батальной сценой, созданной на базе игры Mount & Blade II: Bannerlord с использованием дополнительных 3D-объектов и RTX-рендерингом.

Зарегистрироваться на бета-тестирование можно тут.

NVIDIA Reflex

Еще одним важным начинанием является технология NVIDIA Reflex, которая призвана снизить игровые задержки для лучшей реакции на действия игрока. В основном это связано с чистой производительностью, и повышение частоты кадров увеличивает реакцию. Но есть системные задержки в доли секунды, которые связаны с аппаратными особенностями обработки данных.

NVIDIA Ampere

Специалисты и ученые NVIDIA серьезно проанализировали этот вопрос и определили важность уменьшения системной задержки от момента клика мыши до ответной реакции на экране в быстрых соревновательных играх. Доли секунды могут сыграть важную роль в прицеливании фиксации попаданий. Снизить латентность поможет технология NVIDIA Reflex. Она задействует программные оптимизации графического конвейера для минимизации задержек на разных этапах. Технология ориентирована на игры с простой графикой, где вы получаете высокий fps в сотни кадров.

NVIDIA Ampere

Для работы данной технологии разработчикам потребуется интеграция Reflex SDK. Пользователю нужно включать специальный режим Low Latency Mode в меню NVIDIA Control Center — «Управление параметрами 3D». Также потребуется задействовать профиль максимальной производительности в параметре Power Management Mode (Режим управления электропитанием). Это избавит от скачков Boost.

NVIDIA Ampere

В будущем появится простой способ активации через меню GeForce Experience.

Согласно измерениям специалистов NVIDIA технология NVIDIA Reflex способна снизить системные задержки примерно на треть.

NVIDIA Ampere

Для измерения системных задержек появится специальный модуль в мониторах G-Sync 360 Гц, что позволит в реальном времени отображать параметр латентности.

Игровые мониторы G-Sync 360 Гц

NVIDIA анонсировала первые мониторы с поддержкой частоты 360 Гц еще в начале года, но только сейчас они начнут поставляться на рынок. Это самые быстрые мониторы в мире на скоростной IPS-матрице с обновленным модулем G-Sync. Поддерживают переменную частоту обновления в диапазоне 1–360 Гц, имеют специальный режим G-Sync Esports для киберспортивных игр, поддерживают режим ULMB (Ultra Low Motion Blur) с частотой 240 Гц. Есть встроенный анализатор NVIDIA Reflex.

Acer, Alienware, ASUS и MSI представят игровые мониторы с G-Sync 360 Гц этой осенью.

NVIDIA RTX IO

Игровые миры становятся все больше, поднимая проблему быстрой загрузки данных. Несмотря на рост производительности твердотельных накопителей NVMe, есть ограничения существующей архитектуры ввода-вывода данных. Ускорит процесс загрузки новая архитектура NVIDIA RTX IO. Это совокупность технологий для прямого считывания и декомпрессии игровых ресурсов силами GPU. Технология работает совместно с новым Windows API DirectStorage, обеспечивая ускорение процесса ввода-вывода до 100 раз.

NVIDIA Ampere

NVIDIA RTX IO ускорит загрузку детализированных текстур, уменьшая задержки и вероятность лагов при быстром передвижении по крупным виртуальным мирам.

Это технология будущего. Microsoft планирует запустить раннюю версию DirectStorage Windows для разработчиков в следующем году, а массовое внедрение в игровые проекты начнется позже.

Игры с RTX

Главное, что игрокам нужно от новых видеокарт GeForce RTX — это красивая графика с эффектами на базе трассировки лучей. И этой осенью мы увидим несколько крупных проектов с поддержкой трассировки RTX. Это такие AAA-игры, как Cyberpunk 2077 и Watch Dogs: Legion. В этих играх будут улучшенные отражения, реалистичные тени и фоновое затенение на базе трассировки.

Подтверждена поддержка RTX в шутере Call of Duty: Black Ops Cold War, но какие именно эффекты реализованы в игре — не озвучено.

Также можно вспомнить недавнее обновление Minecraft. С RTX кубические миры заиграли новым красками.

Выводы

На данный момент сохраняется эмбарго на полноценные тесты и обзоры с конкретными цифрами. Эта информация появится позже. Но по предварительным данным уже можно констатировать качественный скачок производительности в новом поколении GeForce RTX. Благодаря архитектуре Ampere представленные видеокарты способны сделать трассировку более доступной для широкого круга игроков. Пока готовится к выходу первое поколение консолей, замахнувшееся на 4K и эффекты с трассировкой лучей, NVIDIA уже выводит на рынок графические решения с улучшенной поддержкой трассировки. Вы сможете играть в Cyberpunk 2077 и другие новые игры с наилучшей графикой. А GeForce RTX 3090 позволяет уже смотреть в сторону 8K-мониторов, обладая мощным GPU, большим объемом памяти в 24 ГБ и поддержкой обновленной технологии DLSS. По всем своим характеристикам GeForce RTX 3090 поражает воображение. К сожалению, это касается и стоимости в полторы тысячи долларов. Но это премиальный продукт для премиального гейминга. И у GeForce RTX 3090 еще долго не будет аналогов. GeForce RTX 3080 станет более массовым продуктом, демонстрируя хорошее преимущество над GeForce RTX 2080 Ti при цене уровня GeForce RTX 2080 Super. GeForce RTX 3070 станет лучшим выбором для тех, кто не гонится за высокими разрешениями, но хочет максимальную производительность в RTX-режиме в сочетании с умеренным энергопотреблением.

Стоит отметить постоянно растущую функциональность программных возможностей NVIDIA GeForce. Улучшается DLSS и планируется расширить применение технологий ИИ в играх. Анонсированы приложения для более комфортного стриминга и создания машиним. Разрабатывается передовая архитектура ввода-вывода данных с накопителей информации. Появляются аппаратно-программные улучшения для киберспорта. GeForce RTX — не просто ускоритель для обработки игровой графики, это полноценная игровая платформа с множеством дополнительных функций.

Анонсированы GeForce RTX 3090, RTX 3080 и RTX 3070 — что они могут и сколько стоят

Последние две карты оказались быстрее, чем предполагалось.

Анонсированы GeForce RTX 3090, RTX 3080 и RTX 3070 — что они могут и сколько стоят

Корпорация Nvidia анонсировала игровые видеокарты на базе архитектуры Ampere. Как и предполагалось, компания представила три карты, GeForce RTX 3090, GeForce RTX 3080 и GeForce RTX 3070. Первые две карты поступят в продажу в сентябре, последняя — в октябре.

GeForce RTX 3090 ориентирована на игроков-энтузиастов, это очень мощная и одновременно дорогая видеокарта. Остальные карты нового поколения оказались более производительными и чуть менее дорогими, чем ожидалось изначально.

В целом производительность новых карт по сравнению с предшественниками выглядит так

Важный момент

Хотя раскрыты цены и даты старта продаж видеокарт, мы пока не знаем, когда появятся обзоры и независимые тесты устройств.

GeForce RTX 3090

Видеокарта будет продаваться за $1499 (136990 рублей в России), она поступит в продажу 24 сентября. Она может выдавать высокую частоту кадров в разрешении 8К, во время демонстрации GeForce RTX 3090 тестировали в Control и Wolfenstein Youngblood. В разрешении 8К предлагается использовать улучшенную технологию DLSS.

Производительность GeForce RTX 3090 в разрешении 8К

CUDA-ядра: 10494
Base Clock: 1400 МГц
Boost Clock: 1700 МГц
Производительность FP32: 36 терафлопс (13.45 терафлопс у RTX 2080 Ti)
Производительность трассировки лучей: 69 терафлопс
Производительность тензорных ядер: 285 терафлопс
Память: 24 гигабайта GDDR6X

GeForce RTX 3080

Видеокарта будет продаваться за $699 (63490 рублей в России), она поступит в продажу 17 сентября. По производительности она до двух раз быстрее GeForce RTX 2080 и заметно превосходит GeForce RTX 2080 Ti.

При использовании трассировки лучей и технологии DLSS GeForce RTX 3080 может выдавать больше 80 кадров в секунду в Control и Fortnite в разрешении 4К. В Borderlands 3 частота кадров в разрешении 4К достигает 60 кадров в секунду.

CUDA-ядра: 8704
Base Clock: 1440 МГц
Boost Clock: 1710 МГц
Производительность FP32: 30 терафлопс (10.07 терафлопс у RTX 2080)
Производительность трассировки лучей: 58 терафлопс
Производительность тензорных ядер: 238 терафлопс
Память: 10 гигабайт GDDR6X

GeForce RTX 3070

Видеокарта будет продаваться за $499 (45490 рублей в России), она поступит в продажу в октябре. С точки зрения производительности она превосходит GeForce RTX 2080 Super и RTX 2080 Ti. Если верить графику Nvidia, превосходство над RTX 2080 Ti достаточно невелико.

О производительности в разрешении 4К ничего не сообщается, официальные тесты Nvidia проводились в разрешении 1440p. Здесь GeForce RTX 3070 примерно в полтора раза быстрее GeForce RTX 2070 и может обеспечить свыше 100 кадров в секунду в Control и Minecraft.

Обзор видеоускорителя Nvidia GeForce RTX 3090: самое производительное на сегодня, но не чисто игровое решение

Недавно компания Nvidia представила видеокарты нового семейства GeForce RTX 30, основанные на архитектуре Ampere, пришедшей на смену Turing. Предыдущая архитектура стала революционной, впервые предложив аппаратную поддержку трассировки лучей и аппаратного же ускорения задач искусственного интеллекта при помощи тензорных ядер. Но производительности тех GPU порой не хватало даже для использования пары эффектов с применением трассировки, поэтому неудивительно, что Nvidia в Ampere сделала упор именно на производительность.

Как только стали доступны технологии производства полупроводников по более тонким нормам, вместе с возможностью значительного прироста количества транзисторов при сохранении приемлемой площади кристалла, в архитектуре Ampere сразу было реализовано улучшение именно в плане производительности, а не для появления новых возможностей. Хотя и они тоже есть, но все же это явно эволюционное развитие возможностей предыдущей архитектуры Turing. Предлагаемые по приемлемым ценам, новинки дали пользователям долгожданное улучшение соотношения цены и производительности.

Решения семейства Ampere, благодаря специальным решениям и производству по более тонкому техпроцессу, обеспечивают повышенную энергоэффективность и производительность в пересчете на единицу площади кристалла, что особенно полезно в самых требовательных задачах, вроде трассировки лучей в играх, которая сильно просаживает производительность. Игровые решения архитектуры Ampere примерно в 1,5-1,7 раза быстрее Turing в традиционных задачах растеризации, и до двух раз быстрее при трассировке лучей.

Первым графическим процессором на основе архитектуры Ampere стал большой «вычислительный» чип GA100, вышедший в мае и показавший мощный прирост производительности в различных вычислительных задачах. Но это все-таки чисто вычислительный чип, предназначенный для узкоспециализированных применений. А игровые видеокарты серии GeForce RTX 30 на базе архитектуры Ampere были представлены директором компании Дженсеном Хуангом во время виртуального мероприятия Nvidia в начале сентября.

Всего было представлено три модели: RTX 3090, RTX 3080 и RTX 3070, мы с вами уже рассмотрели среднюю из них, сегодня узнаем все о топовой, ну а время младшей придет в октябре. Модели RTX 3090 и RTX 3080 сделаны на базе разных модификаций чипа GA102, имеющих отличающееся количество активных вычислительных блоков. Если даже младшая RTX 3070 должна быть примерно на уровне флагмана предыдущей линейки RTX 2080 Ti, то топовая RTX 3090 и вовсе на 50% обходит дорогущий Titan RTX.

Самая производительная модель новой линейки имеет 10496 вычислительных CUDA-ядер, 24 ГБ локальной видеопамяти нового стандарта GDDR6X и отлично подходит для игр в самом высоком 8K-разрешении. Это модель класса Titan с ценой в $1499 (136 990 руб.), но имеющая обычное цифровое наименование — в этот раз Nvidia решила (пока?) не выпускать Titan. Трехслотовая модель с огромным кулером способна справиться с любыми задачами, игровыми и не только. Новинка предназначена для игры как минимум в 4K-разрешении, и даже может обеспечить 60 FPS в 8K-разрешении во многих играх, особенно с применением DLSS.

Основой рассматриваемой сегодня модели видеокарты стал новый графический процессор архитектуры Ampere, но так как она имеет достаточно много общего с предыдущими архитектурами Turing, Volta и местами даже Pascal, то перед прочтением материала мы советуем ознакомиться с нашими предыдущими статьями:

[18.09.20] Nvidia GeForce RTX 3080, часть 2: описание карты Palit, игровые тесты, выводы
[16.09.20] Nvidia GeForce RTX 3080, часть 1: теория, архитектура, синтетические тесты
[08.10.18] Обзор новинки 3D-графики 2018 года — Nvidia GeForce RTX 2080
[19.09.18] Nvidia GeForce RTX 2080 Ti — обзор флагмана 3D-графики 2018 года
[14.09.18] Игровые видеокарты Nvidia GeForce RTX — первые мысли и впечатления
[06.06.17] Nvidia Volta — новая вычислительная архитектура
[09.03.17] GeForce GTX 1080 Ti — новый король игровой 3D-графики

Графический ускоритель GeForce RTX 3090
Кодовое имя чипа	GA102
Технология производства	8 нм (Samsung «8N Nvidia Custom Process»)
Количество транзисторов	28,3 млрд
Площадь ядра	628,4 мм²
Архитектура	унифицированная, с массивом процессоров для потоковой обработки любых видов данных: вершин, пикселей и др.
Аппаратная поддержка DirectX	DirectX 12 Ultimate, с поддержкой уровня возможностей Feature Level 12_2
Шина памяти	384-битная: 12 независимых 32-битных контроллеров памяти с поддержкой памяти типа GDDR6X
Частота графического процессора	до 1695 МГц (турбо-частота)
Вычислительные блоки	82 потоковых мультипроцессора (из 84 в полном чипе), включающих 10496 CUDA-ядер (из 10752 ядер) для целочисленных расчетов INT32 и вычислений с плавающей запятой FP16/FP32/FP64
Тензорные блоки	328 тензорных ядер (из 336) для матричных вычислений INT4/INT8/FP16/FP32/BF16/TF32
Блоки трассировки лучей	82 RT-ядра (из 84) для расчета пересечения лучей с треугольниками и ограничивающими объемами BVH
Блоки текстурирования	328 блоков (из 336) текстурной адресации и фильтрации с поддержкой FP16/FP32-компонент и поддержкой трилинейной и анизотропной фильтрации для всех текстурных форматов
Блоки растровых операций (ROP)	14 широких блоков ROP на 112 пикселей с поддержкой различных режимов сглаживания, в том числе программируемых и при FP16/FP32-форматах буфера кадра
Поддержка мониторов	поддержка HDMI 2.1 и DisplayPort 1.4a (со сжатием DSC 1.2a)

Спецификации референсной видеокарты GeForce RTX 3090
Частота ядра	до 1695 МГц
Количество универсальных процессоров	10496
Количество текстурных блоков	328
Количество блоков блендинга	112
Эффективная частота памяти	19,5 ГГц
Тип памяти	GDDR6X
Шина памяти	384-бит
Объем памяти	24 ГБ
Пропускная способность памяти	936 ГБ/с
Вычислительная производительность (FP32)	до 35,6 терафлопс
Теоретическая максимальная скорость закраски	193 гигапикселей/с
Теоретическая скорость выборки текстур	566 гигатекселей/с
Шина	PCI Express 4.0
Разъемы	один HDMI 2.1 и три DisplayPort 1.4a
Энергопотребление	до 350 Вт
Дополнительное питание	два 8-контактных разъема
Число слотов, занимаемых в системном корпусе	3
Рекомендуемая цена	$1499 (136 990 рублей)

Это вторая модель нового поколения и ее название соответствует принципу наименования решений компании, так как ниже нее стоит менее дорогая RTX 3080. Правда, в прошлом поколении модели RTX 2090 не было вообще, а был отдельный Titan RTX. Соответственно, рекомендованная цена для GeForce RTX 3090 ближе не к RTX 2080, а что-то среднее между RTX 2080 Ti и Titan RTX, так как они являются топовыми представителями своих поколений — $1499. Для нашего рынка рекомендация по цене в 136990 рублей сначала могла показаться завышенной, но из-за резкого падения курса национальной валюты в последнее время, как бы ее еще корректировать в большую сторону не пришлось.

В любом случае, у RTX 3090 на рынке просто нет конкурентов, и на нее Nvidia может ставить цену по своему усмотрению. Точнее, соперник то у нее есть, и довольно сильный, но это — модель этой же линейки в виде RTX 3080, которая даже по теоретической производительности уступает топовому решению от силы 20%-25%. А стоит то она гораздо дешевле! Поэтому если кому-то достаточно 10 ГБ видеопамяти и несколько меньшей производительности, то у него появляется немалый соблазн сэкономить. С другой стороны, если вам нужен максимум производительности и большой объем памяти, а вопрос цены на третьем месте, то выбора просто не остается.

О конкурентах со стороны компании AMD пока что сказать нечего. Radeon VII давно устарел и снят с производства, Radeon RX 5700 XT является решением более низкого уровня, а больше у них ничего и нет. Так что ждем решений на базе архитектуры RDNA2, и особенно любопытен будет большой чип «Big Navi», хотя и далеко еще не факт, что и он сможет конкурировать с GeForce RTX 3090.

Nvidia выпустила видеокарты новой серии и в собственном дизайне под наименованием Founders Edition. Они предлагают любопытные системы охлаждения и строгий дизайн, которого не найти у большинства производителей видеокарт, гонящихся за количеством и размером вентиляторов, а также разноцветной подсветкой. Самое интересное в GeForce RTX 30, продаваемых под брендом Nvidia — совершенно новый дизайн системы охлаждения с двумя вентиляторами, расположенными необычным образом: первый более-менее привычно выдувает воздух через решетку с торца платы, а вот второй установлен с обратной стороны и протягивает воздух прямо сквозь видеокарту.

Таким образом, тепло отводится от компонентов на карте в гибридную испарительную камеру, где оно распределяется по всей длине радиатора. Левый вентилятор выводит нагретый воздух через большие вентиляционные отверстия в креплении, а правый вентилятор направляет воздух к выдувному вентилятору корпуса, где он обычно установлен в большинстве современных систем. Эти два вентилятора работают на разной скорости, которая настраивается для них индивидуально.

Подобное решение заставило инженеров менять всю конструкцию. Если обычные печатные платы проходят во всю длину видеокарт, то в случае продувного вентилятора пришлось разработать короткую печатную плату, с уменьшенным слотом NVLink, новыми разъемами питания (переходник на два обычных 8-контактных PCI-E прилагается). При этом, разместить на карте большое количество фаз для питания и микросхем памяти, было очень непросто. Но эти изменения дали возможность большого выреза для вентилятора на печатной плате, чтобы потоку воздуха ничего не мешало.

Nvidia утверждает, что дизайн кулеров Founders Edition привел к заметно более тихой работе, чем стандартные кулеры с двумя осевыми вентиляторами с одной стороны, при этом эффективность охлаждения у них выше. Поэтому новые решения устройств охлаждения позволили повысить производительность без роста температуры и шума по сравнению с видеокартами предыдущего поколения Turing. Так, по данным компании, при уровне потребления 350 Вт рассматриваемая сегодня новинка или на 30 градусов холоднее модели Titan RTX, или на 20 дБА тише. Это мы проверим далее.

Видеокарта модели RTX 3090 доступна в розничных магазинах с 24 сентября, но в связи с недостаточным объемом производства и пока еще высоким спросом, продукт по хорошей цене еще придется поискать. Видеокарты GeForce RTX 30 Founders Edition должны начать продаваться на русскоязычном сайте Nvidia с 6 октября. Естественно, что партнеры компании выпускают карты собственного дизайна: Asus, Colorful, EVGA, Gainward, Galaxy, Gigabyte, Innovision 3D, MSI, Palit, PNY и Zotac.

Некоторые из видеокарт будут продаваться участвующими в акции продавцами с 17 сентября по 20 октября в комплекте с игрой Watch Dogs: Legion и годовой подпиской на сервис GeForce Now. Также графическими процессорами серии GeForce RTX 30 будут оснащены игровые системы компаний Acer, Alienware, Asus, Dell, HP, Lenovo и MSI и системы ведущих российских сборщиков, включая Boiling Machine, Delta Game, Hyper PC, InvasionLabs, OGO! и Edelweiss.

Архитектурные особенности

При производстве GA102 используется техпроцесс 8 нм компании Samsung, он дополнительно оптимизирован именно для Nvidia. Старший игровой чип Ampere содержит 28,3 миллиарда транзисторов и имеет площадь 628,4 мм² — это хороший шаг вперед по сравнению с 12 нм у Turing, но тот же техпроцесс 7 нм на TSMC по плотности все же превосходит 8 нм у Samsung, если судить по чипам одной архитектуры Ampere, сравнивая игровой GA102 и большой чип GA100, который производится именно на тайваньских фабриках.

Скорее всего, Nvidia выбрала техпроцесс Samsung, исходя из себестоимости и доступности массового производства больших чипов. Выход годных на заводе Samsung вполне может быть лучше, условия для такого жирного клиента наверняка особые, а у TSMC производственные мощности техпроцесса 7 нм уже заняты другими компаниями. Так что игровые Ampere производятся на фабриках Samsung скорее всего из-за несогласия Nvidia с предложенными тайваньцами ценами или другими условиями.

Как и предыдущие чипы компании, GA102 состоит из укрупненных кластеров Graphics Processing Cluster (GPC), которые включают несколько кластеров текстурной обработки Texture Processing Cluster (TPC), которые содержат потоковые процессоры Streaming Multiprocessor (SM), блоки растеризации Raster Operator (ROP) и контроллеры памяти. Полный чип GA102 содержит семь кластеров GPC, 42 кластера TPC и 84 мультипроцессора SM. Каждый GPC содержит шесть TPC, каждый из пары SM, а также один движок PolyMorph Engine для работы с геометрией.

GPC — это высокоуровневый кластер, включающий все ключевые блоки для обработки данных внутри него, каждый из них имеет выделенный движок растеризации Raster Engine и теперь включает два раздела ROP по восемь блоков каждый — в новой архитектуре Ampere эти блоки не привязаны к контроллерам памяти, а находятся прямо в GPC. В итоге, полный GA102 содержит 10752 потоковых CUDA-ядра, 84 RT-ядер второго поколения и 336 тензорных ядер третьего поколения. Подсистема памяти полного GA102 содержит двенадцать 32-битных контроллеров памяти, что дает 384-бит в общем. Каждый 32-битный контроллер связан с разделом кэш-памяти второго уровня объемом в 512 КБ, что дает общий объем L2-кэша в 6 МБ для полной версии GA102.

Но пока что мы говорили о полном чипе, а даже топовая модель видеокарты GeForce RTX 3090 использует слегка урезанный по количеству блоков вариант GA102. Эта модификация получила незначительно сниженные характеристики, в которой активных кластеров GPC осталось семь, а количество блоков SM снизилось лишь на два — то есть, в одном из GPC просто отключили один из кластеров TPC с парой мультипроцессоров. Соответственно, в итоге отличается и количество других блоков: 10496 CUDA-ядер, 328 тензорных ядер и 82 RT-ядра. Текстурных блоков осталось 328 штук, а вот блоки ROP активны все — 112. Эти показатели заметно выше, чем у RTX 3080, но это все равно не полный чип.

Еще одно важнейшее отличие от GeForce RTX 3080 заключается в наличии 24 ГБ быстрой GDDR6X-памяти, которая подключена по полной 384-битной шине, что дает чуть ли не терабайт пропускной способности. В отличие от 10 ГБ у «средней» модели RTX 3080, этого объема точно хватит на все. Хотя Nvidia уверяет, что ни одна игра в 4K-разрешении не требует большего объема памяти, но скоро выйдут консоли нового поколения с большим объемом памяти и быстрыми SSD, и некоторые мультиплатформенные или портированные с них игры могут начать требовать большего, чем 10 ГБ локальной видеопамяти.

Пропускная способность также увеличилась и достигла 936 ГБ/с. Но для столь мощного GPU и этого может не всегда хватать, особенно при удвоении общей производительности. Кроме того, хотя Micron указывает эффективную рабочую частоту памяти как 21 ГГц, Nvidia в своих продуктах использует довольно консервативные 19,5 для RTX 3090 — интересно, в чем тут дело? В сырости нового типа памяти и/или ее слишком высоком энергопотреблении?

Подробно рассматривать архитектурные улучшения Ampere в этой статье мы не будем, все написано в теоретическом материале по GeForce RTX 3080. Основным нововведением Ampere является удвоение FP32-производительности для каждого мультипроцессора SM, по сравнению с семейством Turing, что привело к значительному повышению пиковой производительности. Почти то же самое касается и RT-ядер — хотя их число и не изменилось, внутренние улучшения привели к удвоению темпа поиска пересечений лучей с геометрией. Улучшенные тензорные ядра хоть и не удвоили производительность при обычных условиях, но темп вычислений удвоился, а также появилась возможность удвоения скорости обработки так называемых разреженных матриц.

Все остальные архитектурные особенности игровых решений Ampere, включая изменения в мультипроцессорах SM, блоках ROP, системе кэширования и текстурирования, тензорных и RT-ядрах, подробно рассмотрены в теоретическом обзоре RTX 3080. Там же приведены сведения о новом типе памяти GDDR6X, который применяется в старших чипах новой линейки. Все улучшения привели к достижению довольно высокой энергоэффективности, вся архитектура Ampere делалась с упором на это, включая доработанный техпроцесс Samsung, дизайн чипов и печатных плат, оптимизацию ПО и многое другое.

Добавим лишь небольшое дополнение про интереснейший набор технологий RTX IO, обеспечивающих быструю передачу и распаковку ресурсов на GPU, что повышает производительность системы ввода-вывода в десятки раз, по сравнению с привычными HDD и традиционными API. RTX IO в будущем обеспечит очень быструю загрузку ресурсов игры и позволит создавать гораздо более разнообразные и детализированные виртуальные миры.

RTX IO распаковывает данные при помощи потоковых процессоров GPU, это осуществляется асинхронно — при помощи высокопроизводительных вычислительных кернелов, используя механизмы прямого доступа к памяти архитектур Turing и Ampere, также помогает в процессе улучшенный набор инструкций и новая архитектура мультипроцессоров SM, позволяющая использовать расширенные асинхронные вычислительные возможности.

У Nvidia все необходимое для работы этой технологии было и раньше в их собственной технологии GPUDirect Storage, но за исключением распаковки сжатых данных на GPU. Именно в этом и заключается принципиально новая возможность RTX IO и DirectStorage API. При использовании GPU Nvidia и ранее можно было осуществить подобный подход в операционных системах Linux, но в Windows есть определенные фундаментальные архитектурные ограничения, не позволяющие реализовать прямой обмен данными в полной мере.

Поэтому разработчикам придется ждать, пока Microsoft реализует эти возможности в их собственном DirectStorage API. Впрочем, это не должно сильно помешать, так как вряд ли в ближайшие годы появятся игры, даже портированные с консолей следующего поколения, которые смогут полностью использовать возможности быстрых SSD. Пока что разработчики все еще ориентируются на механические HDD-накопители, но так как рыночная доля SSD (NVMe, в частности) растет быстро, то пройдет пара-тройка лет, и такие игры точно появятся.

Поддержка технологии DLSS в 8K

Совсем недавно 4K-разрешение казалось очень высоким, а теперь 8K-телевизоры уже предлагаются на рынке в исполнении компаний LG, Samsung и Sony, и цены на них начинаются от $2999. Распространению 8K мешает не только отсутствие соответствующего контента в подобном разрешении, но и высочайшая требовательность. Такие условия не только предъявляют вчетверо больше требований к мощности GPU, но и повышенный объем видеопамяти для загрузки всех необходимых ресурсов повышенного качества. Даже простое декодирование 8K-видео в форматах H.265 и VP9 может быть слишком требовательной задачей, не говоря уже о его кодировании и уж тем более 3D-рендеринге.

Зачем вообще нужно высокое разрешение? Разве не важнее само качество затенения, освещения, качественного наложения теней и так далее? Конечно важнее, но все эти улучшения труднее увидеть в низких разрешениях, когда изображение расплывчатое. Увеличение разрешения позволяет повысить общие четкость и детализацию, а вместе с этим и реалистичность. Конечно, это не стоит делать, снижая качество графики, все должно быть сбалансировано. Но именно в высоких разрешениях, вроде 8K, и можно увидеть мелкие детали.

Устройства вывода с поддержкой 8K-разрешения (7680×4320 пикселей) выводят 33 миллиона пикселей несколько раз в секунду, по сравнению с парой миллионов для Full HD и 8 миллионами для 4K. Так что вполне можно себе предположить приличный шаг в улучшении четкости, если учитывать разницу между Full HD и 4K, которую все уже видели. Столь большое количество пикселей позволяет увидеть максимальное количество деталей в сгенерированной картинке. Например, по 8K-скриншоту из игры Watch Dogs: Legion:

Видеокарта GeForce RTX 3090 в принципе является наиболее подходящей для 8K-разрешения. Во-первых, вместо двух кабелей для подключения к устройствам с разъемом HDMI 2.1 на всех Ampere можно использовать лишь один кабель. Во-вторых, это максимально производительный графический процессор на сегодня, а даже 4K-разрешение требует подобной мощности, не говоря уже о 8K. И в-третьих, зачастую 3D-приложения в высоком разрешении используют очень много видеопамяти, а GeForce RTX 3090 имеет более чем вдвое больший объем видеопамяти, по сравнению с прошлым флагманом компании — RTX 2080 Ti с его 11 ГБ. Новая модель несет 24 ГБ памяти нового типа GDDR6X с высокой пропускной способностью, которая также важна для 8K. Так что Nvidia не так уж далека от истины, когда называет этот GPU первым подходящим для 8K. Но все не так просто, ведь даже в 4K порой недостаточно производительности, особенно при включенной трассировке лучей.

Давно известно, что трассировка лучей — это крайне затратный и ресурсоемкий процесс. Настолько, что компания Nvidia сделала аппаратную поддержку так называемого Deep Learning Super Sampling (DLSS) в своем предыдущем поколении Turing. Этот метод повышения производительности использует возможности выделенных тензорных ядер для работы нейросети, которая дорисовывает недостающие пиксели при переводе изображения из более низкого разрешения в требуемое.

Например, для того, чтобы получить приемлемую производительность с применением трассировки в 4К, картинка отрисовывается в меньшем разрешении (вплоть до Full HD в случае производительного режима DLSS) и далее восстанавливается до полноценного разрешения при помощи заранее подготовленной нейросети, которая работает с использованием информации из предыдущих кадров и способна отображать даже мелкие детали. В итоге, картинка получается схожей с той, что получается при рендеринге в полном разрешении, при этом общая производительность будет намного выше. А сам по себе алгоритм DLSS требует совсем немного ресурсов GPU.

Вместе с выходом решений архитектуры Ampere были добавлены некоторые улучшения и в технологию DLSS — в частности, была проведена оптимизация под тензорные ядра третьего поколения и улучшенные асинхронные вычисления, а также появился новый режим для разрешения 8K. Он использует рендеринг изображения с в 9 раз меньшим количеством пикселей и затем восстанавливает его до полного разрешения 8K. Именно такой подход и позволяет получить качество высокого разрешения при сохранении 60 FPS даже в играх с поддержкой трассировки лучей.

При работе DLSS в 8K применяется улучшенная модель для нейросети, которая использует рендеринг в разрешении 2560×1440 и затем растягивает его до 7680×4320 с использованием мощи тензорных ядер. Даже на 4K-мониторе видно, насколько лучше становится качество в восстановленном при помощи DLSS изображении. Это и неудивительно, ведь оно предлагает в 16 раз больше пикселей чем Full HD, и вчетверо больше 4K.

Вообще, DLSS 2.1 включает три улучшения: новый режим Ultra Performance, позволяющий запускать игры в разрешении 8K при помощи DLSS на GeForce RTX 3090; поддержку VR-приложений и динамического разрешения, когда разрешение рендеринга входного кадра для DLSS изменяется постоянно, но выходное всегда фиксировано — так что если игровой движок поддерживает динамическое разрешение, то эта DLSS позволяет довольно легко отмасштабировать его до разрешения дисплея с максимально возможным качеством.

В играх с поддержкой технологии, у пользователей появится выбор из четырех режимов качества DLSS: Quality, Balanced, Performance и Ultra Performance. Поддержка последней версии технологии DLSS, включая режим Ultra Performance для 8K, должна появиться в следующих играх: Boundary, Bright Memory Infinite, Control, Call of Duty: Black Ops Cold War, Cyberpunk 2077, Death Stranding, Justice, Fortnite, Minecraft RTX, Ready or Not, Scavengers, Watch Dogs: Legion и Wolfenstein: Youngblood.

Применение в профессиональном ПО

Видеокарта модели GeForce RTX 3090 предназначена не только для богатых энтузиастов игр на ПК, но и различных представителей современной индустрии, использующих мощь современных графических процессоров в собственной работе: дизайнеры, 3D-аниматоры, ИИ-разработчики, ученые и многие другие, нацеленные на использование самых мощных GPU в мире. Именно GeForce RTX 3090 и является таковым, предлагая максимум всего. Аналогично своему условному предшественнику в виде Titan RTX, новинка несет на борту 24 ГБ быстрой памяти, важной для всех перечисленных категорий пользователей, в частности для обработки видеоданных в формате 8K HDR, а также предлагает высочайшую производительность в вычислительных приложениях, в том числе с аппаратной поддержкой трассировки лучей.

Новое семейство видеокарт GeForce RTX 30 приносит улучшенные возможности по ускорению рендеринга в таких популярных приложениях, как Blender Cycles, Chaos V-Ray и Autodesk Arnold. Помимо вдвое более производительных RT-ядер и удвоенного темпа исполнения математических вычислений в GPU новой архитектуры Ampere, отдельно отметим новую возможность для ускорения смазывания в движении (motion blur) для трассированных изображений, которая ускоряется на RTX 30 в несколько раз, вплоть до пяти. А огромный объем видеопамяти в 24 ГБ позволяет загрузить в нее большие 3D-проекты для аппаратной обработки полностью, без необходимости использования медленной системной памяти.

Новая архитектура Ampere помогает ускорять и приложения искусственного интеллекта, также применяемые в 3D-графике в виде технологии DLSS и постфильтров шумоподавления. Например, технология DLSS повышает производительность рендеринга в реальном времени не только в играх, но и в приложениях визуализации, вроде D5 Render. Тензорные ядра третьего поколения помогают ускорить процесс шумоподавления в рендерерах Blender Cycles, Chaos V-Ray и Autodesk Arnold, а также повысить разрешение видеороликов или улучшить качество замедленного видео в Davinci Resolve.

Серия GeForce RTX 30 отлично подходит для всех перечисленных применений, ведь в число новых возможностей входит поддержка PCI Express четвертого поколения, удваивающая производительность каналов между GPU и остальной системой, что помогает при передача огромных объемов данных при обработке видеороликов высокого разрешения. Для этой же цели будет полезен очень большой объем локальной видеопамяти в 24 ГБ. Многие приложения по работе с видеоданными позволят комфортно работать с множеством эффектов при обработке 8K-видео. А в приложениях с применением трассировки лучей средняя производительность решений на базе архитектуры Ampere в 1,8-2,4 раза выше, чем у аналогичных GPU из семейства Turing:

Мы уже писали о том, что в архитектуре Ampere появилось аппаратное ускорение эффекта смазывания в движении при трассировке лучей. Одним из первых рендереров с поддержкой такой возможности стал Blender Cycles, и в результате процесс ускоряется вплоть до пяти раз. Это в теории, а в реальных сценах поменьше, конечно. Использование RTX-ускорения в рендерере Cycles дает высококачественное смазывание без артефактов при высокой скорости. Blender — это очень популярное ПО для 3D-моделирования, анимации и рендеринга, которое может использовать возможности ускорения трассировки лучей на GPU при помощи Nvidia Optix, как для финального рендеринга, так и при предпросмотре прямо в окне Blender, что дает возможность удобной оценки получаемых материалов, освещения и теней.

Еще один популярный рендерер — OctaneRender. Это независимый рендерер, использующий возможности CUDA и RTX и доступный в большинстве популярных приложений по созданию 3D-контента: Autodesk Maya и 3ds Max, Maxon Cinema 4D, DAZ 3D, Side Effects Houdini, Unreal Engine и других. Также Octane включает полноценный внешний редактор рендеринга, позволяющий отрисовывать сцены без необходимости запуска стороннего ПО. Предварительная версия OctaneRender 2020.1.5 получила поддержку второго поколения RTX, включая аппаратное ускорение трассировки лучей на RT-ядрах и оптимизации работы ИИ на тензорных ядрах — для шумоподавления.

В результате на Ampere достигается производительность примерно вдвое выше, чем на соответствующих Turing. Использование технологий Nvidia для рендеринга с трассировкой лучей и со смазыванием в движении, а также ускоренном при помощи ИИ шумоподавлении, 3D-приложения вроде Blender позволяют специалистам повысить производительность труда и быстрее получать итоговый результат. Также в приложения по созданию цифрового контента потихоньку внедряется и технология DLSS. Это позволяет получить в программе визуализации D5 Render неплохие 35 FPS вместо 19 FPS без DLSS в одной из сцен. То же самое касается и Autodesk VRED 2021, позволяющем получить трассированные изображения высокого качества в реальном времени.

Отметим также относительно новую форму искусства Машинима (Machinima — сочетание machine и cinema), в которой для создания кинематографических шедевров применяются игровые движки и модели и текстуры из игр же. Машинима стала популярной в 90-е годы, и имеет немало поклонников. Компания Nvidia, желающая поддержать таких энтузиастов, представила специальное средство для создания подобных роликов — Omniverse Machinima.

Оно значительно упрощает подобную работу, предоставляя инструменты для просмотра и движок с поддержкой трассировки лучей, корректных физических взаимодействий, включая симуляцию жидкостей и частиц, продвинутых материалов и т. д. Все желающие смогут использовать ресурсы из списка поддерживаемых игр, и при помощи ИИ и собственных действий создавать качественную анимацию кинематографического качества при помощи мощных графических процессоров серии RTX 30.

Создание контента подобной сложности всегда представляло определенные проблемы из-за ограничений игровых ресурсов и имеющихся инструментов для анимации. Довольно сложно создать долгую и реалистичную анимацию современного уровня, но теперь, благодаря внедрению технологий Nvidia, создатели Machinima будут иметь под рукой богатый набор инструментов с расширенными возможностями для создания собственных историй в реальном времени. Для анимации персонажей достаточно веб-камеры, микрофона и специального алгоритма обработки с применением ИИ.

При помощи Nvidia Omniverse можно импортировать ресурсы из поддерживаемых игр и сторонних библиотек ресурсов, а затем автоматически анимировать персонажей при помощи использования специального средства позирования с применением возможностей ИИ и записей с веб-камеры. Лица персонажей можно оживить при использовании технологии Nvidia Audio2Face просто с помощью аудиозаписи с голосом.

Также можно имитировать физические взаимодействия высокой реалистичности с применением систем частиц и симуляции поведения жидкостей. После создания всех сцен, итоговый фильм можно отрисовать с применением трассировки пути при помощи рендерера Omniverse RTX. Бета-версия Nvidia Omniverse Machinima должна появиться в октябре.

Особенности видеокарты Nvidia GeForce RTX 3090 Founders Edition

Сведения о производителе: Компания Nvidia Corporation (торговая марка Nvidia) основана в 1993 году в США. Штаб-квартира в Санта-Кларе (Калифорния). Разрабатывает графические процессоры, технологии. До 1999 года основной маркой была Riva (Riva 128/TNT/TNT2), с 1999 года и по настоящее время — GeForce. В 2000 году были приобретены активы 3dfx Interactive, после чего торговые марки 3dfx/Voodoo перешли к Nvidia. Своего производства нет. Общая численность сотрудников (включая региональные офисы) — около 5000 человек.

Объект исследования: ускоритель трехмерной графики (видеокарта) Nvidia GeForce RTX 3090 Founders Edition 24 ГБ 384-битной GDDR6X

Характеристики карты

Nvidia GeForce RTX 3090 Founders Edition 24 ГБ 384-битной GDDR6X
GPU	GeForce RTX 3090 (GA102)
Интерфейс	PCI Express x16 4.0
Частота работы GPU (ROPs), МГц	1395—1695(Boost)—1995(Max)
Частота работы памяти (физическая (эффективная)), МГц	4875 (19500)
Ширина шины обмена с памятью, бит	384
Число вычислительных блоков в GPU	82
Число операций (ALU/CUDA) в блоке	128
Суммарное количество блоков ALU/CUDA	10496
Число блоков текстурирования (BLF/TLF/ANIS)	328
Число блоков растеризации (ROP)	112
Число блоков Ray Tracing	82
Число тензорных блоков	328
Размеры, мм	310×125×53
Количество слотов в системном блоке, занимаемые видеокартой	3
Цвет текстолита	черный
Энергопотребление пиковое в 3D, Вт	364
Энергопотребление в режиме 2D, Вт	38
Энергопотребление в режиме «сна», Вт	11
Уровень шума в 3D (максимальная нагрузка), дБА	34,7
Уровень шума в 2D (просмотр видео), дБА	18,0
Уровень шума в 2D (в простое), дБА	18,0
Видеовыходы	1×HDMI 2.1, 3×DisplayPort 1.4a
Поддержка многопроцессорной работы	SLI (NVlink)
Максимальное количество приемников/мониторов для одновременного вывода изображения	4
Питание: 8-контактные разъемы	1 (12-контактный) c адаптером на 2 8-контактных разъема
Питание: 6-контактные разъемы	0
Максимальное разрешение/частота, Display Port	7680×4320@60 Гц
Максимальное разрешение/частота, HDMI	7680×4320@60 Гц
Максимальное разрешение/частота, Dual-Link DVI	2560×1600@60 Гц (1920×1200@120 Гц)
Максимальное разрешение/частота, Single-Link DVI	1920×1200@60 Гц (1280×1024@85 Гц)
Средняя розничная стоимость карты Palit	около 150 тысяч рублей на момент подготовки обзора

Память

Карта имеет 24 ГБ памяти GDDR6X SDRAM, размещенной в 24 микросхемах по 8 Гбит на обеих сторонах PCB (по 12 на каждой). Микросхемы памяти Micron (GDDR6X, MT61K256M32JE-21) рассчитаны на условную номинальную частоту работы в 5250 (21000) МГц. Расшифровщик кодов на упаковках FBGA находится здесь.

Особенности карты и сравнение с Nvidia GeForce RTX 2080 Ti

Nvidia GeForce RTX 3090 Founders Edition 24 ГБ	Nvidia GeForce RTX 2080 Ti 11 ГБ
вид спереди

вид сзади

Прежде всего: почему мы сравниваем с GeForce RTX 2080 Ti? Во-первых, это флагманский продукт предыдущего поколения, как GeForce RTX 3090 является флагманом сейчас. Во-вторых, GeForce RTX 2080 Ti имеет шину обмена с памятью 352 бита, что максимально близко к нынешним 384 битам ширины шины у GeForce RTX 3090. В-третьих, по иронии судьбы, к нам так до сих пор и не прибыли референс-карты GeForce RTX 3080 (с которыми сравнивать, наверно, было бы логичнее).

Очевидно, что референс-дизайн инженеры Nvidia сделали не только уникальным, но и весьма забавным внешне. Впрочем, в Nvidia сделали два варианта дизайна PCB: для своих карт Founders Edition и для партнеров, у последних платы без таких вырезов, немного проще. В целом фирменная карта получилась очень компактной, несмотря на шину обмена с памятью в 384 бита.

Суммарное количество фаз питания у GeForce RTX 3090 просто ошеломляет: 22! Это на 6 больше, чем у GeForce RTX 2080 Ti и GeForce RTX 3080 (там 16). При этом распределение фаз у GeForce RTX 2080 Ti — 13 фаз на ядро и 3 на микросхемы памяти, у GeForce RTX 3080 — 14+2, а у GeForce RTX 3090 — 18+4.

Зеленым цветом отмечена схема питания ядра, красным — памяти. При этом никаких удвоителей (даблеров) фаз нет, для управления схемой питания GPU используются три ШИМ-контроллера Monolithic Power Systems: MP2884 рассчитан на 4 фазы, MP2886 — на 6 фаз, а MP2888 — на управление 10 фазами питания. Первые два расположены на оборотной стороне платы, а третий — на лицевой.

Совместными усилиями они обеспечивают 18 фаз схемы питания GPU. Система питания микросхем памяти включает 4 фазы, которыми заведует один из uS5650Q (uPI Semiconductor).

Второй такой контроллер отвечает за мониторинг состояния платы.

В преобразователе питания, традиционно для всех видеокарт Nvidia, используются транзисторные сборки DrMOS — в данном случае, MP86957 той же Monolithic Power Systems.

У карты необычный коннектор питания — 12-контактный. Причем один.

Еще в начальном видеоролике мы упомянули, что ряд производителей блоков питания, прежде всего Seasonic, объявили о выпуске отдельных кабелей («хвостов») для своих модульных БП для подключения к референс-картам серии GeForce RTX 30. Ну а с самой картой, конечно же, поставляется переходник, позволяющий подключить два 8-контактных коннектора к новому разъему.

Возникает вопрос: зачем эти сложности, если для питания карты все равно задействованы те же два 8-контактных коннектора, под которые совершенно спокойно распаивают два 8-контактных разъема на своих GeForce RTX 3080/3090 партнеры Nvidia? Ведь новый 12-контактный разъем пока встречается только у карт серии Founders Edition. Ответа на этот вопрос пока нет. Впрочем, у карт с двумя 8-контактными разъемами наблюдался повышенный нагрев разъемов питания, чего не было отмечено у референс-карты. Возможно, распределение тока по проводникам в 12-контактном разъеме, как у Founders Edition, более рациональное.

Нагрев и охлаждение

Не случайно в Nvidia решили сделать PCB более компактной: для новых карт задумана специальная система охлаждения.

Основной пластинчатый радиатор, выполненный из медного сплава и очень тяжелый, имеет тепловые трубки, подведенные к теплосъемнику на GPU. Массивная основа (по сути, настоящая рама) охлаждает также микросхемы памяти с лицевой стороны и преобразователи питания VRM. Задняя пластина служит охладителем других 12 микросхем памяти, а также участвует в охлаждении оборотной стороны PCB.

Вентиляторов здесь два (∅95 мм), в обоих используются двойные подшипники. Особенность СО состоит в том, что вентиляторы установлены с разных стороны карты (один с лицевой, другой с оборотной). Замысел создателей прост и сложен одновременно:

Как видно по схеме, правый вентилятор продувает радиатор (ту его часть, куда выведены тепловые трубки) насквозь (через решетку на оборотной стороне). Нагретый воздух поднимается вверх, и его должен подхватить выдувной вентилятор в корпусе системного блока. Левый же вентилятор сразу выдувает горячий воздух за пределы корпуса сквозь отверстия в брекете карты. PCB имеет характерный вырез именно для эффективной работы правого вентилятора. Для эффективной работы такого кулера в корпусе должна быть организована хорошая вентиляция, потому что часть нагретого воздуха будет оставаться в корпусе. Впрочем, абсолютное большинство партнеров Nvidia выпускают карты с системами охлаждения, которые не выбрасывают воздух сразу за пределы корпуса, поэтому такая ситуация является на сегодняшний день совершенно привычной.

Демонтаж такой СО — тот еще квест. Nvidia даже выпустила руководство по корректному снятию и установке кулера. Нашему фотографу пришлось просто ювелирно потрудиться с тонким пинцетом, лупой и т. п.

Ряд разъемов демонстрируют богатую фантазию разработчиков.

Напомним, что обычно видеокарты останавливают свои вентиляторы в простое, при работе в 2D, если температура GPU опускается ниже примерно 60 градусов, и СО при этом становится бесшумной. В случае карты Nvidia GeForce RTX 3090 Founders Edition режим работы кулера иной: для остановки вентиляторов температура GPU должна быть ниже 50 °C, температура чипов памяти — ниже 80 °C, а энергопотребление самого GPU — ниже 35 Вт. Только при соблюдении всех трех условий вентиляторы остановятся. Ниже есть видеоролик на эту тему, где в конце вентиляторы все же останавливаются.

Мониторинг температурного режима с помощью MSI Afterburner:

После 6-часового прогона под нагрузкой максимальная температура ядра не превысила 70 градусов, что является великолепным результатом для видеокарты топового уровня.

Мы засняли и ускорили в 30 раз 8,5-минутный прогрев:

Максимальный нагрев наблюдался в центральной части PCB, причем, с учетом конфигурации системы охлаждения, нагревалась вся карта! Обратите внимание на разъем питания: его нагрев не выделялся на общем фоне, тогда как у других видеокарт на GeForce RTX 3090 два 8-контактных разъема нагреваются очень сильно (об этом мы расскажем в соответствующих обзорах).

Методика измерения шума подразумевает, что помещение шумоизолировано и заглушено, снижены реверберации. Системный блок, в котором исследуется шум видеокарт, не имеет вентиляторов, не является источником механического шума. Фоновый уровень 18 дБА — это уровень шума в комнате и уровень шумов собственно шумомера. Измерения проводятся с расстояния 50 см от видеокарты на уровне системы охлаждения.

Режим простоя в 2D: загружен интернет-браузер с сайтом iXBT.com, окно Microsoft Word, ряд интернет-коммуникаторов
Режим 2D с просмотром фильмов: используется SmoothVideo Project (SVP) — аппаратное декодирование со вставкой промежуточных кадров
Режим 3D с максимальной нагрузкой на ускоритель: используется тест FurMark

Оценка градаций уровня шума следующая:

менее 20 дБА: условно бесшумно
от 20 до 25 дБА: очень тихо
от 25 до 30 дБА: тихо
от 30 до 35 дБА: отчетливо слышно
от 35 до 40 дБА: громко, но терпимо
выше 40 дБА: очень громко

В режиме простоя в 2D температура была не выше 37 °C, вентиляторы не работали, уровень шума был равен фоновому — 18 дБА.

При просмотре фильма с аппаратным декодированием вентиляторы иногда запускались, но не раскручивались выше 500 об/мин, поэтому шум сохранялся на прежнем уровне.

В режиме максимальной нагрузки в 3D температура достигала 70 °C. Вентиляторы при этом раскручивались до 1300 оборотов в минуту, шум вырастал до 34,7 дБА: это отчетливо слышно, но еще не раздражает. В видеоролике ниже видно, как растет шум (шум фиксировался пару секунд через каждые 30 секунд).

Как и в случае с GeForce RTX 3080, с учетом того, сколько данная карта «кушает» (около 364 Вт в максимуме!), шум абсолютно приемлемый, и надо похвалить разработчиков, придумавших такую хитроумную СО.

Подсветка

Подсветка у карты одноцветная (белая), подсвечены логотип и «V»-образные полоски вдоль центрального «креста».

Подсветка не регулируется и не выключается. Благо она минимальная и не раздражает.

Подсветка имеется на обеих сторонах радиатора, питание ее светодиодов и вентиляторов разведено только с одной стороны, поэтому имеется хитроумный разъем для передачи питания на вторую сторону карты.

Комплект поставки и упаковка

Комплект поставки, кроме традиционного руководства пользователя, включает переходник питания на новый 12-контактный разъем с двух 8-контактных коннекторов.

Упаковка вызывает восторг, все очень стильно! Ощущение премиального продукта создается еще при виде коробки. Видео распаковки и восторгов — в начальном ролике 🙂

Тестирование: синтетические тесты

Конфигурация тестового стенда

Компьютер на базе процессора Intel Core i9-9900K (Socket LGA1151v2):

Компьютер на базе процессора Intel Core i9-9900KS (Socket LGA1151v2):

процессор Intel Core i9-9900KS (разгон 5,1 ГГц по всем ядрам);
ЖСО Cougar Helor 240;
системная плата Gigabyte Z390 Aorus Xtreme на чипсете Intel Z390;
оперативная память Corsair UDIMM (CMT32GX4M4C3200C14) 32 ГБ (4×8) DDR4 (XMP 3200 МГц) ;
SSD Intel 760p NVMe 1 ТБ PCI-E;
жесткий диск Seagate Barracuda 7200.14 3 ТБ SATA3;
блок питания Seasonic Prime 1300 W Platinum (1300 Вт);
корпус Thermaltake Level20 XT;

Тесты GeForce RTX 3090 проводились с выводом картинки на новейший телевизор LG 65NANO996NA, имеющий разрешение 7680×4320, то есть 8К.

8K-матрица телевизора LG Nano99 65″ 8K NanoCell состоит из 33 миллионов пикселей (99 млн субпикселей). Для качественного изображения в 8K важно фактическое число пикселей, но еще важнее, чтобы каждый пиксель был отдельным и отличимым для глаза. Такие телевизоры положили начало новому поколению продуктов и услуг с маркировкой 8K Ultra HD, которые обеспечивают четкость в четыре раза выше, чем у 4K-телевизоров, и в 16 раз выше, чем у Full HD-моделей. Телевизоры LG NanoCell 2020 года создают чистые цвета благодаря мельчайшим наночастицам, которые отфильтровывают некорректные цвета и усиливают чистоту цвета, так что виртуальный мир превращается в настоящую реальность. А благодаря функции Motion Pro вы видите все быстрые и малейшие движения каждого игрока в спортивных соревнованиях без размытости.

NanoCell-телевизоры LG — интеллектуальные. Функция распознавания голоса позволяет управлять интерфейсом SmartTV и контролировать умный дом при помощи технологии LG ThinQ. Также они обеспечивают оптимальное качество HDR-изображения с поддержкой основных форматов HDR, включая HDR 10 и HLG Pro. Dolby Vision IQ грамотно настраивает яркость, цвет и контрастность экрана в зависимости от жанра контента и условий освещения.

Телевизоры LG NanoCell получили сертификат «светобиологической безопасности светодиодов» Underwriters Laboratories (UL), подтверждающий, что излучение от экрана не вредит глазам. В ходе испытаний на светобиологическую безопасность светодиодов оценивается пять показателей: синий свет, актиничное УФ-излучение, ближнее УФ-излучение, инфракрасное излучение и опасность ожога сетчатки глаза. Эти показатели официально утверждены МЭК (Международной электротехнической комиссией) для оценки уровня опасности излучения светодиодов для тела человека. Телевизоры NanoCell превзошли требования по всем показателям.

Мы провели тестирование видеокарты GeForce RTX 3090 со стандартными частотами в нашем наборе синтетических тестов. Он продолжает постоянно меняться, добавляются новые тесты, а некоторые устаревшие постепенно убираются. Мы бы хотели добавить еще больше примеров с вычислениями, но с этим есть определенные сложности. Постараемся расширить и улучшить набор синтетических тестов, и если у вас есть четкие и обоснованные предложения — напишите их в комментариях к статье или отправьте авторам.

Начиная с этого обзора мы полностью отказались от ранее активно использовавшихся нами тестов RightMark3D, так как они устарели слишком сильно, и на столь мощных GPU или не запускаются вообще, или упираются в различные ограничители, не загружая работой блоки графического процессора и не показывая его истинную производительность. А вот синтетические Feature-тесты из набора 3DMark Vantage мы все еще оставили в полном составе, так как заменить их попросту нечем, хотя и они уже изрядно устарели.

Из более-менее новых бенчмарков мы начали использовать несколько примеров, входящих в DirectX SDK и пакет SDK компании AMD (скомпилированные примеры применения D3D11 и D3D12), а также несколько разнообразных тестов для измерения производительности трассировки лучей, программной и аппаратной. В качестве полусинтетического теста у нас также используется и довольно популярный 3DMark Time Spy, а также некоторые другие — например, DLSS и RTX.

Синтетические тесты проводились на следующих видеокартах:

GeForce RTX 3090 со стандартными параметрами (RTX 3090)
GeForce RTX 3080 со стандартными параметрами (RTX 3080)
GeForce RTX 2080 Ti со стандартными параметрами (RTX 2080 Ti)
GeForce RTX 2080 Super со стандартными параметрами (RTX 2080 Super)
GeForce RTX 2080 со стандартными параметрами (RTX 2080)
Radeon VII со стандартными параметрами (Radeon VII)
Radeon RX 5700 XT со стандартными параметрами (RX 5700 XT)

Для анализа производительности новой видеокарты GeForce RTX 3090 мы выбрали несколько видеокарт из прошлого поколения компании Nvidia. Для сравнения с относительно аналогичным по позиционированию решением взяли RTX 2080 Ti — как самое дорогое решение предыдущего семейства Turing, если не брать сверхдорогой Titan RTX. Также есть на диаграммах и результаты RTX 2080 (или Super-варианта), просто для подтверждения того, как изменилась производительность GPU новой архитектуры.

У компании AMD соперников для GeForce RTX 3090 в нашем сегодняшнем сравнении снова просто не существует. Ждем конца октября, когда новые Radeon будут объявлены, а скорее даже ноября, когда они появятся у нас на тестах. Ну а пока нам ничего не остается, кроме как снова сравнивать новинки Nvidia с парой видеокарт: результаты Radeon VII присутствуют в качестве самого быстрого решения, хоть уже и давно исчезнувшего из продажи, а также есть Radeon RX 5700 XT — наиболее производительный графический процессор архитектуры RDNA первого поколения.

Мы традиционно рассматриваем устаревшие синтетические тесты из пакета 3DMark Vantage, ведь в них зачастую можно найти что-то интересное, чего нет в других, более современных тестах. Feature тесты из этого тестового пакета имеют поддержку DirectX 10, они до сих пор более-менее актуальны и при анализе результатов новых видеокарт мы всегда делаем какие-то полезные выводы.

Feature Test 1: Texture Fill

Первый тест измеряет производительность блоков текстурных выборок. Используется заполнение прямоугольника значениями, считываемыми из маленькой текстуры с использованием многочисленных текстурных координат, которые изменяются каждый кадр.

Эффективность работы видеокарт AMD и Nvidia в текстурном тесте компании Futuremark довольно высока, и тест показывает результаты, близкие к соответствующим теоретическим параметрам, хотя иногда они все же получаются несколько заниженными для некоторых из GPU. Так как GA102 в исполнении RTX 3090 имеет куда большее количество текстурных модулей, по сравнению с RTX 3080, то сегодняшняя новинка показала результат заметно выше — сразу на 25%, что вполне соответствует теоретическим показателям. Прибавка в скорости к показателю прошлого топа RTX 2080 Ti также довольно неплохая.

Сравнивать с очень условными конкурентами производства компании AMD смысла все так же нет, но отметим высокую скорость текстурирования у Radeon VII — так получается из-за большого количества текстурных блоков у него. Посмотрим, что с количеством и возможностями TMU сделают в архитектуре RDNA2, но обычно Radeon имеют сравнительно большое количество блоков текстурирования и с такими задачами справляются несколько лучше видеокарт конкурента не только того же ценового позиционирования, но и более мощных.

Feature Test 2: Color Fill

Вторая задача — тест скорости заполнения. В нем используется очень простой пиксельный шейдер, не ограничивающий производительность. Интерполированное значение цвета записывается во внеэкранный буфер (render target) с использованием альфа-блендинга. Используется 16-битный внеэкранный буфер формата FP16, наиболее часто используемый в играх, применяющих HDR-рендеринг, поэтому такой тест является вполне современным.

Цифры из второго подтеста 3DMark Vantage должны показывать производительность блоков ROP, без учета величины пропускной способности видеопамяти, и тест обычно измеряет именно производительность подсистемы ROP. Radeon RX 5700 имеет отличные теоретические показатели, подтверждающиеся результатами этого теста, скорость заполнения у этой модели высока.

Конкурирующие видеокарты компании Nvidia по скорости заполнения сцены почти всегда не так хороши, и хотя GeForce RTX 3090 в этом тесте оказалась снова почти на четверть быстрее RTX 3080, стоящей на ступень ниже, и явно быстрее своей предшественницы RTX 2080 Ti, но разница между последними лишь полуторакратная, хотя вычислительная скорость выросла сильнее. Впрочем, это объяснимо современными типами нагрузок, и новым чипам семейства Ampere нужны другие нагрузки, чтобы показать свою силу. Скорость же заполнения у новинки достаточна для реальных применений.

Feature Test 3: Parallax Occlusion Mapping

Один из самых интересных feature-тестов, так как подобная техника давно используется в играх. В нем рисуется один четырехугольник (точнее, два треугольника) с применением специальной техники Parallax Occlusion Mapping, имитирующей сложную геометрию. Используются довольно ресурсоемкие операции по трассировке лучей и карта глубины большого разрешения. Также эта поверхность затеняется при помощи тяжелого алгоритма Strauss. Это тест очень сложного и тяжелого для видеочипа пиксельного шейдера, содержащего многочисленные текстурные выборки при трассировке лучей, динамические ветвления и сложные расчеты освещения по Strauss.

Результаты этого теста из пакета 3DMark Vantage не зависят исключительно от скорости математических вычислений, эффективности исполнения ветвлений или скорости текстурных выборок, а от нескольких параметров одновременно. Для достижения высокой скорости в этой задаче важен правильный баланс GPU, а также эффективность выполнения сложных шейдеров. Это довольно полезный тест, так как результаты в нем всегда неплохо коррелируют с тем, что получается в игровых тестах.

Тут важны и математическая и текстурная производительность, и в этой «синтетике» из 3DMark Vantage новая модель видеокарты GeForce RTX 3090 показала вполне ожидаемый результат на 20% быстрее, чем RTX 3080 и на 40% быстрее своего условного аналога из предыдущего поколения. Вполне вероятно, что схожую картину мы увидим в играх без применения трассировки лучей, когда разница между Turing и Ampere будет меньше двукратной. Если же сравнивать новинку с Radeon, то ее результат неплохой, ведь графические процессоры AMD в этом тесте всегда были сильны. Но сейчас у этой компании просто нет GPU, схожего с GA102 по мощности, так что ждем октября-ноября.

Feature Test 4: GPU Cloth

Четвертый тест интересен тем, что в нем рассчитываются физические взаимодействия (имитация ткани) при помощи GPU. Используется вершинная симуляция, при помощи комбинированной работы вершинного и геометрического шейдеров, с несколькими проходами. Используется stream out для переноса вершин из одного прохода симуляции к другому. Таким образом, тестируется производительность исполнения вершинных и геометрических шейдеров и скорость stream out.

Скорость рендеринга в этом тесте должна зависеть сразу от нескольких параметров, и основными факторами влияния должны являться производительность обработки геометрии и эффективность выполнения геометрических шейдеров. Сильные стороны чипов Nvidia должны были проявиться, но мы в который раз получаем явно некорректные результаты в этом тесте, поэтому учитывать результаты всех видеокарт GeForce тут просто нет смысла, они просто неверны. И модель RTX 3090 ничего не изменила, естественно, так как дело в драйверах, которые одинаковы для всех GPU.

Feature Test 5: GPU Particles

Тест физической симуляции эффектов на базе систем частиц, рассчитываемых при помощи графического процессора. Используется вершинная симуляция, где каждая вершина представляет одиночную частицу. Stream out используется с той же целью, что и в предыдущем тесте. Рассчитывается несколько сотен тысяч частиц, все анимируются отдельно, также рассчитываются их столкновения с картой высот. Частицы отрисовываются при помощи геометрического шейдера, который из каждой точки создает четыре вершины, образующие частицу. Больше всего загружает шейдерные блоки вершинными расчетами, также тестируется stream out.

Во втором геометрическом тесте из 3DMark Vantage мы также видим далекие от теории результаты, но они чуть ближе к истине, чем в прошлом подтесте этого же бенчмарка. Представленные видеокарты Nvidia и в этот раз необъяснимо медленны, и хотя лидером стала рассматриваемая сегодня GeForce RTX 3090, но Radeon RX 5700 XT довольно близка к ней. Впрочем, видеокарты на основе архитектуры Ampere оказались достаточно быстры в этом тесте, новинка на 15% быстрее RTX 3080 и более чем на треть опередила RTX 2080 Ti.

Feature Test 6: Perlin Noise

Последний feature-тест пакета Vantage является математически-интенсивным тестом GPU, он рассчитывает несколько октав алгоритма Perlin noise в пиксельном шейдере. Каждый цветовой канал использует собственную функцию шума для большей нагрузки на видеочип. Perlin noise — это стандартный алгоритм, часто применяемый в процедурном текстурировании, он использует много математических вычислений.

В этом математическом тесте производительность решений хоть и не совсем соответствует теории, но она обычно ближе к пиковой производительности видеочипов в предельных задачах. В тесте используются операции с плавающей запятой, и новая архитектура Ampere должна бы раскрыть свои уникальные возможности, показав результат заметно выше предыдущего поколения, но увы — видимо, тест слишком устарел и не показывает современные GPU с лучшей стороны.

Наиболее мощное решение компании Nvidia на основе архитектуры Ampere справляется с задачей отлично, обогнав RTX 3080 почти на 30%, и почти в полтора раза быстрее RTX 2080 Ti, хотя по теории разница должна бы быть куда большей. Но и этого хватило, чтобы обойти Radeon VII, но она уже очень стара и сравнивать с ней смысла не очень много. Снова остается ждать выхода RDNA2 и Big Navi, в частности. А сейчас рассмотрим более современные тесты, использующие повышенную нагрузку на GPU.

Переходим к Direct3D11-тестам из пакета разработчиков SDK Radeon. Первым на очереди будет тест под названием FluidCS11, в котором моделируется физика жидкостей, для чего рассчитывается поведение множества частиц в двухмерном пространстве. Для симуляции жидкостей в этом примере используется гидродинамика сглаженных частиц. Число частиц в тесте устанавливаем максимально возможное — 64 000 штук.

В первом Direct3D11-тесте новая GeForce RTX 3090 ожидаемо обошла все остальные видеокарты, хотя преимущество над RTX 3080 получилось лишь 16%. А вот RTX 2080 Ti отстала почти в полтора раза, что неплохо. По опыту предыдущих тестов мы знаем, что GeForce в этом тесте выступают не очень хорошо, и ожидаемые осенью новинки AMD могут выиграть соперничество в этом тесте. Впрочем, судя по крайне высокой частоте кадров, вычисления в этом примере из SDK уже слишком просты для мощных видеокарт.

Второй D3D11-тест называется InstancingFX11, в этом примере из SDK используются DrawIndexedInstanced-вызовы для отрисовки множества одинаковых моделей объектов в кадре, а их разнообразие достигается при помощи использования текстурных массивов с различными текстурами для деревьев и травы. Для увеличения нагрузки на GPU мы использовали максимальные настройки: число деревьев и плотность травы.

Производительность рендеринга в этом тесте больше всего зависит от оптимизации драйвера и командного процессора GPU. С этим дела лучше всего обстоят у решений Nvidia, хотя видеокарты семейства RDNA чуть улучшили позиции конкурирующей компании. Если рассматривать RTX 3090 по сравнению с решениями предыдущего поколения Turing, то разница между аналогичными по позиционированию моделями в этот раз не впечатлила — лишь 25%. Хотя Radeon VII остался далеко позади.

Ну и третий D3D11-пример — VarianceShadows11. В этом тесте из SDK AMD используются теневые карты (shadow maps) с тремя каскадами (уровнями детализации). Динамические каскадные карты теней сейчас широко применяются в играх с растеризацией, поэтому тест довольно любопытный. При тестировании мы использовали настройки по умолчанию.

Производительность в этом примере из SDK зависит как от скорости блоков растеризации, так и от пропускной способности памяти. Новая видеокарта GeForce RTX 3090 показала не слишком высокий результат, если сравнивать ее с RTX 3080. По какой-то причине между ними лишь 4% разницы в скорости, налицо упор во что-то. Ну хоть RTX 2080 Ti отстала далеко, как и единственная представленная Radeon — она слишком далеко от всех GeForce. Хотя частота кадров и тут снова слишком высокая — очередная задача слишком проста, особенно для топовых GPU.

Переходим к примерам из DirectX SDK компании Microsoft — все они используют последнюю версию графического API — Direct3D12. Первым тестом стал Dynamic Indexing (D3D12DynamicIndexing), использующий новые функции шейдерной модели Shader Model 5.1. В частности — динамическое индексирование и неограниченные массивы (unbounded arrays) для отрисовки одной модели объекта несколько раз, при этом материал объекта выбирается динамически по индексу.

Этот пример активно использует целочисленные операции для индексации, поэтому особенно интересен нам для тестирования графических процессоров семейства Turing. Для увеличения нагрузки на GPU мы модифицировали пример, увеличив число моделей в кадре относительно оригинальных настроек в 100 раз.

Общая производительность рендеринга в этом тесте зависит от видеодрайвера, командного процессора и эффективности работы мультипроцессоров GPU в целочисленных вычислениях. Все решения Nvidia отлично справились с такими операциями, хотя новая GeForce RTX 3090 показала результат почти как RTX 3080 и. как RTX 2080 Ti, что несколько странно. Впрочем, единственная Radeon VII выступила заметно хуже всех GeForce — вероятнее всего, дело в недостатке программной оптимизации.

Очередной пример из Direct3D12 SDK — Execute Indirect Sample, он создает большое количество вызовов отрисовки при помощи ExecuteIndirect API, с возможностью модификации параметров отрисовки в вычислительном шейдере. В тесте используется два режима. В первом на GPU выполняется вычислительный шейдер для определения видимых треугольников, после чего вызовы отрисовки видимых треугольников записываются в UAV-буфер, откуда запускаются посредством ExecuteIndirect-команд, таким образом на отрисовку отправляются только видимые треугольники. Второй режим отрисовывает все треугольники подряд без отбрасывания невидимых. Для увеличения нагрузки на GPU число объектов в кадре увеличено с 1024 до 1 048 576 штук.

В этом тесте видеокарты Nvidia доминировали всегда, так что сегодняшний расклад сил неудивителен. Производительность в нем зависит от драйвера, командного процессора и мультипроцессоров GPU. Наш предыдущий опыт говорит также о влиянии программной оптимизации драйвера на результаты теста, и в этом смысле видеокартам AMD похвастать обычно нечем, но подождем новых решений архитектуры RDNA2. Рассматриваемая сегодня GeForce RTX 3090 справилась с задачей лишь на 13% быстрее RTX 3080 и на треть быстрее своей условной предшественницы RTX 2080 Ti.

Последний пример с поддержкой D3D12 — известный тест nBody Gravity. В этом примере из SDK показана расчетная задача гравитации N-тел (N-body) — симуляция динамической системы частиц, на которую воздействуют такие физические силы, как гравитация. Для увеличения нагрузки на GPU число N-тел в кадре было увеличено с 10 000 до 64 000.

По количеству кадров в секунду видно, что эта вычислительная задача довольно сложна, хотя современные GPU справляются с ней заметно легче предыдущих поколений. Сегодняшняя новинка GeForce RTX 3090, основанная на лишь слегка урезанной версии графического процессора GA102, показала достаточно сильный результат, на треть опередив RTX 3080, и более чем на 70% превзойдя уровень производительности RTX 2080 Ti. Похоже, в этой сложной математической задаче сработал и удвоенный темп FP32-вычислений и улучшения в подсистеме кэширования. Radeon VII и тут новинке не конкурент, ждем Big Navi.

В качестве дополнительного вычислительного теста с поддержкой Direct3D12 мы взяли известный бенчмарк Time Spy из 3DMark. В нем нам интересно не только общее сравнение GPU по мощности, но и разница в производительности с включенной и отключенной возможностью асинхронных вычислений, появившихся в DirectX 12. Так мы поймем, изменилось ли что-то в поддержке async compute в Ampere. Для верности мы протестировали видеокарты сразу в двух графических тестах.

Если рассматривать производительность новой модели GeForce RTX 3090 в этой задаче по сравнению с RTX 3080, то новинка быстрее соседней модели в линейке лишь на 10%. Возможно, новинку ограничивало выбранное нами разрешение рендеринга. Зато RTX 2080 Ti из прошлого поколения отстала сразу почти на 40%. Неудивительно, что обе представленные в тестировании видеокарты Radeon отстают от всех GeForce, так как одна из них очень старая, а другая — заметно более дешевая. Что касается асинхронного исполнения, то в этом тесте Ampere и Turing получают примерно одинаковое ускорение при его включении — существенной разницы не видно.

Специализированных тестов трассировки лучей пока что выпущено не так уж много. Одним из таких тестов производительности трассировки лучей стал бенчмарк Port Royal создателей известных тестов серии 3DMark. Полноценный бенчмарк работает на всех графических процессорах с поддержкой DXR API. Мы проверили несколько видеокарт Nvidia в разрешении 2560×1440 при различных настройках, когда отражения рассчитываются при помощи трассировки лучей и традиционным для растеризации методом.

Бенчмарк показывает сразу несколько новых возможностей применения трассировки лучей через DXR API, в нем используются алгоритмы отрисовки отражений и теней с применением трассировки, но тест в целом не слишком хорошо оптимизирован и очень сильно загружает в том числе и мощные GPU, ведь даже на GeForce RTX 3090 мы еле достигли 60 FPS в среднем — и это при традиционной отрисовке отражений. Но для сравнения производительности разных GPU в этой конкретной задаче тест подходит.

Наглядна разница в поколениях видеокарт RTX: решения семейства GeForce RTX 20 показывают близкие результаты, и частота кадров даже у GeForce RTX 2080 Ti довольно низка, а вот обе новые платы GeForce RTX 30 в этой задаче чувствуют себя как рыба в воде, и новинка показывает на 60% более высокие результаты, по сравнению с RTX 2080 Ti, что очень неплохо! Сцены 3DMark Port Royal требовательны к объему видеопамяти, но в этом разрешении рендеринга преимущества у RTX 3090 не обнаружено.

Переходим к полусинтетическим бенчмаркам, которые сделаны на игровых движках, и соответствующие проекты должны выйти в скором времени. Первым тестом стал Boundary — название вы могли видеть на иллюстрации с китайскими игровыми проектами с поддержкой RTX. Это бенчмарк с очень серьезной нагрузкой на GPU, трассировка лучей в нем используется весьма активно — и для сложных отражений с несколькими отскоками луча, и для мягких теней, и для глобального освещения. Также в тесте используется технология DLSS, качество которой можно настраивать, и мы выбрали максимально возможное.

Картинка в этом тесте в целом выглядит весьма неплохо, а вот результат новой GeForce RTX 3090 лишь на 15% выше, чем у RTX 3080. Стоит ли это разницы в цене — решать покупателям. Похоже, что для чисто игрового применения средняя модель из трех анонсированных будет более выгодной. Топовая же на 60% быстрее своей условной предшественницы RTX 2080 Ti, так что результат не такой и плохой. Причем, если в Full HD даже младшая из сравниваемых видеокарт дает искомые 60 FPS, то в 4K только решения линейки RTX 30 обеспечили приемлемую частоту кадров, хотя и ниже считающихся комфортными 60 FPS. В таких случаях можно использовать DLSS меньшего качества.

Второй полуигровой бенчмарк также основан на грядущей китайской игре — Bright Memory. Интересно, что оба теста довольно похожи по результатам и по качеству изображения, хотя по тематике они совсем разные. И все же этот бенчмарк чуть более требователен, особенно к производительности трассировки лучей. В нем новый графический процессор семейства Ampere обеспечил преимущество над RTX 2080 Ti до 65%.

По этим результатам видно, что в RTX-тестах преимущество новой архитектуры налицо, GPU семейства Ampere заметно быстрее в задачах трассировки лучей, по сравнению с аналогами из прошлого семейства Turing. Более продвинутым решениям помогают и улучшенные RT-ядра и удвоенный темп FP32-вычислений, и улучшенное кэширование, и быстрая видеопамять — архитектура выглядит отлично сбалансированной именно для подобных задач. Похоже, это и было главной целью инженеров Nvidia.

Мы продолжаем поиск бенчмарков, использующих OpenCL для актуальных вычислительных задач, чтобы включить их в состав нашего пакета синтетических тестов. Пока что в этом разделе остается довольно старый и не слишком хорошо оптимизированный тест трассировки лучей (не аппаратной) — LuxMark 3.1. Этот кроссплатформенный тест основан на LuxRender и использует OpenCL.

Новая модель GeForce RTX 3090 показала отличные результаты в LuxMark, обогнав RTX 3080 на 20%, а над RTX 2080 Ti ее преимущество составило более двух раз! Именно подобные математически-интенсивные нагрузки с большим влиянием кэширования лучше всего подходят для новой архитектуры Ampere, в этом тесте новые GPU не оставляют шансов конкурентам и предшественникам. Впрочем, подождем топового чипа архитектуры RDNA2, чтобы сделать окончательные выводы. Правда, низкий результат Radeon RX 5700 XT настораживает — вполне возможно, что для этой задачи архитектура RDNA подходит не слишком хорошо. Radeon VII выступает гораздо сильнее.

Рассмотрим еще один тест вычислительной производительности графических процессоров — V-Ray Benchmark — это тоже трассировка лучей без применения аппаратного ускорения. Тест производительности на базе рендерера V-Ray раскрывает возможности GPU в сложных вычислениях и также может показать преимущества новых видеокарт. В прошлых тестах мы использовали разные версии бенчмарка: которая выдает результат в виде времени, затраченного на рендеринг и в виде количества миллионов просчитанных путей за секунду.

Этот тест также показывает программную трассировку лучей и в нем топовая GeForce RTX 3090 лишь на 15% быстрее соседней RTX 3080, имеющей гораздо более низкую цену. Зато все остальные остались где-то далеко позади в пыли — разница между RTX 3090 и RTX 2080 Ti получилась больше двойной. Еще один мощный результат в сложных вычислительных тестах — архитектуре Ampere явно подходят такие задачи, с кучей FP32-вычислений, а также требовательных к скорости и объему кэш-памяти. Radeon RX 5700 XT сильно отстает, хотя он новинке и не конкурент. Вы еще не устали читать, что нужно подождать AMD Big Navi, чтобы сделать окончательные выводы?

В этот раз мы решили включить в материал отдельные тесты технологии DLSS в ее второй версии и в разных режимах качества. Хотя у нас выше уже были проведены тесты трассировки лучей с применением DLSS в приложениях с трассировкой лучей, мы посчитали полезным сделать и отдельное тестирование в 4K- и 8K-разрешениях. Сначала рассмотрим результаты четырех GPU в более низком разрешении, но с DLSS максимального качества:

Без включения технологии DLSS, рендеринг производится в полном 4K-разрешении, и 8 ГБ локальной видеопамяти у RTX 2080 Super для этого явно недостаточно, вот она и просела до слайд-шоу. Остальные ушли вперед, но не слишком далеко — если RTX 3090 обеспечивает почти 30 FPS в среднем, то результат RTX 2080 Ti куда скромнее — почти вдвое ниже. Именно включение DLSS и позволяет поднять производительность до вполне приемлемой — в таком режиме сегодняшняя новинка показывает более чем 50 FPS в среднем, и это уже играбельно. Да и RTX 3080 отстала от нее лишь на 10%-15%. Что же получится при выборе еще более требовательного 8K-разрешения?

Родное разрешение рендеринга 8K негативно сказалось уже на всех моделях видеокарт, ведь даже топовая RTX 3090 обеспечила жалкие 7,5 FPS! А о том, что творится со скоростью рендеринга RTX 2080 Super в таком случае, мы вообще молчим. Получается, что играть в 8K невозможно? Не совсем. Именно из-за подобных ситуаций Nvidia и придумала в свое время технологию DLSS — если раньше она помогала играть в 4K-разрешении с трассировкой лучей, то теперь позволит делать это и в 8K-разрешении.

Для того, чтобы производительность оставалась на приемлемом уровне, мы протестировали 8K-разрешение только в наиболее производительном и наименее качественном варианте Ultra Performance. И даже при этом топовая RTX 3090 доползла лишь до 33 FPS в среднем, но остальные GPU то вообще не дают играбельности. Видите, почему Nvidia заявляет именно GeForce RTX 3090 первой видеокартой для 8K-разрешения? Разница между двумя моделями GPU на базе разных модификаций чипа GA102 составила уже больше 30% — именно поэтому приобретение RTX 3090 может иметь смысл для игр в 8K. Но только с применением DLSS, скорее всего, уж слишком требовательно родное 8K-разрешение.

Тестирование: профессиональные тесты

Нам остается рассмотреть тесты в профессиональных приложениях. Работа с большими детализированными 3D-сценами и текстурами высокого разрешения требует не только мощного графического процессора, но и максимального объема видеопамяти. Это позволяет использовать финальный рендеринг без снижения качества и скорости рендеринга, а в случае обработки видеоданных их больший объем влезет в быструю локальную память GPU, что также ускорит обработку.

Раз толк от RTX 3090 есть в играх в 8K-разрешении, то наверняка он должен проявиться и в приложениях рендеринга и прочей обработки изображений, включая сложные эффекты для видеороликов. Первым в нашем тесте будет OctaneRender, о котором мы писали в теоретической части. Этот популярный рендерер можно использовать в большинстве приложений для создания 3D-контента, он использует возможности CUDA и RTX, а предварительная версия OctaneRender 2020.1.5 получила поддержку второго поколения RTX.

Увы, сам рендерер в реальных условиях нам протестировать не удалось — видимо, из-за «предварительности» версии, он работал явно некорректно, и результаты на нашей тестовой системе получились весьма странными. Зато выделенный бенчмарк всегда работает отлично, позволяет отключать RTX-ускорение и тестирует производительность сразу в нескольких тестовых сценах, отличающихся по нагрузке. Но мы приведем лишь общее количество очков, рассчитанное сразу по всем:

Как видите, разница между семействами RTX 30 и RTX 20 получилась довольно ощутимая, но если с применением возможностей RTX она доходит до двукратной, то в случае отключения аппаратного ускорения составляет лишь 60% для RTX 3090 и RTX 2080 Ti, и 80% для RTX 3080 и RTX 2080 Super. Включение RTX на Turing дает прирост около 10%, а на Ampere сразу до 25%. Явно сказывается повышенная производительность RT-ядер, ведь по теории они почти вдвое быстрее в Ampere, а также удвоенный темп FP32-вычислений и улучшенное кэширование. И если бы в сценах рассчитывался эффект motion blur, то разница стала бы еще большей.

Интересно также и то, что по данным Nvidia, результаты с включенным RTX при рендеринге реальных сцен в определенных условиях на RTX 3090 могут быть еще выше — до двух раз быстрее, чем без RTX. Так иногда получается из-за того, что весь объем ресурсов 3D-сцен входит в 24 ГБ быстрой памяти, и обработка происходит быстрее. В бенчмарке это не совсем так, более того — скорость от включения RTX повышается даже не во всех сценах из четырех тестовых. Мы еще будем разбираться с этим бенчмарком. Возможно, есть смысл сравнения не общего количества очков, а скорости в определенных сценах.

Вторым примером профессионального применения топового решения семейства Ampere будет улучшение рендеринга сложных эффектов для видеороликов высокого разрешения в DaVinci Resolve 16 — Nvidia обещает ускорение на Ampere по сравнению с Turing более чем вдвое, а мы проверим как работает добавление смазывания в движении (motion blur) высокого качества для видеоролика в 8K-разрешении.

DaVinci Resolve сочетает профессиональное редактирование 8K-видео, цветокоррекцию, визуальные эффекты и обработку звука в одной программе. Мы попробовали смоделировать сценарий, когда при рендеринге видео это приложение превышает доступные ресурсы памяти GPU с 8-10 ГБ, что приводит к сбою приложения. Именно такие случаи и показывают преимущество повышенного объема видеопамяти на GeForce RTX 3090. Мы обрабатывали видеоданные в RAW-формате R3D (8K Redcode RAW), а вот настройки ПО:

При работе с RAW-видеофайлами в разрешении 8K, вроде R3D, мощный GPU с большим объемом памяти позволяет декодировать, дебайеризовать и обрабатывать их в реальном времени, а также применять сложные эффекты, активно использующие видеопамять. При использовании GeForce RTX 3090 с 24 ГБ памяти, обработка RAW-видеоролика с наложением эффекта motion blur происходит в реальном времени и очень плавно — в этом примере добавлено 50 для motion blur (внимание, ролики в 8K-разрешении!):

А вот на GeForce RTX 3080 с 10 ГБ локальной видеопамяти подобная задача вообще не работает — процесс просто не запускается:

Более того, на GeForce RTX 3080 рассматриваемая программа для обработки видео при использовании 8K RAW быстро достигает пределов 10 ГБ видеопамяти, что вызывает ошибки ПО, указывающие именно на нехватку памяти GPU:

Такой пример может показаться кому-то искусственным и надуманным, но ведь быстрая обработка RAW-видео в 8K-разрешении требует как вычислительных ресурсов, так и большого объема памяти, и если все требуемые данные входят в локальную видеопамять, то их обработка будет осуществляться заметно быстрее. А если данные не помещаются в 8-10 ГБ буфер GPU, то ПО не может произвести всю обработку полностью на GPU и будет делать это, используя заметно более медленную системную память.

Последним профессиональным тестом будет еще один 3D-пакет — Blender. Это популярное ПО для 3D-моделирования, анимации и рендеринга, которое может использовать возможности ускорения трассировки лучей на GPU при помощи Nvidia Optix, как для финального рендеринга, так и при предпросмотре прямо в окне Blender, что дает возможность удобной оценки качества материалов, освещения и теней. Мы рассмотрим наиболее сложный для GPU случай — сочетание этих двух возможностей.

Использование интерактивной визуализации Cycles сразу в окне вывода Blender — это максимально удобный способ для моделлеров и аниматоров, чтобы видеть картинку с физически корректными материалами и освещением прямо в реальном времени. Возможности Nvidia RTX и шумоподавление OptiX AI позволяют использовать интерактивный рендеринг даже для довольно сложных сцен. При этом, текстуры и модели загружаются в видеопамять, оставаясь там и при запуске финального рендеринга, который также требует собственного куска памяти для работы, ускоренной на GPU. И если запустить финальный рендеринг при включенной интерактивной визуализации, то графический процессор одновременно загружает данные для интерактивной визуализации и финального рендеринга и видеопамяти может не хватить, так как это две параллельные задачи.

Неудивительно, что в относительно сложных сценах запуск финального рендеринга при активном окне с интерактивной трассировкой на GeForce RTX 3080 с 10 ГБ памяти не работает, Blender «падает» при запуске рендеринга, что указывает на нехватку видеопамяти у видеокарты. Ровно то же самое будет и с RTX 2080 Ti и другими GPU с относительно небольшим объемом локальной памяти. А вот кадровый буфер в 24 ГБ на RTX 3090 идеально подходит для подобных задач, предъявляющих повышенные требования к объему видеопамяти.

Если не рассматривать искусственно созданные условия нехватки 8-10 ГБ памяти, то рассматриваемая сегодня модель отлично справилась с поставленной задачей, отрисовав эту сцену в финальном качестве за 2 минуты 18 секунд. Вероятно, если отключить одновременное использование ускорения на GPU для предпросмотра и финального рендеринга, то последний получится осуществить и на других решениях с меньшим объемом памяти, но в этот раз сравнить скорость рендеринга RTX 3090 с другими GPU мы не успели. В Blender Cycles есть возможность использования не только OptiX для финального рендеринга, но и OpenCL, так что мы еще можем вернуться к этому тесту, когда выйдет самое мощное решение на базе архитектуры AMD RDNA2.

Тестирование: игровые тесты

Список инструментов тестирования

Во всех играх использовалось максимальное качество графики в настройках.

Gears 5 (Xbox Game Studios/The Coalition)
Wolfenstein: Youngblood (Bethesda Softworks/MachineGames/Arkane Studios)
Death Stranding (505 Games/Kojima Productions)
Red Dead Redemption 2 (Rockstar)
Star Wars Jedi: Fallen Order (Electronic Arts/Respawn Entertainment)
Control (505 Games/Remedy Entertainment)
Deliver Us The Moon (Wired Productions/KeokeN Interactive)
Resident Evil 3 (Capcom/Capcom)
Shadow of the Tomb Raider (Eidos Montreal/Square Enix), HDR включен
Metro Exodus (4A Games/Deep Silver/Epic Games)

Стандартные результаты тестов без использования аппаратной трассировки лучей в разрешениях 1920×1200, 2560×1440 и 3840×2160

Исследуемая карта	в сравнении с	1920×1200	2560×1440	3840×2160
GeForce RTX 3090	GeForce RTX 3080	+11,6%	+9,3%	+15,5%
GeForce RTX 3090	GeForce RTX 2080 Ti	+30,6%	+43,0%	+61,7%
GeForce RTX 3090	GeForce RTX 2080 Super	+48,8%	+62,8%	+90,2%

Исследуемая карта	в сравнении с	1920×1200	2560×1440	3840×2160
GeForce RTX 3090	GeForce RTX 3080	+1,0%	+4,8%	+17,5%
GeForce RTX 3090	GeForce RTX 2080 Ti	+2,3%	+47,3%	+68,9%
GeForce RTX 3090	GeForce RTX 2080 Super	+20,6%	+70,4%	+93,3%

Исследуемая карта	в сравнении с	1920×1200	2560×1440	3840×2160
GeForce RTX 3090	GeForce RTX 3080	+0,6%	+9,7%	+12,5%
GeForce RTX 3090	GeForce RTX 2080 Ti	+3,9%	+29,5%	+45,9%
GeForce RTX 3090	GeForce RTX 2080 Super	+12,0%	+47,7%	+68,8%

Исследуемая карта	в сравнении с	1920×1200	2560×1440	3840×2160
GeForce RTX 3090	GeForce RTX 3080	+14,5%	+16,7%	+21,1%
GeForce RTX 3090	GeForce RTX 2080 Ti	+41,6%	+57,7%	+75,5%
GeForce RTX 3090	GeForce RTX 2080 Super	+68,0%	+86,7%	+104,8%

Исследуемая карта	в сравнении с	1920×1200	2560×1440	3840×2160
GeForce RTX 3090	GeForce RTX 3080	+12,9%	+15,0%	+17,4%
GeForce RTX 3090	GeForce RTX 2080 Ti	+14,5%	+35,3%	+66,2%
GeForce RTX 3090	GeForce RTX 2080 Super	+19,4%	+53,3%	+96,4%

Исследуемая карта	в сравнении с	1920×1200	2560×1440	3840×2160
GeForce RTX 3090	GeForce RTX 3080	+16,2%	+16,7%	+20,4%
GeForce RTX 3090	GeForce RTX 2080 Ti	+58,0%	+57,7%	+68,6%
GeForce RTX 3090	GeForce RTX 2080 Super	+77,5%	+86,7%	+96,7%

Исследуемая карта	в сравнении с	1920×1200	2560×1440	3840×2160
GeForce RTX 3090	GeForce RTX 3080	+0,7%	+0,0%	+14,3%
GeForce RTX 3090	GeForce RTX 2080 Ti	+1,4%	+23,5%	+55,2%
GeForce RTX 3090	GeForce RTX 2080 Super	+2,1%	+36,1%	+85,7%

Исследуемая карта	в сравнении с	1920×1200	2560×1440	3840×2160
GeForce RTX 3090	GeForce RTX 3080	+2,3%	+15,3%	+18,6%
GeForce RTX 3090	GeForce RTX 2080 Ti	+10,0%	+56,9%	+66,7%
GeForce RTX 3090	GeForce RTX 2080 Super	+30,2%	+80,5%	+94,9%

Исследуемая карта	в сравнении с	1920×1200	2560×1440	3840×2160
GeForce RTX 3090	GeForce RTX 3080	+7,5%	+8,4%	+18,1%
GeForce RTX 3090	GeForce RTX 2080 Ti	+12,2%	+46,6%	+60,9%
GeForce RTX 3090	GeForce RTX 2080 Super	+22,9%	+65,4%	+91,4%

Исследуемая карта	в сравнении с	1920×1200	2560×1440	3840×2160
GeForce RTX 3090	GeForce RTX 3080	+5,6%	+14,4%	+17,1%
GeForce RTX 3090	GeForce RTX 2080 Ti	+12,8%	+30,8%	+49,1%
GeForce RTX 3090	GeForce RTX 2080 Super	+25,7%	+52,6%	+78,3%

Как мы ранее писали, в новом поколении GeForce RTX 30 улучшены технологии RTX (расчет освещения с помощью трассировки лучей) и DLSS (интеллектуальная реализация антиалиасинга, обсчитываемая тензорными ядрами). Но поскольку конкурирующие решения AMD данные технологии на сегодня не поддерживают, мы пока вынуждены для массового тестирования отключать как трассировку, так и DLSS для получения адекватного сравнения всех карт. Поэтому теперь мы будем проводить тесты не только с использованием обычных методов растеризации, но и с включением RTX, а в ряде игр — и DLSS. Разумеется, во втором случае видеокарты Nvidia придется сравнивать только с другими видеокартами Nvidia. Для этого дополнительного тестирования мы взяли 4 игры, где технологии RTX и DLSS уже обкатаны.

Сколько терафлопс у rtx 3090

Лучшая игровая линейка NVIDIA серии GeForce RTX 30 Ampere будет представлена в следующем месяце и новая информация предполагает значительный скачок производительности и набора функций с новыми видеокартами GeForce RTX 3090, RTX 3080, RTX 3070 и RTX 3060. Утечки от Avery78, Kopite7kimi и KatCorgi охватывают все аспекты характеристик — от спецификаций и производительности до цен на новые видеокарты, а изложенные данные объединяют эти утечки. Ожидается, что видеокарта NVIDIA GeForce RTX 3090 будет оснащена графическим процессором Ampere GA102-300, который представляет собой урезанный вариант полноценного графического процессора GA102. Полный вариант, скорее всего, будет использован в видеокарте Titan следующего поколения. NVIDIA GeForce RTX 3090 будет иметь 82 SM или 5248 ядер.

В Ampere NVIDIA внесет серьезные изменения в конструкцию SM и удвоение блоков FP32, что приведет к улучшенной производительности трассировки лучей. Это говорит о том, что NVIDIA радикально изменила ALU и создала чип, который обеспечивает вдвое большую пропускную способность FP32. NVIDIA также удвоила тензорные ядра и ядра с трассировкой лучей, которые вдвое увеличили производительность FP32, производительность трассировки лучей и производительность DLSS в новых видеокартах. DLSS 2-го поколения будет основным алгоритмом ускорения тензорного ядра в Ampere. Также, информатор Rogame пролил свет на тактовые частоты GeForce RTX 3090, которые имеют значение базовой частоты 1410 МГц и частоты разгона 1740 МГц. Базовая частота на 60 МГц выше, чем у RTX 2080 Ti Founders Edition, а частота разгона на 105 МГц выше, чем у RTX 2080 Ti Founders Edition. Что касается производительности вычислений с плавающей запятой, то RTX 3090 обеспечивает более 24 терафлопс вычислительных мощностей FP32, что делает карту RTX 3090 на 75% быстрее, чем RTX 2080 Ti с производительностью вычислений 13,5 терафлопс.

Что касается памяти, Micron подтвердила, что GDDR6X действительно будет применяться в линейке NVIDIA следующего поколения. Линейка высокопроизводительных видеокарт GeForce RTX 30 Ampere включает:

NVIDIA Titan — 48 ГБ GDDR6X

NVIDIA GeForce RTX 3090 — 24 ГБ GDDR6X

NVIDIA GeForce RTX 3080 — 20 ГБ GDDR6X

NVIDIA GeForce RTX 3070 — 16 ГБ GDDR6X

NVIDIA GeForce RTX 3060 — 12 ГБ GDDR6X

Все графические карты серии GeForce RTX 30 получают большое обновление памяти. NVIDIA GeForce RTX 3090 получит 24 ГБ видеопамяти на 384-битной шине, RTX 3080 получит 20 ГБ видеопамяти на 320-битной шине, RTX 3070 получит 16 ГБ видеопамяти на 256-битной шине и RTX 3060 получит 12 ГБ видеопамяти с интерфейсом 192-битной шины. NVIDIA GeForce RTX 3080 Ti еще не упоминается, но может появиться позже, с вариантом памяти на 22 ГБ и 352-битным интерфейсом шины, которая будет находиться между RTX 3080 и RTX 3090. Также, сообщение в блоге Micron подтверждает, что GDDR6X будет развивать скорость от 19 Гбит/с до 21 Гбит/с, что показывает вдвое большую пропускную способность по сравнению с существующими видеокартами серии GeForce RTX 20.

Слухи с форума Baidu также указывают на то, что RTX 3090 работает на частоте 1900 МГц при стандартной нагрузке и достигает около 2,0 ГГц при загрузке в 3DMark Time Spy Extreme. Утверждается, что пользовательские варианты могут достигать тактовой частоты около 2100 МГц, на которой заканчиваются существующие высокопроизводительные карты серии RTX 20. В графической производительности RTX 3090 набирает около 10 000 баллов с существующими драйверами, но новая версия повысит производительность до 11 000–11 500 баллов. Это указывает на повышение производительности на 50-60% по сравнению с разогнанной видеокартой RTX 2080 Ti. GeForce RTX 3080 набирает около 9000 баллов, а RTX 3070 быстрее разогнанного RTX 2080 Ti с графической оценкой около 7000-7500 баллов. Карты Founders Edition не настроены на очень высокий разгон в BIOS по умолчанию, но пользователи смогут получить действительно хороший разгон с помощью ручной настройки. Оценки производительности линейки Ampere в 3DMark Time Spy Extreme указаны ниже:

NVIDIA GeForce RTX 3090 Founders Edition — 10000 очков графики

NVIDIA GeForce RTX 3080 Founders Edition — 9000 очков

NVIDIA GeForce RTX 3070 Founders Edition — 7300 очков

NVIDIA GeForce RTX 3090 Custom — 11500 очков графики

NVIDIA GeForce RTX 3080 Custom — 9700 очков

NVIDIA GeForce RTX 3070 Custom — 7800 очков

Что касается энергопотребления, GeForce RTX 3080 имеет общую потребляемую мощность около 300 Вт, а GeForce RTX 3090 должна превышать 350 Вт. Это более высокий скачок показателей мощности, чем у любого другого поколения, которое мы видели до сих пор и приведет к аналогичным или даже лучшим показателям эффективности, чем у Turing. Предполагается, что GeForce RTX 3070 с графическим процессором GA104 будет иметь энергопотребление около 200 Вт, что ниже, чем у RTX 2080 (у RTX 2080 SUPER 215 Вт). Ampere определенно повысит эффективность, поскольку RTX 3070 будет предлагать производительность выше, чем у разогнанного RTX 2080 Ti (275 Вт) потребляя гораздо меньше энергии.

Размер корпуса и радиаторы модели Founders Edition указывают на наличие, как минимум четырех массивных тепловых трубок, проходящих через все 4 комплекта радиаторов. По слухам, все видеокарты серии GeForce RTX 30 будут на 20% дороже, чем их предшественники на базе Turing. Это говорит о том, что GeForce RTX 3090 будет стоить около 1400 долларов, а RTX 3080 около 800 долларов. GeForce RTX 3070 может продаваться по цене около 500 долларов. Ожидается, что GeForce RTX 3060 на базе графического процессора GA106 будет конкурировать с консолью Sony PS5, будет использовать архитектуру RDNA 2 с мощностью около 9 терафлопс и станет более экономичным в качестве графического решения. Также говорят, что конкурент GPU AMD Big Navi (RDNA 2/Navi 21) может конкурировать с GeForce RTX 3070 только с точки зрения цены, а не производительности.

Сколько терафлопс у rtx 3090

GeForce RTX 3090, архитектура Ampere и новые технологии NVIDIA. Общий обзор второго поколения GeForce RTX

Архитектура Ampere и особенности новых GPU

Характеристики видеокарт GeForce RTX 3090, GeForce RTX 3080 и GeForce RTX 3070

Новые технологии NVIDIA

NVIDIA DLSS 2.1

NVIDIA Broadcast

NVIDIA Omniverse Machinima

NVIDIA Reflex

Игровые мониторы G-Sync 360 Гц

NVIDIA RTX IO

Игры с RTX

Выводы

Анонсированы GeForce RTX 3090, RTX 3080 и RTX 3070 — что они могут и сколько стоят

GeForce RTX 3090

GeForce RTX 3080

GeForce RTX 3070

Обзор видеоускорителя Nvidia GeForce RTX 3090: самое производительное на сегодня, но не чисто игровое решение

Архитектурные особенности

Поддержка технологии DLSS в 8K

Применение в профессиональном ПО

Особенности видеокарты Nvidia GeForce RTX 3090 Founders Edition

Характеристики карты

Память

Особенности карты и сравнение с Nvidia GeForce RTX 2080 Ti

Нагрев и охлаждение

Подсветка

Комплект поставки и упаковка

Тестирование: синтетические тесты

Конфигурация тестового стенда

Тестирование: профессиональные тесты

Тестирование: игровые тесты

Список инструментов тестирования

Стандартные результаты тестов без использования аппаратной трассировки лучей в разрешениях 1920×1200, 2560×1440 и 3840×2160

Сколько терафлопс у rtx 3090

реклама

Добавить комментарий Отменить ответ