Двигатель истории. Обзор видеокарты GeForce RTX 2080 Ti: часть 1

8e5699b06a8d21ba0439f3342f5a6a67

Aнoнс нoвыx ускoритeлeй сeмeйствa GeForce RTX нa бaзe aрxитeктуры Turing стaл, нe пoбoимся этoгo слoвa, выдaющeйся вexoй нa пути сaмoй кoмпaнии и индустрии пoтрeбитeльскoй 3D-грaфики в цeлoм. Кaждoe пo-нaстoящeму крупнoe oбнoвлeниe дискрeтныx GPU пoслeдниx лeт былo кульминaциeй тex сиречь иныx тeчeний, нaпрaвлявшиx инжeнeрную размышление зa дoлгoe врeмя дo ee вoплoщeния в крeмнии. Нo Turing, в (видах чтoбы читaтeли в пoлнoй мeрe oцeнили знaчимoсть тeкущeгo мoмeнтa, трeбуeт мaксимaльнo ширoкoгo кoнтeкстa, oxвaтывaющeгo всю истoрию игрoвoгo 3D нa пeрсoнaльныx кoмпьютeрax.

Сaйт 3DNews.ru в прoшлoм гoду oтмeтил свoй 20-лeтний юбилeй, a ты да я вспoминaли, кaк бурнo в тo врeмя эвoлюциoнирoвaлa тexникa. С кoмпaниeй NVIDIA, oснoвaннoй зa чeтырe гoдa дo нaшeгo издaния, связaнo мнoжeствo пoвoрoтныx тoчeк нa кривoй рaзвития кoмпьютeрнoй грaфики. Скaжeм, нeмнoгиe знaют, чтo имeннo NVIDIA, a нe 3dfx, в 1995 гoду выпустилa нa рынoк пeрвый мaссoвый 3D-ускoритeль нa чипe NV1. Дaльнeйшиe сoбытия извeстны нaмнoгo лучшe. Ужe чeрeз чeтырe гoдa GeForce 256 принeс нa пeрсoнaлки aппaрaтную oбрaбoтку трaнсфoрмaции и oсвeщeния пoлигoнoв (Transformation and Lighting, T&L), a зaтeм, силaми GeForce 3, пoявились прoгрaммируeмыe шeйдeры. Пoзднeйшим с дoстижeний NVIDIA сoпoстaвимoй вaжнoсти стaл высoкoурoвнeвый интeрфeйс CUDA интересах выпoлнeния рaсчeтoв oбщeгo нaзнaчeния, кoтoрыe сo врeмeнeм стaли eдвa ли нe бoлee вaжнoй зaдaчeй исполнение) GPU, чeм рeндeринг грaфики.

Впoслeдствии грaфичeскиe прoцeссoры oтпрaвились в спoкoйнoe плaвaниe, нe oтмeчeннoe рaдикaльными пeрeмeнaми в функцияx жeлeзa и принципax прoгрaммирoвaния. Нo вoт через 11 лeт пoслe aнoнсa CUDA oснoвaтeль NVIDIA Джeнсeн Xуaнг вынeс нa сцeну видeoкaрту пoд дeвизoм Graphics Reinvented, и, ваша сестра знaeтe, в дaннoм случae высoкoпaрныe слoвa сoвeршeннo умeстны. Вeдь Turing впeрвыe срeди пoтрeбитeльскиx GPU oбeспeчивaeт спeциaлизирoвaннoe ускoрeниe рaсчeтoв искусствeннoгo интeллeктa и трaссирoвки лучeй в рeaльнoм врeмeни. Мoжнo нe сoмнeвaться: eсли игрoвaя промышленность пoддeржит эти инициaтивы, a xвaткa NVIDIA нa рынкe сeйчaс кaк никoгдa сильнa, тo ты да я стaли oчeвидцaми oчeрeднoй смeны эпox.

Прeдстaвляeм пeрвую чaсть oбзoрa видeoкaрт сeмeйствa GeForce RTX, в кoтoрoй нaс ждeт пoдрoбный aнaлиз aрxитeктуры Turing и прeзeнтaция устрoйств нa ee oснoвe. Мaсштaб измeнeний пo срaвнeнию с прeдыдущим пoкoлeниeм, Pascal, впoлнe зaслуживaeт oтдeльнoй стaтьи, a эмпиричeскoe тeстирoвaниe GeForce RTX 2080 Ti в любoм случae придeтся oтлoжить дo 19 сeнтября, кoгдa истeкaeт зaпрeт нa публикaцию бeнчмaркoв и в нaшeм рaспoряжeнии пoявятся пeрвыe oбрaзцы устрoйств.

⇡#Грaфичeскиe прoцeссoры сeмeйствa Turing

Пeрeд глубoким пoгружeниeм в aрxитeктуру Turing сoстaвим oбщee прeдстaвлeниe o сaмoм жeлeзe, кoтoрoe выпустилa NVIDIA. Блaгo, нoвый крeмний пo-прeжнeму xaрaктeризуют мeтрики, примeнимыe к GPU прeдыдущиx пoкoлeний, a нaзнaчeниe и историзм рaбoты спeциaлизирoвaнныx функциoнaльныx блoкoв наш брат изучим пoзжe.

В oтличиe oт Pascal и бoлee рaнниx пoкoлeний GPU, Turing с пeрвoгo дня сущeствуeт в видe трex прoцeссoрoв — TU102, TU104 и TU106. Кaк видим, кoмпaнии пришлoсь смeнить привычную нoмeнклaтуру, в кoтoрoй пeрвoй буквoй всeгдa былa G, a втoрaя oзнaчaeт нaзвaниe микрoaрxитeктуры, вeдь сoчeтaниe GT ужe зaнятo стaрым сeмeйствoм Tesla. Чипы выпускaются пo эксклюзивнoму контракту с фабрикой TSMC, идеже им выделен находящийся в личном владении технологический узел 12 нм FFN (сие буквально означает FinFET NVIDIA).

Создатель
NVIDIA

Шапка
GP104
GP102
GP100
GV100
TU106
TU104
TU102

Микроархитектура
Pascal
Pascal
Pascal
Volta
Turing
Turing
Turing

Техпроцесс, нм
16 nm FinFET
16 nm FinFET
16 nm FinFET
12 нм FFN
12 нм FFN
12 нм FFN
12 нм FFN

Дата транзисторов, млн
7 200
12 000
15 300
21 100
10 800
13 600
18 600

Стогн чипа, мм2
314
471
610
815
445
545
754

Фигура SM/TPC/GPC

Число SM
20
30
60
84
36
48
72

Семьдесят TPC
20
30
30
42
18
24
36

Число GPC
4
6
6
6
3
6
6

Внешний вид потокового мультипроцессора (SM)

FP32-ядра
128
128
64
64
64
64
64

FP64-ядра
4
4
32
32
2
2
2

INT32-ядра
Н/Д
Н/Д
Н/Д
64
64
64
64

Тензорные ядра
Н/Д
Н/Д
Н/Д
8
8
8
8

RT-ядра
Н/Д
Н/Д
Н/Д
Н/Д
1
1
1

Программируемые вычислительные блоки GPU

FP32-ядра
2 560
3 840
3 840
5 376
2 304
3 072
4 608

FP64-ядра
80
120
1 920
2 688
72
96
144

INT32-ядра
Н/Д
Н/Д
Н/Д
5 376
2 304
3 072
4 608

Тензорные ядра
Н/Д
Н/Д
Н/Д
672
288
384
576

RT-ядра
Н/Д
Н/Д
Н/Д
Н/Д
36
48
72

Блоки фиксированной функциональности

TMU (блоки наложения текстур)
160
240
240
336
144
192
288

ROP
64
96
128
128
64
64
96

Набор памяти

Выкид кеша L1 / текстурного иннокентий, Кбайт
48
48
24
≤ 128 изо 128, общий с разделяемой памятью
32/64 с 96 (общий с разделяемой памятью)
32/64 с 96 (общий с разделяемой памятью)
32/64 с 96 (общий с разделяемой памятью)

Границы разделяемой памяти / SM, Кбайт
96
96
64
≤ 96 изо 128 (общий с кешем L1)
32/64 с 96 (общий с кешем L1)
32/64 с 96 (общий с кешем L1)
32/64 с 96 (общий с кешем L1)

Формат регистрового файла / SM, Кбайт
256
256
256
256
256
256
256

Размах регистрового файла / GPU, Кбайт
5 120
7 680
15 360
21 504
9 216
12 288
18 432

Размах кеша L2, Кбайт
2 048
3 072
4 096
6 144
4 096
4 096
6 144

Разрядность шины RAM, двоичный знак
256
384
4 096
4 096
256
256
384

Тип микросхем RAM
GDDR5/GDDR5X
GDDR5X
HBM2
HBM2
GDDR6
GDDR6
GDDR6

Обувь для машины NVLINK
Н/Д
Н/Д
4 × NVLink 1.0 x8
6 × NVLink 2.0 x8
Н/Д
1 × NVLink 2.0 x8
2 × NVLink 2.0 x8

В действительности «нанометраж» фотолитографического процесса нечасто соответствует своему прямому смыслу — длине транзисторного затвора, а та, в свою часть, ничего не говорит о зазорах посреди элементами и реальной плотности их размещения. В данной ситуации TSMC невыгодный скрывает того факта, как ее технология 12 нм является вариантом узла 16 нм FinFET+ с повышенной плотностью и сниженными утечками тока. Благодаря чего не удивительно, словно по отношению декларируемого числа транзисторов к площади кристалла всегда три чипа Turing без малого не отличаются через старшего Pascal (GP100), какой был получен возьми «чистом» техпроцессе 16 нм. Однако, по сравнению GP104 (GeForce GTX 1070/1080) у Turing конец же наблюдается повышение плотности около 6%.

По количеству элементов только и остается распределить три «Тьюринга» согласно весовым категориям, заданным процессорами поколения Pascal. TU104 ближе в (итоге к GP102 (GeForce GTX 1080 Ti), а последыш чип, TU106, по (по грибы) неимением ближайшего аналога, соответствует GP104. Заметьте, сколько при смене поколений выросли площади кремния и транзисторные бюджеты (сверху 42 и 50% под лад в паре GP104-TU106 и нате 16 и 13% у GP102-TU104).

Братство-схема графического процессора NVIDIA TU106

В авангарде модельного ряда Turing находится TU102. Выход. Ant. исчезновение чипа с таким номером в первые дней новой архитектуры сделано необычно, если воспроизвести, сколько времени понадобилось NVIDIA, (для того запусть в игровой квадрант старших представителей предыдущих поколений. Да помимо этого, без спросу GPU беспрецедентно велик согласно действующим стандартам массового рынка. Подле площади 754 мм2 и транзисторном бюджете 18,6 млрд дьявол уступает лишь своему серверному предшественнику GV100 (815 мм2 и 21,1 млрд транзисторов) держи архитектуре Volta, а GP102 (471 мм2 и 12 млрд транзисторов) превосходит сверху 60 и 55% должно. К слову, позиция TU100, которую соответственно аналогии с Pascal и Volta был в состоянии бы занять пока еще более амбициозный чипилис для датацентров получи базе Turing (со всеми полагающимися атрибутами в виде памяти HBM2 и NVLink в качестве главнейший шины), пока вакантна.

Секция-схема графического процессора NVIDIA TU104

Рядом сравнении с Pascal в соответствии с количеству 32-битных ядер CUDA и блоков фиксированной функциональности (TMU и ROP) становится прозрачно, что в лице Turing наш брат имеем дело с во всех отношениях отличной архитектурой, все же TU106 и TU104 очевидно уступают своим предкам GP104 и GP102. Только лишь старший Turing малограмотный идет на соглашение по количеству ядер CUDA и блоков наложения текстур нехитро за счет колоссальных размеров чипа.

(то) есть получилось, что столько крупные GPU оказались более или менее небогаты CUDA-ядрами, объясняется толпой факторов, среди которых ведущую цена играет появление вычислительных блоков трех новых типов: тензорных ядрер, ядер трассировки лучей (RT в таблице), а да ядер целочисленных вычислений (INT32). За вычетом того, у новых GPU в один с половиной-два раза разбух кеш второго уровня и увеличилась джариб управляющей логики из-за счет реорганизации CUDA-ядер в пределах потокового мультипроцессора (SM). Однако эти изменения да мы с тобой также обсудим в следующих разделах обзора.

Ибо смена техпроцесса получи условные 12 нм вряд ли ли радикально подействовала держи рабочие частоты GPU, может положиться впечатление, что создатели Turing пожертвовали стандартной шейдерной производительностью в пользу новых специализированных функций. Так не стоит деять выводы по табличным данным. Возле подробном рассмотрении ты да я убедимся, даже иначе) будет то не брать в расчисление долю транзисторов, которую съели тензорные и RT-ядра, отчего Turing в целом стал сильнее сложной и «широкой» архитектурой точно по сравнению с Pascal, и сие, по крайней мере в теории, способствует повышенной эффективности в шейдерных вычислениях.

Пакет-схема графического процессора NVIDIA TU102

Завершая лаконичный обзор кремния Turing, отметим явление чрезвычайно быстрого интерфейса NVLink, кто используется в кластерах HPC-ускорителей Tesla бери основе чипов GP100 и GV100, и, пропорционально, новых аппаратных мостиков. Чепок TU104 несет Вотан порт NVLink второго поколения с пропускной способностью 50 Гбайт/с (до 25 Гбайт/с в каждую сторону), а TU102 — плохо порта. Новый образец здесь выступает в качестве замены выделенной шины SLI (возможные конфигурации вдоль-прежнему ограничены двумя GPU), и скорости одного такого порта в полном смысле слова достаточно для передачи кадрового яички с разрешением 8К в режиме AFR (Alternate Frame Rendering).

Так обратите внимание, что-что при использовании двух портов пропускная призвание NVLink уже находится в зоне возможностей оперативной памяти бюджетных игровых видеокарт. Возле неграфических вычислениях с через нескольких чипов в связке NVLink воспоминания соседнего ускорителя ранее можно рассматривать что дальний сегмент локальной RAM и в перспективе такого порядка подход применим к реализации сложных алгоритмов мультиадаптерного рендеринга почти Direct3D 12 (конвейеризация кадров). В медаль от старого интерфейса SLI, тот или иной используется только пользу кого передачи кадровых буферов, сообщение нескольких GPU по разэтакий шине, как NVLink, разрешена в рамках эксплицитного режима Multi-Adapter лещадь Direct3D 12.

⇡#Модельный разряд GeForce RTX 20

Семейство GeForce RTX бери данном этапе представлено тремя устройствами — RTX 2070, RTX 2080 и RTX 2080 Ti, основанными возьми чипах TU106, TU104 и TU102 сообразно. Среди них лишь RTX 2070 достался тотально функциональный графический сердце компьютера, в то время т. е. TU104 и TU102 оказались тем другими словами иным образом «порезаны» в своих потребительских воплощениях. RTX 2080 и RTX 2080 Ti лишились под лад 2 и 4 из 48 и 72 SM, которые уплетать в оригинальных GPU.

Опираясь получи заявленные частоты и конфигурацию CUDA-ядер наш брат можем сравнить теоретическое быстродействие GeForce RTX и ускорителей поколения Pascal в 32-битных операциях с плавающей запятой. В этом отношении RTX 2070 находится в промежутке посереди GTX 1070 и GTX 1080. Следующая числом старшинству новинка, RTX 2080, заняла край между GTX 1080 и GTX 1080 Ti, а RTX 2080 Ti, точь в точь и положено флагману, оставил GTX 1080 Ti позадь.

Сказывается преимущество до количеству активных CUDA-ядер, фактически верхние значения тактовых частот Turing находятся в примерном соответствии с показателями GeForce GTX 1070/1080 и GTX 1080 Ti. Последнее само в области себе приятно, даже если вспомнить, насколько крупнее GPU в новых видеокартах, все же NVIDIA пришлось маленько понизить базовые частоты трех чипов, дабы оставить в термопакете сбережение на комбинированную нагрузку с участием тензорных и RT-ядер, а TDP ускорителей (исключая старшей модели) предсказуемо увеличился.

Изготовщик
NVIDIA

Имитация
GeForce GTX 1070
GeForce GTX 1080
GeForce GTX 1080 Ti
GeForce RTX 2070
GeForce RTX 2080
GeForce RTX 2080 Ti

Графичный процессор

Заголовок
GP104
GP104
GP102
TU106
TU104
TU102

Микроархитектура
Pascal
Pascal
Pascal
Turing
Turing
Turing

Техпроцесс, нм
16 нм FinFET
16 нм FinFET
16 нм FinFET
12 нм FFN
12 нм FFN
12 нм FFN

Цифирь транзисторов, млн
7 200
7 200
12 000
10 800
13 600
18 600

Тактовая колебание, МГц: Base Clock / Boost Clock
1 506 / 1 683
1 607 / 1 733
1 480 / 1 582
1 410 / 1 620 (Founders Edition: 1 410 / 1 710)
1 515 / 1 710 (Founders Edition: 1 515 / 1 800)
1 350 / 1 545 (Founders Edition: 1 350 / 1 545)

День шейдерных ALU
1 920
2 560
3 584
2304
2944
4352

Четырнадцат блоков наложения текстур
120
160
224
144
184
272

Одиннадцать ROP
64
64
88
64
64
88

Оперативная мнемозина

Разрядность шины, двоичная единица информации
256
256
352
256
256
352

Тип микросхем
GDDR5 SDRAM
GDDR5X SDRAM
GDDR5X SDRAM
GDDR6 SDRAM
GDDR6 SDRAM
GDDR6 SDRAM

Тактовая гармоника, МГц (пропускная годность на контакт, Мбит/с)
2 000 (8 000)
1 250 (10 000)
1 376,25 (11 010)
1 750 (14 000)
1 750 (14 000)
1 750 (14 000)

Количество, Мбайт
8 192
8 192
11 264
8 192
8 192
11 264

Обувь для автомобиля ввода/вывода
PCI Express 3.0 x16
PCI Express 3.0 x16
PCI Express 3.0 x16
PCI Express 3.0 x16
PCI Express 3.0 x16
PCI Express 3.0 x16

Мощность

Пиковая режим FP32, GFLOPS (изо расчета максимальной указанной частоты)
6 463
8 873
11 340
7 465 / 7 880 (Founders Edition)
10 069 / 10 598 (Founders Edition)
13 448 / 14 231 (Founders Edition)

Пропускная способность FP32/FP64
1/32
1/32
1/32
1/32
1/32
1/32

Пропускная годность оперативной памяти, Гбайт/с
256
320
484
448
448
616

Дедукция изображения

Интерфейсы вывода изображения
DL DVI-D, DisplayPort 1.3/1.4, HDMI 2.0b
DL DVI-D, DisplayPort 1.3/1.4, HDMI 2.0b
DisplayPort 1.3/1.4, HDMI 2.0b
DisplayPort 1.4a, HDMI 2.0b
DisplayPort 1.4a, HDMI 2.0b
DisplayPort 1.4a, HDMI 2.0b

TDP, Вт
150
180
250
175/185 (Founders Edition)
215/225 (Founders Edition)
250/260 (Founders Edition)

Розничная вес (США, без налога), $
349 (рекомендованная) / 399 (Founders Edition, nvidia.com)
499 (рекомендованная) / 549 (Founders Edition, nvidia.com)
НД (рекомендованная) / 699 (Founders Edition, nvidia.com)
499 (рекомендованная) / 599 (Founders Edition, nvidia.com)
699 (рекомендованная) / 799 (Founders Edition, nvidia.com)
999 (рекомендованная) / 1 199 (Founders Edition, nvidia.com)

Розничная себестоимость (Россия), руб.
НД (рекомендованная) / 31 590 (Founders Edition, nvidia.ru)
НД (рекомендованная) / 45 790 (Founders Edition, nvidia.ru)
НД (рекомендованная) / 52 990 (Founders Edition, nvidia.ru)
НД (рекомендованная) / 47 990 (Founders Edition, nvidia.ru)
НД (рекомендованная) / 63 990 (Founders Edition, nvidia.ru)
НД (рекомендованная) / 95 990 (Founders Edition, nvidia.ru)

⇡#Оперативная воспоминания GDDR6

Во во всем семействе GeForce RTX применяются чипы памяти GDDR6 с пропускной способностью 14 Гбит/с нате контакт. При этом двум младших чипа имеют 256-битую, а TU102 — 384-битную шину памяти. В потребительские Turing NVIDIA устанавливает в соответствии с одной микросхеме объемом 1 Гбайт возьми каждый 32-битный датчик. Как следствие, дебит RAM достигает 8 Гбайт в RTX 2070/2080 и 11 Гбайт в RTX 2080 Ti. Сермяжная прав, в RTX 2080 Ti отключили Вотан из двенадцати контроллеров памяти, которые питаться в кремнии GP102, изо-за чего все шина памяти сжалась с 384 вплоть до 352 бит и был потерян 1 Гбайт RAM.

Точно касается самой GDDR6, так новый тип микросхем имеет одну крошку принципиальных отличий с GDDR5X и, в сухом остатке, предлагает чуть более высокие тактовые частоты возле таком же стандартном напряжении питания (1,35 В). Ключевая редкость стандарта GDDR6 в волюм, что он подразумевает присутствие в каждом чипе двух окончатель независимых 16-битных каналов с собственными шинами команд и данных (в предзнаменование от единого 32-битного интерфейса GDDR5 и псевдо-независимых каналов GDDR5X). Сие открывает массу возможностей про эффективного использования пропускной талант. Ведь чем вяще каналов, тем в меньшей степени данных (при должном управлении со стороны GPU) «застревает» в ожидании обновления страниц и прочих длительных операций. Окр того, узкая 16-битная обувь для автомобиля в два раза за сравнению с 32-битной шиной GDDR5X сокращает размер кванта данных (32 и 64 байт под лад при характеристике Prefetch 16n), какой процессор при обращении к RAM помещает в кеш второго уровня, а отсюда следует, системы кешей с длиной языкоблудие в 32 байт (клеймящий по всему, сие как раз относится к чипам NVIDIA) никак не заполняются «мусорными» данными и работают побольше эффективно.

Другой отличительной чертой стандарта GDDR6 является запас работать в режимах DDR либо QDR (с передачей двух и четырех двоичная единица информации данных на круговорот сигнала соответственно) возле неизменной пропускной данные памяти (ПСП). В какие-нибудь полгода в режиме DDR контроллеру придется стоять на стороне вдвое более высокую частоту шины данных и, точно по правде говоря, с ПСП угоду кому) GDDR6 на уровне 14-16 Гбит/с нате контакт частота шины данных держи в 7 ГГц не если угодно реальной возможностью чтобы современных GPU.

GDDR6 обеспечивает массивную ПСП, недоступную ускорителям серии GeForce 10 с памятью GDDR5 и GDDR5X. Инда с «урезанной» шиной GeForce RTX 2080 Ti достигает 616 Гбайт/с. А сие, на минуточку, с лишком, чем у Radeon RX Vega 64 (484 Гбайт/с), которая использует паче дорогую и сложную парамнезия HBM2. Кроме того, NVIDIA продолжила течение алгоритмов компрессии данных в шине памяти, по причине которым эффективная ПСП GeForce RTX 2080 Ti оценивается возьми 50% больше (с учетом «влажный» ПСП шины GDDR6) по части сравнению с GeForce GTX 1080 Ti.

⇡#Видеокарты Founders Edition, цены

Обратите тщательность, что для видеокарт по-под маркой Founders Edition в таблице указаны мало-: неграмотный только отдельные цены, так и собственные тактовые частоты и цифирь TDP. Еще в прошлом поколении карточная игра Founders Edition, которыми NVIDIA насытила первую волну поставок и кроме оставила в собственном всемирная сеть-магазине, формально отнюдь не считались референсными моделями. Однако в данном случае с первого дня для рынок поступит система видеокарт оригинального дизайна, и Founders Edition хватит (за глаза) лишь одним с равноправных предложений с заводским разгоном и качественной системой охлаждения. По существу говоря референсные характеристики станут ориентиром ради упрощенных модификаций GeForce RTX с сторонних производителей, без- претендующих на с оверклокинг.

Старт розничных продаж GeForce RTX 2080 и RTX 2080 Ti назначен в 20 сентября, а прибывание RTX 2070 ожидается в следующем месяце. Да едва ли малограмотный главная новость просто-напросто анонса Turing — сие возмутительные цены новинок. В случае если сравнивать новые видеокарты со старыми в соответствии с их положением в модельном ряду, в таком случае 70-я модель стала подороже на $150 (с $349 впредь до $499), а 80-я — бери $200 (с $499 перед $699). Наценка получи и распишись Founders Edition равно как возросла, до $100 после соответствующие версии RTX 2070 и RTX 2080.

Понятно, GeForce RTX обладает конечно более высокой производительностью, приставки не- говоря о новых функциях рендеринга, да ведь в прошлые годы ты да я привыкли пожинать дары помоны прогресса «на халявщину» относительно цен уходящего поколения. Не откладывая же получается, как будто GeForce RTX 2070 является денежным эквивалентом GTX 1080, а RTX 2080, в свою цепочка, GTX 1080 Ti. При во всем этом по теоретическому быстродействию помимо учета оптимизаций, а вот и все тензорных и RT-вычислений, в пересчете сверху доллар Turing никак не сделал ни шага спервоначала по сравнению с Pascal и хоть уступает последнему. Только, помня о значительной разнице в обществе архитектурами, все-таки оставим последнее глагол в этом вопросе по (по грибы) бенчмарками.

Что касается GeForce RTX 2080 Ti, так по цене сие ни дать ни за примером далеко ходить не нужно уровень серии TITAN, опять-таки рекомендованная стоимость флагмана составляет $999, а Founders Edition — $1199. В России сие будет первый GeForce, какой-нибудь подошел к отметке в 100 тыс. рублей. Нате этой звонкой ноте да мы с тобой прервем разговор о самих видеокартах предварительно публикации второй части статьи с результатами тестирования и приступим к анализу архитектурных особенностей чипов Turing. Вот всяком случае, на случай если GeForce RTX вдруг маловыгодный оправдает возложенных сверху него надежд, осуществимость купить ускоритель семейства GeForce 10 останется уже, как минимум предварительно конца текущего годы.

⇡#Архитектура Turing: потоковый мультипроцессор

Большая раздел нововведений Turing сосредоточена в середине потокового мультипроцессора (Streaming Multiprocessor, SM). А для начала рассмотрим архитектуру GPU, круглым счетом сказать, с высоты птичьего полета. Что и в Pascal, несколько потоковых мультипроцессоров находятся в середке блока TPC (Texture Processing Cluster) соборно с PolyMorph Engine, выполняющим функции выпись вершин и тесселяции. Turing обладает таким а соотношением между ровно по ядер CUDA и геометрических движков, чисто Pascal, но самочки PolyMorph Engine претерпели определенные изменения, о которых ты да я расскажем позже. В свою цепочка, несколько TPC входят в ассортимент наиболее крупной организационной немногие — GPC (Graphics Processing Cluster), альтернативный частью которой является партия Raster Engine, какой-нибудь выполняет самые ранние стадии рендеринга: ампутирование невидимых пикселов и растеризацию полигонов.

Сообразно структуре SM новая структура далеко ушла ото Pascal и во многом повторяет Volta, чисто довольно неожиданно в свете стремления NVIDIA разженить свои продукты согласно серверной и потребительской нишам. Тех) пор (пока(мест) мы изучим изменения, которые относятся к исполнению операций надо числами с плавающей запятой одинарной точности (FP32) и маловыгодный затрагивают вычислительных блоков нового будто (тензорных и RT).

Блок-программа потокового мультипроцессора (SM) в архитектуре Turing

В потребительских GPU семейства Pascal потоковый мультипроцессор разделен нате четыре секции, каждая изо которых содержит 32 ядра CUDA, снабженных собственным планировщиком и двумя портами диспетчера команд. Из-за один такт процессора выравниватель отправляет на проведение в жизнь одну инструкцию с целью обработки ряда данных изо группы 32 независимых потоков (последняя называется warp в терминологии NVIDIA) объединение принципу SIMT  (Single Instruction, Multiple Threads), а объединение CUDA-ядер исполняет ее опять же за один душевная тонкость. Но благодаря второму порту диспетчера в Pascal пристойно одновременное исполнение следующей инструкции с того же warp’а держи тех ядрах секции SM, которые далеко не были заняты первой порцией данных. Таким образом, Pascal является суперскалярной архитектурой, которая наравне с потоковым параллелизмом (Thread Level Parallelism, TSP), неотъемлемым интересах GPU как массивно-параллельных процессоров, извлекает с нагрузки параллелизм команд (Instruction Level Parallelism, ILP).

В Volta и Turing любое так же трескать (за (в) обе щеки) четыре секции держи один SM, но одна подразделение содержит 16 ядер FP32 — в два раза меньше, чем в Pascal. Поелику warp в модели программирования NVIDIA до-прежнему состоит с 32 потоков, разработчикам пришлось вернуться к принципу, характерному к давнишней архитектуры Fermi: пачка из 16 CUDA-ядер исполняет одну инструкцию по (по грибы) два такта процессора. После счет уменьшенного объема SM в Volta и Turing возросло ноль планировщиков в пересчете для общий массив CUDA-ядер. Делать за скольких следствие, GPU может поднимать больше потоков, что-что при благоприятном типе задач позволяет расширить TLP, эффективно загружая вычислительные блоки.

Иной особенностью, которую Turing получил в достоинство от Volta, является касательно независимая планировка потоков (Independent Thread Scheduling, ITS). В общем виде сие означает, что сердце компьютера отслеживает состояние выполнения каждого потока, в ведь время как в Pascal такие убеждения, как счетчик команд и стека вызовов, являются общими на всех потоков warp’a. Планировщики Volta и Turing позволяют после отдельности завершать, кончать и заново группировать воплощение в жизнь потоков — и для максимального насыщения CUDA-ядер.

Откосопланировщик внутри секции SM в данный момент имеет лишь Водан порт диспетчера. В результате урон. Ant. прибыль второго порта у Volta и Turing пострадала виртуальность извлекать из задачи ILP после счет отправки двух инструкций по (по грибы) один такт. Обаче, архитектура GPU по-прежнему является суперскалярной, т.к. блоку CUDA-ядер в секции SM надо два такта, с намерением выполнить инструкцию, которую после один такт отдает блок планирования, а в течение следующего такта могут бытовать отдана еще одна, которая догрузит простаивающие ядра. Вопросик, какой тип параллелизма побольше выгоден для типичной работы GPU, без- имеет простого ответа, так резонно предположить, почто в свете общего усложнения структуры SM расходная статья транзисторного бюджета в логику дополнительного диспетчера инженеры NVIDIA нехитро сочли неоправданной инвестицией.

Отправка инструкций планировщиками в архитектурах Volta и Turing (метафора без ILP)

Наконец, архитектуры Volta и Turing роднит виртуальность одновременного исполнения операций с вещественными (FP) и целочисленными (INT) данными. Целочисленные прикидки используются в задачах применения априори сформированных сетей машинного обучения (Inference), так также занимают большую долю операций типичной шейдерной нагрузки (по части оценке NVIDIA, в каждые 100 операций FP32 в современных приложениях нельзя не 36 целочисленных операций). В предшествующих архитектурах целочисленные ALU и ALU на операций с плавающей запятой связаны в пределах одного CUDA-ядра и пользовались общими путями передачи данных, почему весь блок ядер в секции SM может в рамках такта осуществлять либо операции с плавающей запятой, либо целочисленные. В Volta и Turing целочисленные ALU выделены в находящийся в личном владении тип ядер, ради счет чего допустима смешанная погрузка с одновременной работой по-над данными двух разных форматов. Ноль INT- и FP-ядер в секции SM так же 16, поэтому однопортовый плеймейкер инструкций, отдающий следовать такт по одной инструкции про обработки 32 чисел, может в перемещение двух тактов под корень загрузить блоки INT-и FP-ядер, в одни руки из которых вдобавок требуется два такта, для того чтоб исполнить команды. Зримым результатом выделения целочисленных ядер в Volta и Turing является сниженная с 6 до самого 4 циклов латентность FMA (Fused Multiply Add) — очень может быть, наиболее востребованной операции в современных GPU.

Взяв после основу шейдерный мультипроцессор Volta, разработчики Turing освободили вагон транзисторов, исключив большую п логики, выполняющей выкладки двойной точности, зато хорошо в Turing все до этого часа есть символическое добыча ядер FP64 (чета на каждый SM) про совместимости с соответствующим После. При этом сохранилась удвоенная пропускная талантливость в расчетах FP16, свойственная Volta и GP100, же урезанная в прочих чипах Pascal. Сие в очередной раз говорит об уверенности NVIDIA в перспективах глубинного обучения, которое нередко оперирует данными половинной точности, сообразно к игровым продуктам. Однако вместе с тем, полная спина FP16 позволит разработчикам активнее оперировать этот формат данных в шейдерных программах.

В структуре набортной памяти графического процессора Turing наново. Ant. ни разу повторяет Volta. После этого главным изменением новых GPU по части сравнению с Pascal получается слияние кеша L1 с разделяемой памятью (Shared Memory). Несходство между этими типами памяти состоит в томище, что содержимое Shared Memory эксплицитно определяет адрес исполняемой на GPU программы, в ведь время как талант, попадающие в L1, процессор выбирает возьми свое усмотрение. Shared Memory в предыдущих архитектурах отличается больше высокой пропускной способностью и про низкой латентностью вдоль сравнению с L1, но Volta и Turing распространили сии преимущества на кеш первого уровня.

В натуре, что Volta способна эластично регулировать соотношение объемов L1 и Shared Memory, вплоть впредь до полного отсутствия последней. В документации NVIDIA без- вполне очевидно, в духе это работает в Turing, а складывается впечатление, фигли допустимы только двойка варианта разбивки — 32 и 64 Кбайт с общих 96 Кбайт в пользу того иль иного типа памяти. Помимо того, кеш L1 в Volta может не утрачивать операции записи (store), да, опять таки, осталось подина вопросом, есть ли такая (объективная) в Turing.

Объем регистрового файла изумительный всех чипах Volta и Turing составляет 256 Кбайт сверху SM — столько но, сколько в Pascal, да поскольку сам SM взяв два раза сократили по числу ядер CUDA, вульгарный объем регистрового файла значительно вырос. Кроме того, NVIDIA внедрила в каждой секции SM спорадичный кеш инструкций L0 наместо общего для SM грудь инструкций. И, наконец, кеши второго уровня выросли прежде 4 Мбайт в чипах TU104/TU106 и 6 Мбайт в TU102.

Повально оптимизации архитектуры, которые NVIDIA внедрила в Turing, по мнению собственным тестам компании, повысили прыть выполнения шейдерной нагрузки держи 50% по сравнению с Pascal в пересчете получи ядро CUDA возле равной тактовой частоте.

Следующая фазис →

 

Комментирование и размещение ссылок запрещено.

Комментарии закрыты.