컴퓨터/노트북/인터넷
IT 컴퓨터 기기를 좋아하는 사람들의 모임방
AMD가 새 GPU을 정식 발표
AMD의 여름의 대공세가 시작되었다. AMD는 8월에 새 GPU"Radeon RX Vega64(Vega10:베가 10)"과 16코어 CPU"Ryzen Threadripper"을 투입한다 올해(2017년)의 AMD의 신제품이 중요한 것은 모두 아키텍처의 큰 변화이기 때문이다. Zen아키텍처에서 CPU는 마이크로 아키텍처를 일신했지만 이번 Vega로 GPU도 마이크로 아키텍처가 일신된다.AMD에게 5년 만의 큰 GPU마이크로 아키텍처 변화이다.
마이크로 아키텍처가 쇄신되는 Vega
Radeon RX Vega64로 제품화되는 Vega10
Radeon RX Vega64의 스펙
GPU제품으로 보면 Radeon RX Vega64는 AMD에게 2년 만의 플래그 십 모델이다. AMD는 지난해(2016년)은 하이엔드 GPU을 발표하지 않았기 때문에 하이엔드의 GPU는 Polaris(북극성)세대를 빼먹고 Vega이다.Vega는 패밀리에서 등장할 전망이며 이번에 출시될 것은 최상위 Vega10이다.
Vega10아키텍처의 최대의 포인트는 NVIDIA처럼 거대 다이(반도체 본체)의 길을 가지 않고, 이 세대에서는 GPU의 다이 사이즈를 누르고 온 것. 다이 사이즈는 486평방 mm로 NVIDIA의 Volta(볼타)세대의 "GV100"의 815평방 mm의 60%정도 밖에 없다. AMD자신의 2015년의 플래그 십 GPU"Radeon R9 Fury X(Fiji:피ー지ー)"의 596평방 mm의 82%정도. 트랜지스터 수는 12.5B(Billion:125억)이지만 이것도 NVIDIA와 비교하면 적은.스탓크도 메모리 HBM2도 2스택과 NVIDIA의 4스택보다 적다.
Vega10의 특징
마이크로 아키텍쳐에서는, NVIDIA는 지금 세대에서 심층 학습(딥-러닝)을 향해서 크게 흔들었다. 심층 학습용과 그래픽용으로 완전하게 분화하는 길을 택한 것으로 본다. 그것에 대해서 AMD는 심층 학습용 기능을 더하면서도 거기에 쓰는 트랜지스터를 눌렀다.결과로서 Vega10은 높은 그래픽 성능에 비해서는 제조 비용이 낮은=가격을 낮출 수 있고 밸런스가 좋은 GPU이다.
Vega10
앞이 Fiji안이 Vega10
코어 수는 동일하지만 성능은 47%인상
Vega 10의 CU(Compute Unit)수는 64개로 단일 정도 FP32적 일본 재래의 주산 유닛(AMD용어로는 Stream Processor)수는 4,096개. 이는 2015년"Radeon R9 Fury X(Fiji:피ー지ー)"과 같은 수다.그러나 FP32의 성능은 Radeon R9 Fury X의 8.6TFLOPS에 대해서, Radeon RX Vega64에서는 12.66TFLOPS와 47%도 성능이 올라가고 있다.
Vega10의 전체 구성
대폭적인 성능 향상은 칩의 작동 주파수의 향상에 의해서 이루어지고 있다. Fury X에서는 동작 주파수는 1,050MHz였으나, Radeon RX Vega64에서는 기준 클록 1,247MHz, 부스터 클록 1,546MHz이다.동작 주파수의 향상 부분이 그대로 성능 향상이다.
Vega아키텍쳐에서는, 기존 GCN과 비교해서 기본의 파이프 라인 단수에 변경은 없다. 단백 타유닛토의 곱 일본 재래의 주산 파이프는 4사이클 레이튼 시 그대로다.그러나 크리티컬 패스에 대해서는 철저한 튜닝이 이뤄졌다고 한다.
논리 회로는 패스로 딜레이가 달리 딜레이가 특히 긴 패스군이 크리티컬 패스로 불린다. 동기형 프로세서의 동작 주파수는 가장 딜레이가 긴 패스에 제약된다. 그래서 핵심 경로를 튜닝해서 딜레이를 줄이면 작동 주파수의 향상이 가능하다.Vega10에서는 크리티컬 패스 튜닝과 14nm LPP프로세스에 의해서 1.7GHz이상의 동작 주파수가 가능하게 됐다고 한다.
Vega에서는 회로 설계에 의해서 고클록화를 실현
CPU스타일의 커스텀 회로 설계의 SRAM을 레지스터에 채용
파이프 라인 자체를 변경하지 않은 것은 파이프 라인을 깊게 하고 세끼와 예산의 레이턴시를 오래 하면 파이프 라인을 충족시키는데 더 많은 스레드가 필요로 되기 때문이라고 추측된다. 쓰레드 병렬성을 유지하기 위해서는 레지스터 등보다 많은 자원이 필요하게 된다.반면 크리티컬 패스 튜닝에서는 원칙적으로 아키텍처 상의 변경이 필요 없다.
GPU코어 마이크로 아키텍처를 쇄신
Vega사람으로는, CU(Compute Unit)의 마이크로 아키텍처가 크게 쇄신된. 새 설계의 차세대 CU"NCU(Next-Generation Compute Unit)"였다.NCU의 최대 특징은 "Rapid Packed Math(RPM)"라고 부르는 팩도(SIMD)포맷의 FP16반 정밀도 부동 소수 점 연산의 서포트이다.
패크드 FP16을 지원한 Vega
네이티브 명령 세트도 확장된
AMD GPU는 단일 정도 FP32(32-bit부동 소수 점)연산에 최적화된 파이프 라인을 갖추고 있다.그러나 Vega에서는 32-bit막대기로 16-bit부동 소수 점 연산을 2병렬의 SIMD(Single Instruction, Multiple Data)형식으로 치르기로, FP16시에 FP32의 2배의 성능을 낼 수 있다.
FP16은 모바일 그래픽 등에서 사용되고 있고 머신 러닝에서도 급속히 침투하고 있다. 머신 러닝 훈련 페이즈에서 데이터 밀도를 낮춘 FP16이용이 진행되고 있기 때문이다.Vega에서 FP16은 세키와 예산 등 통상적인 연산은 모두 지원하고 있다.
패크드의 8-bit정수 연산
Vega아키텍처에서는 패크드의 8-bit정수 연산도 지원됬다. 그러나 8-bit정수 연산은 SAD(Sum of Absolute Difference:차의 절대 치화)연산만을 지원이다. 동영상 등 이미지 처리용인 머신 러닝용 실장은 아니다. 이 외에도 Vega아키텍처에는 지오 메트리 파이프 라인의 쇄신과 새로운 현금 회로 설계, FreeSync확장 등 다수의 아키텍처 확장이 가세했다.후의 기사에 리포트하고 싶다.
Radeon RX Vega64주변
Vega으로 가세한 새로운 지오 메트리 부분의 시에ー다
[표]AMD GPU의 스펙 비교
명칭 Radeon Pro SSG Radeon Pro WX9100 Radeon RX Vega64 Liquid Cooled Edition Radeon RX Vega64 코드 네임 Vega10 Vega10 Vega10 Vega10 기준 클록 1,406MHz 1,247MHz 코어 클럭(최고) 1,500MHz? 1,500MHz? 1,677MHz 1,546MHz 아키텍처 GCN 5.0 GCN 5.0 GCN 5.0 GCN 5.0 프로세서 수 FP32 4,096 4,096 4,096 4,096 CU수 64 64 64 64 FP32 MAD/CU 64 64 64 64 프로세서 수 FP16 8,192 8,192 8,192 8,192 프로세서 수 INT8 16,384 16,384 16,384 16,384 FP32 GFLOPS 10,215 10,215 11,518 10,215 FP32 GFLOPS(boost clock) 12,288 12,288 13,738 12,665 FP16 GFLOPS 20,431 20,431 23,036 20,431 FP16 GFLOPS(boost) 24,576 24,576 27,476 25,330 Texture Units 256 256 256 256 Texture Fill Rate 319.2GT/s 319.2GT/s 359.9GT/s 319.2GT/s ROP Units 64 64 64 64 Pixel Fillrate 79.81Gpixels/s 79.81Gpixels/s 89.98Gpixels/s 79.81Gpixels/s L2 cache 4,096KB 4,096KB 4,096KB 4,096KB 메모리 종류 HBM2 HBM2 HBM2 HBM2 메모리 전송 속도 1,892Mtps? 1,892Mtps? 1,892Mtps? 1,892Mtps? 비디오 메모리 인터페이스 폭 2,048bit 2,048bit 2,048bit 2,048bit 메모리 대역(GB/Sec) 484GB/s 484GB/s 484GB/s 484GB/s 표준 탑재 메모리 16GB 16GB 8GB 8GB DRAM용량/다이 8Gb 8Gb 8Gb 8Gb DRAM개수 16개 16개 8개 8개 SSG(NAND Storage) 2TB 제조 프로세스 기술 14nm 14nm 14nm 14nm 제조 프로세스 기술의 특징 14LPP 14LPP 14LPP 14LPP 트랜지스터 수 12,500M 12,500M 12,500M 12,500M 다이 사이즈(최초의 다이) 486평방 mm 486평방 mm 486평방 mm 486평방 mm TDP Max 300W 250W 345W 295W명칭 | Radeon RX Vega56 | Radeon RX 480 | Radeon R9 Fury X |
---|---|---|---|
코드 네임 | Vega10 | Polaris 10(Ellesmere) | Fiji |
기준 클록 | 1,156MHz | 1,100MHz | 1,050MHz |
코어 클럭(최고) | 1,471MHz | 1,266MHz | 1,050MHz |
아키텍처 | GCN 5.0 | GCN 4.0 | GCN3 |
프로세서 수 FP32 | 3584 | 2304 | 4,096 |
CU수 | 56 | 36 | 64 |
FP32 MAD/CU | 64 | 64 | 64 |
프로세서 수 FP16 | 7,168 | 2,304 | 4,096 |
프로세서 수 INT8 | 14,336 | ||
FP32 GFLOPS | 8,286 | 5,069 | 8,602 |
FP32(boost clock)GFLOPS | 10,544 | 5,834 | 8,602 |
FP16 GFLOPS | 16,572 | 5,069 | 8,602 |
FP16 GFLOPS(boost) | 21,088 | 5,834 | 8,602 |
Texture Units | 224 | 144 | 256 |
Texture Fill Rate | 258.9GT/s | 158.4GT/s | 268.8GT/s |
ROP Units | 64 | 32 | 64 |
Pixel Fillrate | 73.98Gpixels/s | 35.20Gpixels/s | 67.20Gpixels/s |
L2 cache | 4,096KB | 2,048KB | 2,048KB |
메모리 종류 | HBM2 | GDDR5 | HBM1 |
메모리 전송 속도 | 1,700Mtps | 7,000Mtps | 1,000Mtps |
비디오 메모리 인터페이스 폭 | 2,048bit | 256bit | 4,096bit |
메모리 대역(GB/Sec) | 435GB/s | 224GB/s | 512GB/s |
표준 탑재 메모리 | 8GB | 8GB | 4GB |
DRAM용량/다이 | 8Gb | 4Gb | 2Gb |
DRAM개수 | 8개 | 16개 | 16개 |
SSG(NAND Storage) | |||
제조 프로세스 기술 | 14nm | 14nm | 28nm |
제조 프로세스 기술의 특징 | 14LPP | ||
트랜지스터 수 | 12,500M | 5,700M | 8,900M |
다이 사이즈(최초의 다이) | 486평방 mm | 232제곱 mm | 596평방 mm |
TDP Max | 210W | 150W | 275W |
막대한 메모리 공간을 GPU가 사용할 수 있는 HBCC
Vega10은 스택도 DRAM의 "HBM2"을 지원한다. AMD는 Radeon R9 Fury(Fiji)에서 HBM1을 도왔다. 이번에는, 규격 상의 데이터 전송 레이트가 2배가 된 HBM2를 탑재하고 있다. Fiji에서는 데이터 전송 속도가 1Gtps의 HBM을 4스택 탑재했다.메모리 인터페이스는 4,096bit으로 메모리 대역은 512GB/s였다.
이번에 AMD는 Vega10에 2,048-bit의 HBM2인터페이스를 구현했다. HBM2메모리 스택은 2개와 Fiji의 절반이 되었다. 하지만, HBM2자체의 데이터 전송 속도가 오른 것으로 메모리 대역은 484GB/s을 달성하고 있다.또 HBM1에서는 DRAM다이의 용량이 2G-bit이었지만 HBM2에서는 8G-bit이 되었으니 2스택에서도 8GB의 용량이다.
Vega의 중요한 특징이며 HBCC(High-Bandwidth Cache Controller)
게다가 Vega에서는 "HBCC(High-Bandwidth Cache Controller)"라고 부르는 새롭게 유닛을 탑재했다. HBCC는 GPU의 메모리만 아니라 CPU측의 시스템 메모리 및 스토리지, GPU에 탑재한 플래시 스토리지 등을 빠짐없이 GPU메모리로 다룰 수 있도록 하는 가상 메모리 시스템이다.Vega아키텍처에서는 CPU시스템 메모리의 일부나 스토리지를 HBCC의 메모리 공간으로 다룰 수 있다.
그리고 온 패키지의 HBM2를 마치 캐시 메모리처럼 다룬다. 비용을 포함한 캐시 모델을 취할 경우는 HBM2가 새로운 현금 계층처럼 굴다. 엑스 크루 시부 캐시 모델의 경우는 HBM2와 GPU외의 메모리가 이어진 메모리로 지도된다.기본적인 아이디어는 접속 빈도가 낮은 데이터는 먼 메모리에 빈도가 높은 데이터는 가까운 HBM2에 가짐으로써 무리 없이 대규모 작업 세트를 다루도록 하는 점이다.
GPU의 성능과 메모리 용량의 차이
페이지 기반의 HBCC의 메모리 관리
캐시라 해도 HBCC의 제어의 정밀도는 페이지 기준이다. Vega에서는 다른 여러 페이지 크기를 동시에 다룰 수 있도록 했다. 그래픽에서 다용되는 시퀀셜 액세스를 일으키는 데이터 타입은 라지 페이지에 저장. 분산된 접속이 발생하는 데이터는 스몰 페이지에 저장한다.Vega10에서는 512TB까지 가상 주소 공간을 지원한다.
엑스 크루 시부 현금 모드 시
인클루 시브 현금 모드 시
Radeon RX Vega64제품 라인 업
제품으로서 Radeon RX Vega에는 복수의 SKU(Stock Keeping Unit=아이템)과 팩이 있다. 그래픽 카드에서는 풀 스펙의 "Radeon RX Vega64"가 499달러에서 판매된다.Radeon RX Vega64에서는 64개의 NCU가 설정되어 있고 그것이 제품 업그레이드 번호"64"의 유래가 되고 있다고 보인다.
Radeon RX Vega64에서는 64개의 NCU에서 FP32적 일본 재래의 주산 유닛은 합계 4,096개이다. 동작 클럭은 부스터 1,546MHz으로, 피크 성능은 FP32에서 12.66TFLOPS, FP16에서 25.3TFLOPS.Radeon RX Vega64에는, 카드 디자인이 다른 리미티드 에디션이 있지만 이는 후술 하는 팩으로 밖에 입수할 수 없다.
Radeon RX Vega64리미티드 에디션
Radeon RX Vega64의 라인 업
Radeon RX Vega라인 업의 스펙
액랭판 Radeon RX Vega64
Radeon RX Vega64에는 액랭식의 "Radeon RX Vega64 Liquid Cooled Edition"이 있다. 냉각 능력을 높임으로써 동작 주파수를 부스터시킨 버전이다. 베이스 1,406MHz, 부스터 1,677MHz으로, 피크 성능은 FP32에서 13.7 TFLOPS이다.FP16이면 27.5 TFLOPS에 이른다.
Radeon RX Vega패밀리에서는 더 저렴한 Radeon RX Vega56도 399달러에서 판매된다. 이곳은 56 NCU로 3,584FP32유닛, 피크 성능은 10.5TFLOPS. 작동 주파수는 Radeon RX Vega64보다 다소 낮아지는 베이스 1,156MHz/부스트 1,471MHz이다.TDP(Thermal Design Power:열 설계 전력)로 비교하면 Radeon RX Vega56이 210W, Radeon RX Vega64가 295W, Radeon RX Vega64 Liquid Cooled가 345W이다.
통상판 Radeon RX Vega64
Radeon RX Vega56
사서 득을 보는 Radeon Pack
AMD는 Radeon RX Vega64출시에 맞아, 그래픽 카드 이외의 할인한 팩 제품"Radeon Pack"도 준비했다.이는 Radeon RX Vega카드 외에, 디스플레이와 CPU, 메인 보드의 할인과 게임 패키지를 묶은 패키지이다.
팩에는 만곡 34형"Samsung CF791"FreeSync디스플레이의 200달러 할인 Ryzen 7과 X370메인 보드의 100달러 할인에 120달러 상당의 게임 패키지(지역마다 다르다)이 포함된다. Radeon RX Vega+Ryzen 7플랫폼과 FreeSync모니터도 갖춘다는 사용자에게는 괜찮은 배필이다.Radeon Pack도 8월에 발매된다.
팩은 3계통이 마련된다. 최상위의 "Radeon Aqua Pack"은 액체 냉각의 Radeon RX Vega64의 팩으로 699달러. 통상의 공랭의 Radeon RX Vega64기반의 팩은 "Radeon Blask Pack"에서 599달러에서.Blask Pack의 Radeon RX Vega64에는 리미티드 에디션 버전이 포함된다.
이 밖에 Radeon RX Vega56베이스의 "Radeon Red Pack"도 499달러에서 판매된다.다시 말하면 팩에서는 카드 제품과 100달러의 차액에서 300달러어치의 하드웨어 할인과 120달러어치의 게임이 손에 들어간다.
Radeon Pack의 개요
3종류의 Radeon Pack
Radeon RX의 라인 업
Vega기반의 Radeon Pro와 Radeon Instinct
AMD는 Vega기반의 프로페셔널을 대상 GPU"Radeon Pro"도 발매한다. Vega10기반의 Radeon Pro는 2종류. 통상판"Radeon Pro WX9100"과 플래시 스토리지를 온보드에 탑재한 "Radeon Pro SSG"다.이 Radeon Pro SSG가 어떤 의미, 진정한 Vega10이 된다.
Radeon Pro WX9100은 12.3TFLOPS에서 Radeon RX Vega64보다 조금만 작동 주파수를 억누르고 있다고 본다. Radeon RX의 스펙 상의 큰 차이는 비디오 메모리의 탑재 용량.Radeon RX Vega64가 HBM2 8GB인 반면 Radeon Pro WX9100은 16GB이다.
Radeon Pro WX9100
HBM2에서는 1개의 DRAM다이(반도체 본체)이 8G-bit(실제로는 ECC를 포함 9G-bit). Vega10은 HBM2를 2스택 싣고 있어 Radeon Pro WX9100의 HBM2는 8Hi(8개의 DRAM다이의 적층)이다.8Hi의 경우 HBM2에서는 2단계 구성이다.
그러나 Radeon Pro WX9100의 메모리 대역은 484GB/s와 Radeon RX Vega64과 비슷하며 전송 속도는 1.9Gtps다. HBM2에서는 2순위에서도 전송 속도가 떨어지지 않다.Radeon Pro WX9100의 TDP는 250W이다.
Radeon Pro SSG
Radeon Pro SSG에서는 2TB의 플래시 스토리지가 온보드에 탑재되고 있다. 다른 스펙은 TDP가 300W에 오르는 이외의 차이는 없다. NAND플래시 스토리지는, PCI Express접속의 NVMe에 그래픽 카드 상에 배치되고 있다. Vega GPU는 PCI Express브리지 칩을 통해서 접속되고 있다. GPU에서는 CPU경유가 아닌, PCI Express에서 직접 SSG에 접속할 수 있으므로, 리드가 8GB/s, 라이트가 6GB/s와 고성능이다. SSG는 HBCC에 의해서 관리된다.애플리케이션으로부터 명시적으로 SSG에 접속하기 위한 API도 준비되어 있다.
HBCC의 PCI Express버스 중간에 PCI Express다리가 있어 NVMe의 SSG스토리지가 접속되고 있다
고성능 병렬 프로세서에, 광대역의 스택도 DRAM과 대용량의 비휘발성 메모리를 접속한다는 아이디어는 AMD지가 오래 데우던 아이디어다.Radeon Pro SSG는 그 구상의 첫걸음이 될 GPU이다.
AMD가 엑사 스케일 슈퍼 컴퓨터 때문에 제안한 메모리 아키텍처
Vega10에서는 이 밖에 GPU컴퓨팅을 위한 Radeon Instinct에서도 제품이 제공된다."Radeon Instinct MI25"에서 HPC(High Performance Computing)용도 외에 높은 FP16성능을 살려서 주로 심층 학습의 학습 페이즈 침투를 노린다.