컴퓨터/노트북/인터넷

IT 컴퓨터 기기를 좋아하는 사람들의 모임방

쓰기

[일반]

🕰️ 2016.05.28 00:38

GP100과 GP104 아키텍처의 차이가 나타내는 NVIDIA GPU의 진화

the.100

조회 수 1209 추천 수 0 댓글 0

단축키

Prev이전 문서

Next다음 문서

수정 삭제

단축키

Prev이전 문서

Next다음 문서

수정 삭제

NVIDIA의 "Pascal"세대의 GPU 아키텍처에서 보여 온 것은, NVIDIA GPU의 통합과 분화의 방향성이다. 현재 NVIDIA는 GPU의 제품 기능을 분화시키고 통합하려고하고있다. 구체적으로는 같은 Pascal에도 "Tesla P100 (GP100)」과 「GeForce GTX 1080 (GP104)"는 GPU의 마이크로 아키텍처도 메모리, 인터페이스 회전 등의 칩 아키텍처도 다르다. 덧붙여서, AMD는 이러한 GPU 컴퓨팅 및 그래픽 각각의 분화는별로 보이지 않는다.

GP100의 TPC의 구조

GP104의 SM (Streaming Multiprocessor)의 구조

　한편, 이전에는 전혀 다른 아키텍처이었다 Tegra 계의 통합 GPU도 공통 아키텍처로 통합되어있다. 차세대 FinFET 프로세스 버전의 Tegra는 Pascal 아키텍처의 GPU 코어를 갖추고있다. 아키텍처의 통합과 분화의 양쪽이 진행되고있다.

　구체적으로는 GP100은 GP104에 명령 유닛 당 레지스터 파일 공유 메모리 인플 Warp 수가 강화되고 NVLink 칩 간의 인터페이스로 구현하고 HBM2 광대역 메모리를 실현한다. 한편 GP100은 GP104을 대비 "Simultaneous Multi-Projection (동시?? 테니 아스 멀티 프로젝션)」나 그래픽 선점은 GP100에는 구현되어 있지 않다.

Simultaneous Multi-Projection

　이렇게 보면 NVIDIA의 GPU는 GPU 컴퓨팅에 최적화 된 아키텍처와 그래픽에 최적화 된 아키텍처를 완만하게 분화하고있는 것으로 보인다. 무엇보다, 지금까지 NVIDIA GPU는 GPU 컴퓨팅을위한 하이 엔드 GPU와 그래픽을 주목적으로 한 하이미도루 GPU 다음의 제품 구조에 차이가있을 수 있었다.

　"Fermi"아키텍쳐의 세대에서도 최상위의 GeForce GTX 480 (GF100) 계와 미들 레인지의 GeForce GTX 460 (GF104) 계에서 SM의 GPU 내부의 연산 유닛 구성과 명령 발행 등의 아키텍처의 기본 부분 이 달랐다. 또한 Kepler 세대에서도 마지막가는 GK210되면 마이크로 아키텍처가 달랐다.

　"지금까지도 아키텍처의 차이는 있었다 .Kepler는 마지막 GK210은 몇 가지 점에서 진화하고 SM (Streaming Multiprocessor)이 다르다 .GK210은 더 레지스터 파일 공유 메모리를 제공 있는 .Fermi에서도 마찬가지로 다른 아키텍처를 채용했다 "고 NVIDIA에서 GPU 개발의 지휘를 받아 Jonah Alben 씨 (Senior Vice President, GPU Engineering, NVIDIA)는 설명한다.

　무엇보다, GK210 때는 그래픽 용 GPU는 Maxwell 아키텍처로 진화했지만, HPC 전용의 FP64 성능이 높은 GPU의 진화가 남겨진 상황에 있었다. 따라서 HPC 전용에 "Kepler 개"의 필요가있어, GK210 기반의 Tesla K80을 투입했다는 사정이 있었다.

GPU의 다이 크기 변천

공통 아키텍처에 통합하면서 구현 분화시키는

　Pascal 세대의 차이점은 인터페이스 등 지금까지보다 GPU에 의한 차이가 퍼지고있어 차이가있는 제품의 출시시기도 근접하게되어있는 것이다. NVIDIA GPU 전체로 보면 마이크로 아키텍처가 각각의 시장에 수정 된 칩 전체의 구조도 차이가 나오고있다.

　반면 마이크로 아키텍처의 기본은 공통화가 진행되고있어 공통 아키텍처를 구현하는 타이밍 동기화하고있다. 결과적으로, 동 세대에서는 GPU 컴퓨팅의 Tesla 그래픽 GeForce, 모바일 / 임베디드 Tegra에서 GPU 마이크로 아키텍쳐가 맞도록 제작했다.

　Alben 씨는 다음과 같이 설명한다.

　"마지막으로, NVIDIA는 하나의 공통 아키텍처 모델에 겨우 도착했다. 그러나 공통 아키텍처라고해??도 거기에서 성격이 다른 칩을 파생시키고있다. 우리는 각각의 시장을 향해 다른 제품을 개발하고있다. 코어 아키텍처는 공통이지만 균형이 다른 .FP64 (64-bit) 배정 밀도 부동 소수점 연산 유닛이나 레지스터 파일, 공유 메모리 등의 균형이다.

　Tesla는 이러한 기능을 강화한 균형이 필요로되고있다. 그러나 강화하여 자원을 소비한다. 따라서 GeForce는 다른 (이 기능을 깎은) 균형하고있다. 결과적으로, NVIDIA의 GPU는 일반적이다 부분은 유지하면서 각각의 칩은 이전보다 많은 차이를 갖게하고있다. 예를 들어, GP100의 NVLink 등이 그렇다.

　그래픽 용으로 기능을 날카롭게하는 것만은 아니다. 우리는 GPU의 컴퓨팅을 수용하고있는 것에 따라, GPU는 많은 컴퓨팅 기능을 주입왔다. 동시에 그래픽으로도 VR (Virtual Reality)과 같은 새로운 기술이 오면 이러한 시장 변화에 추종 할 멋진 아이디어를 주입하고있다. "

GP100의 전체 구성

GP104의 전체 구성

GP100은 깊은 학습을 위해 FP16를 배 성능 화

　마이크로 아키텍처면에서 매우 재미있는 것은 FP16 (16-bit 반 정밀도) 부동 소수점 연산의 구현이다. GPU 컴퓨팅을 주목적으로 한 GP100에서 FP16 (16-bit 반 정밀도) 부동 소수점 연산 성능을 배가하는 2-way SIMD (Single Instruction, Multiple Data) 형의 FP16를 구현했다. 이 기능은 GP100의 FP16의 피크 성능은 FP32 (32-bit 단 정밀도) 부동 소수점 연산의 2 배가되었다.

GP100과 GP104의 스펙 비교

GP100의 팍 크드 FP16

　그러나 GP100 이후에 개발 된 것 인 GP104이 2-way 팍 크드 FP16는 구현되어 있지 않다. GP104의 FP16 성능은 FP32과 마찬가지다. 그런데 같은 2-way 팍 크드 FP16는 Tegra 계열 GPU로 구현된다. Tegra 버전 Maxwell 코어에서 구현되어 있으며, 새로운 Tegra의 Pascal 코어도 상속된다. "우리는 PX2 (Tegra 기반의 자동차 용 임베디드 보드)는 GP100의 것으로 유사한 (FP16) 명령 세트를 도입하겠다"고 NVIDIA의 Alben 씨는 말한다.

　즉, NVIDIA의 GPU 계열에서는 GPU 컴퓨팅 및 모바일 / 임베디드 시장을 위해서 지그비 제품에 팍 크드 FP16를 구현하여 FP16 성능을 향상한다. 그러나 PC 그래픽 용 분야에서는 FP16 부스트되지 않는다. 단순히 내장 → PC 그래픽 → GPU 컴퓨팅과 컴퓨팅 기능이 강화되는 것이 아니라 시장에 의해 다른 구현되고 있는지 알 수있다.

　우선, GPU 컴퓨팅의 GP100에서 팍 크드 FP16가 지원되는 것은 깊은 학습을위한 것이다. 'GP100은 깊은 학습의 훈련에 사용되는 제품이다. 따라서 딥 학습에서 중요하다 반 정밀도 부동 소수점 연산 성능을 높일 필요가 있었다 "고 Alben 씨는 말한다.

　딥 학습에서는 엄청난 콤보 류 셔널 신경망의 연산 속도를 위해 데이터의 양을 억제하는 방향으로 향하고있다. FP16도 충분한 정밀도를 얻을 수 있다는 것이 현재의 공통 인식되고 있으며, 따라서 FP16가 많이 사용되고있다. GP100은 이러한 흐름에 대응하기 위해 FP16를 배 성능을 향상했다.

　반면 PC 게임의 그래픽은 FP16는 과거의 일이되어 있으면 NVIDIA는 본다. 픽셀 파이프에서도 FP32 단정가 표준이되고 있기 때문에 비용을 들여 구현할 필요가 없다고 판단한 것 같다. "반 정밀도 부동 소수점 연산은 PC 게임에서 중요하지 않다고 판단했다. 저가형 게임 에서조차 단 정밀도 이상의 정밀도를 전제로하고 있기 때문이다 .GeForce 구현하지 않은 것은 그 때문이다"(Alben 씨).

임베디드의 Tegra도 FP16 반 정도를 강화

　그런데 모바일 및 임베디드된다고 이야기가 달라진다. 이러한 분야에서는 메모리 대역폭 및 오프 칩 인터페이스의 전력 소비를 억제하기 위해 FP16가 여전히 사용되고있다. 거기에 향한 Tegra는 "OpenGL ES에서도 낮은 정확도가 지원되는대로 FP16 성능이 필요하다고 판단했다"(Alben 씨)라고한다. 이것은 모바일 계 GPU에 공통된 인식에서 Imagination Technologies의 PowerVR Series6 (Rogue)도 처음에는 FP16의 경로를 만들어 않았지만, 현재는 FP16는 FP32의 배의 성능이다.

　또한 내장에서 FP16의 강화는 내장에 깊은 학습이 중요한 측면이있다. 깊은 학습을 통한 인식 처리에 사용되는 사례가 앞으로 늘어날 것으로 예상되기 때문이다. 딥 학습은 방대한 컴퓨팅 자원으로 행하는 「교육 (training) "페이즈에서 신경망 모델을 구축. 그 모델을 사용하여 자동차 등의 기기로 인식하는 '추론 (inference) "페이즈를 실현한다. 교육은 데이터 센터에서 행하지 만, 추론은 임베디드 디바이스에서 행한다. 추론도 나름대로의 데이터 량하므로 내장 GPU에서도 FP16 반 정도가 유효하다.

깊은 학습의 2 개의 페이즈

　NVIDIA는 이처럼 GPU는 연산 경로의 마이크로 아키텍처도 변경하고있다. 그러나 프로그램 성에서의 호환성은 유지하고 NVIDIA는 강조한다. 예를 들어, GP100에서 FP64 (64-bit 정밀도) 부동 소수점 연산은 FP32의 2 분의 1로 높은 성능 비율이다. 이에 대해 GP104에서 FP64는 FP32의 3??2 분의 1의 성능이지만, 그래도 명령어 세트 수준의 호환성은 유지되고있다.

　FP16도 컴파일러 수준에서 유지되고있어한다. NVIDIA GPU는 SIMT (Single Instruction, Multiple Thread) 아키텍처에서 32-way의 스레드가 각각 마스크 레지스터에 의한 프레디 케이션에 의해 의사 적으로 분기하고 같이 취급 할 수있다. 그러나 팍 크드 FP16 부분은 프레디 케이션은 적용되지 않는다. 2 개의 FP16 연산은 같은 스레드의 내부된다. 스레드의 명령 스트림에서 FP16를 컴파일시에 팩하는 방법이 일반적이라고한다.

GP104에서만 추가 된 형상

　그래픽 기능은 GP100에 GP104 분들이 진행되고있다. GP104은 동시 테니 아스 멀티 프로젝션 그래픽 선점 제거 동기식 컴퓨팅 동적로드 밸런싱의 새로운 기능이 탑재되어있다. 모두 그래픽 기능을 확장 시키거나 그래픽과 컴퓨팅의 2 개의 처리를 섞어 경우에 중요하다 기능이다. 이러한 차이는 제품 시장마다 전문화이기도하지만, 개발시기의 차이도 영향을주고 있다고한다.

동시 테니 아스 멀티 프로젝션 GP104에서 처음 구현

그래픽 스타스쿠과 컴퓨팅 작업의 동적로드 밸런싱은 GP104

그래픽 선점도 GP100에없는 기능

　"동시 테니 아스 멀티 프로젝션을 GP100에서 구현되지 않은 것은 단순히 GP100 쪽이 먼저 개발 된 사정도있다. 우리는 일반적으로 GPU의 기능을 최대한 동일하게 가까이 유지하려고하고있다 그러나 동시 테니 아스 멀티 프로젝션의 경우에는 개발시기의 차이도 있고, GP100은 구현하지 못했다 "(Alben 씨).

　동시 테니 아스 멀티 프로젝션 응용 프로그램의 개발에 크게 영향을주는 기능이기 때문에 미래의 하이 엔드 GPU에서 지원되는 것으로 보인다.

　메모리도 GPU 컴퓨팅의 GP100이 HBM2 그래픽 GP104이 GDDR5X와 엇갈 렸다. 이것은 경제성 때문이다.

　"주의 할 것은 우리가 모두 (HBM 계와 GDDR 계)의 메모리 기술을 원하고 있으며, 그 모두에서 최신 기술을 사용하려고하고있는 것이다 .GDDR5X는 GDDR5의 자연적인 진화이며, 따라서 경제적으로 효율적인 메모리가되고있다. 이에 대해 HBM2은 경제성에 미치지 못하지만 최고의 메모리 대역을 실현 해주는 .HPC의 세계에서, 우리는 가능한 최고의 기술을 제공하려고하고있다. 따라서 HBM 계 메모리를 사용하고 싶다고 생각하고있다 "(Alben 씨).

　HBM 계 메모리는 DRAM 측에 실리콘 관통 비아 (TSV : Through Silicon Via) 기술이 필요하며, 이외에 GPU 다이와 DRAM 스택의 아래에 실리콘 인터 포저를 설치할 필요가있다. 어셈블리를 포함하여 제조 비용이 상대적으로 높다. GDDR5X도 구현이 어려운 기술이지만, HBM2에 비해 비용면에서 저렴하다. HBM2에서 얻을 수있는 대역폭과 저전력을 비용과 저울 걸면 하이미도루 GPU 이하의 제품은 GDDR5X에 정착했다는 것이다.

DRAM의 대역폭과 전송 속도

　인터페이스는 NVLink도 GP100 만의 기능이다. NVIDIA는 GP104에 SLI 기능을 갖게 칩 간 커넥터 SLI 브릿지도 쇄신했다. 그러나 SLI 인터페이스에 NVLink은 채용하지 않았다. Alben 씨는 "NVLink는 엄청난 칩 간의 대역폭을 얻을 수있다. 그러나 SLI 브릿지는 그 때까지의 대역은 필요로하지 않는다"고 설명한다. 물론 매우 빠른 인터페이스 NVLink 브릿지 사용한다는 것 자체가 어렵다는 사정도있다.

🗨️ 댓글 달기...

✔ 에디터 모드 ✔ 텍스트 모드

지금 익명게시판에 로그인해서 자유롭게 자신의 의견을 남기고, 다른 사람들과 기분 좋게 소통해봐요!
Log in to the anonymous board now and share your thoughts freely, while enjoying positive interactions with others!

컴퓨터/노트북/인터넷

IT 컴퓨터 기기를 좋아하는 사람들의 모임방

쓰기

List of Articles
번호	분류	제목	조회 수	날짜
공지	뉴스	구글 최신 뉴스	1454	2024.12.12
HOT글	일반	샤오미 BE6500 라우터 실사용 후기 (Wi-Fi 7 + 2.5G 스위치 기능까지 ㄷㄷ) 4	1018	2025.06.28
공지		🚨(뉴비필독) 전체공지 & 포인트안내 20	28854	2024.11.04
공지		URL만 붙여넣으면 끝! 임베드 기능	22976	2025.01.21
10641	일반	3900x에서 573D 업글은 무의미한짓이군요	1000	2025.06.28
10640	일반	수냉쿨러 질문드립니다.	1030	2025.06.28
10639	일반	CPU 시피유에 좋은 램속도를 알아봅시다	1036	2025.06.28
10638	일반	샤오미 BE6500 라우터 실사용 후기 (Wi-Fi 7 + 2.5G 스위치 기능까지 ㄷㄷ) 4	1018	2025.06.28
10637	일반	이제 로지텍 마우스는 더 이상 못 사겠네요.	1007	2025.06.26
10636	일반	Windows 95를 SSD에 설치하면 생기는 일 1	849	2025.06.23
10635	일반	라이젠3600이랑 5600 똥값됐네	1417	2025.06.21
10634	일반	ipfilter 다운로드 및 사용법 (ip 토렌트 노출 차단)	1641	2025.06.20
10633	정보	토렌트 최신 트래커 모음 (2025년 06월)	1684	2025.06.20
10632	일반	윈도우10이 곧 지원 종료 예정 (윈도우11 PowerToys 설치해보세)	421	2025.06.10
10631	일반	윈도우에서 바로가기 버튼으로 모니터 화면 자동 전환(가로/세로) 방법	572	2025.06.05
10630	일반	아 진짜 요새 SKT 해킹 뭐시기 때문에 신경 쓰여 죽겠어 ㅠㅠ 2	300	2025.05.20
10629	일반	저렴한 중국산 외장 SSD의 실체	577	2025.05.17
10628	일반	인텔 애로우레이크의 CPU 내부 다이 모습	649	2025.05.10
10627	일반	스카이프, 오늘 서비스 종료	654	2025.05.10
10626	일반	SKT "보상 시 고객도 입증책임"	672	2025.05.10
10625	정보	KISA, 신규 악성코드 위협 공지...SKT 내부 서버에서 ‘BPF도어’ 악성코드 변종 8종 추가 발견	638	2025.05.10
10624	일반	“SK하이닉스 내부자에 뚫렸다” 中이직 앞두고 1만여건 기술 유출	614	2025.05.10
10623	일반	기가바이트, 12년만에 메인보드에 새로운 기능을 추가	645	2025.05.10
10622	일반	SKT “위약금 면제 시 수백만명 해지… 분위기 휩쓸려 시장 대혼란”	630	2025.05.10
10621	일반	CUDA 툴킷, 맥스웰, 파스칼, 볼타 지원 중단	671	2025.05.10
10620	일반	그래픽카드를 활용한 암호 해독 벤치마크	641	2025.05.10
10619	일반	애즈락 X870 스틸 레전드 메인보드에서 라이젠 9 9950X CPU가 사망	640	2025.05.10
10618	일반	코어 울트라 200 메인보드, PCIe 5.0 M.2 성능 제한이 있음	608	2025.05.10
10617	일반	시게이트, 2030년까지 100TB 하드디스크 출시	626	2025.05.10
10616	정보	MS가 인텔 18A 공정 계약을 체결? 1	633	2025.05.10
10615	정보	블루투스 6.1 발표. 전력 효율과 보안 향상	654	2025.05.10
10614	정보	중국 Hygon, 128코어 512스레드의 서버 프로세서 로드맵 공개	613	2025.05.10
10613	정보	인텔, 컴퓨텍스에서 아크 프로 B60 24GB를 발표?	660	2025.05.10
10612	일반	지포스 RTX 5060의 리뷰용 드라이버가 없음	662	2025.05.10

쓰기

컴퓨터/노트북/인터넷

IT 컴퓨터 기기를 좋아하는 사람들의 모임방

단축키

단축키

공통 아키텍처에 통합하면서 구현 분화시키는

GP100은 깊은 학습을 위해 FP16를 배 성능 화

임베디드의 Tegra도 FP16 반 정도를 강화

GP104에서만 추가 된 형상

컴퓨터/노트북/인터넷

IT 컴퓨터 기기를 좋아하는 사람들의 모임방

검색

로그인