전체

쓰기

[일반]

🕰️ 2016.05.28 00:38

GP100과 GP104 아키텍처의 차이가 나타내는 NVIDIA GPU의 진화

the.100

조회 수 1205 추천 수 0 댓글 0

단축키

Prev이전 문서

Next다음 문서

수정 삭제

단축키

Prev이전 문서

Next다음 문서

수정 삭제

NVIDIA의 "Pascal"세대의 GPU 아키텍처에서 보여 온 것은, NVIDIA GPU의 통합과 분화의 방향성이다. 현재 NVIDIA는 GPU의 제품 기능을 분화시키고 통합하려고하고있다. 구체적으로는 같은 Pascal에도 "Tesla P100 (GP100)」과 「GeForce GTX 1080 (GP104)"는 GPU의 마이크로 아키텍처도 메모리, 인터페이스 회전 등의 칩 아키텍처도 다르다. 덧붙여서, AMD는 이러한 GPU 컴퓨팅 및 그래픽 각각의 분화는별로 보이지 않는다.

GP100의 TPC의 구조

GP104의 SM (Streaming Multiprocessor)의 구조

　한편, 이전에는 전혀 다른 아키텍처이었다 Tegra 계의 통합 GPU도 공통 아키텍처로 통합되어있다. 차세대 FinFET 프로세스 버전의 Tegra는 Pascal 아키텍처의 GPU 코어를 갖추고있다. 아키텍처의 통합과 분화의 양쪽이 진행되고있다.

　구체적으로는 GP100은 GP104에 명령 유닛 당 레지스터 파일 공유 메모리 인플 Warp 수가 강화되고 NVLink 칩 간의 인터페이스로 구현하고 HBM2 광대역 메모리를 실현한다. 한편 GP100은 GP104을 대비 "Simultaneous Multi-Projection (동시?? 테니 아스 멀티 프로젝션)」나 그래픽 선점은 GP100에는 구현되어 있지 않다.

Simultaneous Multi-Projection

　이렇게 보면 NVIDIA의 GPU는 GPU 컴퓨팅에 최적화 된 아키텍처와 그래픽에 최적화 된 아키텍처를 완만하게 분화하고있는 것으로 보인다. 무엇보다, 지금까지 NVIDIA GPU는 GPU 컴퓨팅을위한 하이 엔드 GPU와 그래픽을 주목적으로 한 하이미도루 GPU 다음의 제품 구조에 차이가있을 수 있었다.

　"Fermi"아키텍쳐의 세대에서도 최상위의 GeForce GTX 480 (GF100) 계와 미들 레인지의 GeForce GTX 460 (GF104) 계에서 SM의 GPU 내부의 연산 유닛 구성과 명령 발행 등의 아키텍처의 기본 부분 이 달랐다. 또한 Kepler 세대에서도 마지막가는 GK210되면 마이크로 아키텍처가 달랐다.

　"지금까지도 아키텍처의 차이는 있었다 .Kepler는 마지막 GK210은 몇 가지 점에서 진화하고 SM (Streaming Multiprocessor)이 다르다 .GK210은 더 레지스터 파일 공유 메모리를 제공 있는 .Fermi에서도 마찬가지로 다른 아키텍처를 채용했다 "고 NVIDIA에서 GPU 개발의 지휘를 받아 Jonah Alben 씨 (Senior Vice President, GPU Engineering, NVIDIA)는 설명한다.

　무엇보다, GK210 때는 그래픽 용 GPU는 Maxwell 아키텍처로 진화했지만, HPC 전용의 FP64 성능이 높은 GPU의 진화가 남겨진 상황에 있었다. 따라서 HPC 전용에 "Kepler 개"의 필요가있어, GK210 기반의 Tesla K80을 투입했다는 사정이 있었다.

GPU의 다이 크기 변천

공통 아키텍처에 통합하면서 구현 분화시키는

　Pascal 세대의 차이점은 인터페이스 등 지금까지보다 GPU에 의한 차이가 퍼지고있어 차이가있는 제품의 출시시기도 근접하게되어있는 것이다. NVIDIA GPU 전체로 보면 마이크로 아키텍처가 각각의 시장에 수정 된 칩 전체의 구조도 차이가 나오고있다.

　반면 마이크로 아키텍처의 기본은 공통화가 진행되고있어 공통 아키텍처를 구현하는 타이밍 동기화하고있다. 결과적으로, 동 세대에서는 GPU 컴퓨팅의 Tesla 그래픽 GeForce, 모바일 / 임베디드 Tegra에서 GPU 마이크로 아키텍쳐가 맞도록 제작했다.

　Alben 씨는 다음과 같이 설명한다.

　"마지막으로, NVIDIA는 하나의 공통 아키텍처 모델에 겨우 도착했다. 그러나 공통 아키텍처라고해??도 거기에서 성격이 다른 칩을 파생시키고있다. 우리는 각각의 시장을 향해 다른 제품을 개발하고있다. 코어 아키텍처는 공통이지만 균형이 다른 .FP64 (64-bit) 배정 밀도 부동 소수점 연산 유닛이나 레지스터 파일, 공유 메모리 등의 균형이다.

　Tesla는 이러한 기능을 강화한 균형이 필요로되고있다. 그러나 강화하여 자원을 소비한다. 따라서 GeForce는 다른 (이 기능을 깎은) 균형하고있다. 결과적으로, NVIDIA의 GPU는 일반적이다 부분은 유지하면서 각각의 칩은 이전보다 많은 차이를 갖게하고있다. 예를 들어, GP100의 NVLink 등이 그렇다.

　그래픽 용으로 기능을 날카롭게하는 것만은 아니다. 우리는 GPU의 컴퓨팅을 수용하고있는 것에 따라, GPU는 많은 컴퓨팅 기능을 주입왔다. 동시에 그래픽으로도 VR (Virtual Reality)과 같은 새로운 기술이 오면 이러한 시장 변화에 추종 할 멋진 아이디어를 주입하고있다. "

GP100의 전체 구성

GP104의 전체 구성

GP100은 깊은 학습을 위해 FP16를 배 성능 화

　마이크로 아키텍처면에서 매우 재미있는 것은 FP16 (16-bit 반 정밀도) 부동 소수점 연산의 구현이다. GPU 컴퓨팅을 주목적으로 한 GP100에서 FP16 (16-bit 반 정밀도) 부동 소수점 연산 성능을 배가하는 2-way SIMD (Single Instruction, Multiple Data) 형의 FP16를 구현했다. 이 기능은 GP100의 FP16의 피크 성능은 FP32 (32-bit 단 정밀도) 부동 소수점 연산의 2 배가되었다.

GP100과 GP104의 스펙 비교

GP100의 팍 크드 FP16

　그러나 GP100 이후에 개발 된 것 인 GP104이 2-way 팍 크드 FP16는 구현되어 있지 않다. GP104의 FP16 성능은 FP32과 마찬가지다. 그런데 같은 2-way 팍 크드 FP16는 Tegra 계열 GPU로 구현된다. Tegra 버전 Maxwell 코어에서 구현되어 있으며, 새로운 Tegra의 Pascal 코어도 상속된다. "우리는 PX2 (Tegra 기반의 자동차 용 임베디드 보드)는 GP100의 것으로 유사한 (FP16) 명령 세트를 도입하겠다"고 NVIDIA의 Alben 씨는 말한다.

　즉, NVIDIA의 GPU 계열에서는 GPU 컴퓨팅 및 모바일 / 임베디드 시장을 위해서 지그비 제품에 팍 크드 FP16를 구현하여 FP16 성능을 향상한다. 그러나 PC 그래픽 용 분야에서는 FP16 부스트되지 않는다. 단순히 내장 → PC 그래픽 → GPU 컴퓨팅과 컴퓨팅 기능이 강화되는 것이 아니라 시장에 의해 다른 구현되고 있는지 알 수있다.

　우선, GPU 컴퓨팅의 GP100에서 팍 크드 FP16가 지원되는 것은 깊은 학습을위한 것이다. 'GP100은 깊은 학습의 훈련에 사용되는 제품이다. 따라서 딥 학습에서 중요하다 반 정밀도 부동 소수점 연산 성능을 높일 필요가 있었다 "고 Alben 씨는 말한다.

　딥 학습에서는 엄청난 콤보 류 셔널 신경망의 연산 속도를 위해 데이터의 양을 억제하는 방향으로 향하고있다. FP16도 충분한 정밀도를 얻을 수 있다는 것이 현재의 공통 인식되고 있으며, 따라서 FP16가 많이 사용되고있다. GP100은 이러한 흐름에 대응하기 위해 FP16를 배 성능을 향상했다.

　반면 PC 게임의 그래픽은 FP16는 과거의 일이되어 있으면 NVIDIA는 본다. 픽셀 파이프에서도 FP32 단정가 표준이되고 있기 때문에 비용을 들여 구현할 필요가 없다고 판단한 것 같다. "반 정밀도 부동 소수점 연산은 PC 게임에서 중요하지 않다고 판단했다. 저가형 게임 에서조차 단 정밀도 이상의 정밀도를 전제로하고 있기 때문이다 .GeForce 구현하지 않은 것은 그 때문이다"(Alben 씨).

임베디드의 Tegra도 FP16 반 정도를 강화

　그런데 모바일 및 임베디드된다고 이야기가 달라진다. 이러한 분야에서는 메모리 대역폭 및 오프 칩 인터페이스의 전력 소비를 억제하기 위해 FP16가 여전히 사용되고있다. 거기에 향한 Tegra는 "OpenGL ES에서도 낮은 정확도가 지원되는대로 FP16 성능이 필요하다고 판단했다"(Alben 씨)라고한다. 이것은 모바일 계 GPU에 공통된 인식에서 Imagination Technologies의 PowerVR Series6 (Rogue)도 처음에는 FP16의 경로를 만들어 않았지만, 현재는 FP16는 FP32의 배의 성능이다.

　또한 내장에서 FP16의 강화는 내장에 깊은 학습이 중요한 측면이있다. 깊은 학습을 통한 인식 처리에 사용되는 사례가 앞으로 늘어날 것으로 예상되기 때문이다. 딥 학습은 방대한 컴퓨팅 자원으로 행하는 「교육 (training) "페이즈에서 신경망 모델을 구축. 그 모델을 사용하여 자동차 등의 기기로 인식하는 '추론 (inference) "페이즈를 실현한다. 교육은 데이터 센터에서 행하지 만, 추론은 임베디드 디바이스에서 행한다. 추론도 나름대로의 데이터 량하므로 내장 GPU에서도 FP16 반 정도가 유효하다.

깊은 학습의 2 개의 페이즈

　NVIDIA는 이처럼 GPU는 연산 경로의 마이크로 아키텍처도 변경하고있다. 그러나 프로그램 성에서의 호환성은 유지하고 NVIDIA는 강조한다. 예를 들어, GP100에서 FP64 (64-bit 정밀도) 부동 소수점 연산은 FP32의 2 분의 1로 높은 성능 비율이다. 이에 대해 GP104에서 FP64는 FP32의 3??2 분의 1의 성능이지만, 그래도 명령어 세트 수준의 호환성은 유지되고있다.

　FP16도 컴파일러 수준에서 유지되고있어한다. NVIDIA GPU는 SIMT (Single Instruction, Multiple Thread) 아키텍처에서 32-way의 스레드가 각각 마스크 레지스터에 의한 프레디 케이션에 의해 의사 적으로 분기하고 같이 취급 할 수있다. 그러나 팍 크드 FP16 부분은 프레디 케이션은 적용되지 않는다. 2 개의 FP16 연산은 같은 스레드의 내부된다. 스레드의 명령 스트림에서 FP16를 컴파일시에 팩하는 방법이 일반적이라고한다.

GP104에서만 추가 된 형상

　그래픽 기능은 GP100에 GP104 분들이 진행되고있다. GP104은 동시 테니 아스 멀티 프로젝션 그래픽 선점 제거 동기식 컴퓨팅 동적로드 밸런싱의 새로운 기능이 탑재되어있다. 모두 그래픽 기능을 확장 시키거나 그래픽과 컴퓨팅의 2 개의 처리를 섞어 경우에 중요하다 기능이다. 이러한 차이는 제품 시장마다 전문화이기도하지만, 개발시기의 차이도 영향을주고 있다고한다.

동시 테니 아스 멀티 프로젝션 GP104에서 처음 구현

그래픽 스타스쿠과 컴퓨팅 작업의 동적로드 밸런싱은 GP104

그래픽 선점도 GP100에없는 기능

　"동시 테니 아스 멀티 프로젝션을 GP100에서 구현되지 않은 것은 단순히 GP100 쪽이 먼저 개발 된 사정도있다. 우리는 일반적으로 GPU의 기능을 최대한 동일하게 가까이 유지하려고하고있다 그러나 동시 테니 아스 멀티 프로젝션의 경우에는 개발시기의 차이도 있고, GP100은 구현하지 못했다 "(Alben 씨).

　동시 테니 아스 멀티 프로젝션 응용 프로그램의 개발에 크게 영향을주는 기능이기 때문에 미래의 하이 엔드 GPU에서 지원되는 것으로 보인다.

　메모리도 GPU 컴퓨팅의 GP100이 HBM2 그래픽 GP104이 GDDR5X와 엇갈 렸다. 이것은 경제성 때문이다.

　"주의 할 것은 우리가 모두 (HBM 계와 GDDR 계)의 메모리 기술을 원하고 있으며, 그 모두에서 최신 기술을 사용하려고하고있는 것이다 .GDDR5X는 GDDR5의 자연적인 진화이며, 따라서 경제적으로 효율적인 메모리가되고있다. 이에 대해 HBM2은 경제성에 미치지 못하지만 최고의 메모리 대역을 실현 해주는 .HPC의 세계에서, 우리는 가능한 최고의 기술을 제공하려고하고있다. 따라서 HBM 계 메모리를 사용하고 싶다고 생각하고있다 "(Alben 씨).

　HBM 계 메모리는 DRAM 측에 실리콘 관통 비아 (TSV : Through Silicon Via) 기술이 필요하며, 이외에 GPU 다이와 DRAM 스택의 아래에 실리콘 인터 포저를 설치할 필요가있다. 어셈블리를 포함하여 제조 비용이 상대적으로 높다. GDDR5X도 구현이 어려운 기술이지만, HBM2에 비해 비용면에서 저렴하다. HBM2에서 얻을 수있는 대역폭과 저전력을 비용과 저울 걸면 하이미도루 GPU 이하의 제품은 GDDR5X에 정착했다는 것이다.

DRAM의 대역폭과 전송 속도

　인터페이스는 NVLink도 GP100 만의 기능이다. NVIDIA는 GP104에 SLI 기능을 갖게 칩 간 커넥터 SLI 브릿지도 쇄신했다. 그러나 SLI 인터페이스에 NVLink은 채용하지 않았다. Alben 씨는 "NVLink는 엄청난 칩 간의 대역폭을 얻을 수있다. 그러나 SLI 브릿지는 그 때까지의 대역은 필요로하지 않는다"고 설명한다. 물론 매우 빠른 인터페이스 NVLink 브릿지 사용한다는 것 자체가 어렵다는 사정도있다.

🗨️ 댓글 달기...

✔ 에디터 모드 ✔ 텍스트 모드

지금 익명게시판에 로그인해서 자유롭게 자신의 의견을 남기고, 다른 사람들과 기분 좋게 소통해봐요!
Log in to the anonymous board now and share your thoughts freely, while enjoying positive interactions with others!

전체

쓰기

List of Articles
번호	분류	제목	날짜	조회 수
공지	사진📸	사랑LOVE 포인트 만렙! 도전	2025.03.19	4624
공지	안내	🚨(뉴비필독) 전체공지 & 포인트안내 2	2024.11.04	25844
공지	System	URL만 붙여넣으면 끝! 임베드 기능	2025.01.21	20427
375587	유머	SKT 해킹 2차 조사 결과 요약.jpg 2	2025.05.20	29
375586		민주당 울산시당 선대위 전은수!!	2025.05.20	28
375585	유머	나락 가는 닛산 공장폐쇄 검토	2025.05.20	32
375584	유머	악동뮤지션 수현 근황 3	2025.05.20	33
375583		이준석, 긴급 기자회견 “나와 이재명 일대일 구도돼야…김문수론 이길 수 없어” 2	2025.05.20	29
375582	유머	신입아 너의 기종은 궁금하지 않단다. 3	2025.05.20	31
375581		배달의 민족 한국서만 고혈 착취- "배달 없이 포장만 받습니다" 뿔난 자영업자, 이유 들어보니	2025.05.20	32
375580		알뜰 요금제 다들 얼마 쓰고 계세요? 3	2025.05.20	39
375579		Spc 브랜드 정리 2	2025.05.20	33
375578		spc에서 또 사망사고가 났네요.. 2	2025.05.20	39
375577		(뉴스)우리 아파트서 갑질을 해요? 분노한 고등학생	2025.05.20	31
375576	유머	난 누가봐도 30대 넘는 여자가 술담배 사도 신분증 요구함.jpg 2	2025.05.20	38
375575	유머	대구 청년의 한 맺힌 호소	2025.05.20	29
375574	유머	실시간 빌 클린턴 근황 .jpg 2	2025.05.20	36
375573	유머	한국인이 뽑은 튀김의 왕.jpg 2	2025.05.20	36
375572	유머	결정사에 나온 몸에 타투있는 30대초 미녀PD.jpg 3	2025.05.20	36
375571	유머	한중일 현금 차이.jpg 2	2025.05.20	26
375570	유머	유튜버 누드 사진 퍼나르고 품평, 여초카페서 2차 가해.jpg 2	2025.05.20	25
375569	유머	1호선 사이버사이코 출현.jpg 2	2025.05.20	31
375568	유머	인간이 수영 못 한다고 생각한 '물범'류 甲 2	2025.05.20	31
375567	유머	남자가 잘 생기면 가능한 것 2	2025.05.20	31
375566	유머	선거집회에 권총차고 다니는 또라이 3	2025.05.20	31
375565	유머	중소기업 16년 다닌썰 2	2025.05.20	32
375564	유머	주차응징.jpg	2025.05.20	28
375563	유머	MCU 엑스맨 '스톰' 역으로 캐스팅 유력한 여배우 ㄷㄷㄷ 2	2025.05.20	32
375562	유머	한국 다신 안 온다” 중국인들 분노 폭발…제주도에서 무슨 일이 2	2025.05.20	33
375561	유머	간호학과 오피녀의 자랑and최후 1	2025.05.20	26
375560		펨코 금쪽이들 신났넼ㅋㅋ 2	2025.05.20	39
375559	잡담	[영화] 현재 한국 영화계 상황 ㄷㄷㄷㄷㄷ 2	2025.05.20	33
375558	일반	AI로 만든 자작곡 올렸다가 유튜브 계정 삭제당함… 뭐가 문제였는지 정리해봄	2025.05.19	42

쓰기

전체

단축키

단축키

공통 아키텍처에 통합하면서 구현 분화시키는

GP100은 깊은 학습을 위해 FP16를 배 성능 화

임베디드의 Tegra도 FP16 반 정도를 강화

GP104에서만 추가 된 형상

전체

검색

로그인