본문 바로가기

컴퓨터/노트북/인터넷

IT 컴퓨터 기기를 좋아하는 사람들의 모임방

조회 수 1205 추천 수 0 댓글 0

단축키

Prev이전 문서

Next다음 문서

수정 삭제

단축키

Prev이전 문서

Next다음 문서

수정 삭제
Extra Form

NVIDIA의 "Pascal"세대의 GPU 아키텍처에서 보여 온 것은, NVIDIA GPU의 통합과 분화의 방향성이다. 현재 NVIDIA는 GPU의 제품 기능을 분화시키고 통합하려고하고있다. 구체적으로는 같은 Pascal에도 "Tesla P100 (GP100)」과 「GeForce GTX 1080 (GP104)"는 GPU의 마이크로 아키텍처도 메모리, 인터페이스 회전 등의 칩 아키텍처도 다르다. 덧붙여서, AMD는 이러한 GPU 컴퓨팅 및 그래픽 각각의 분화는별로 보이지 않는다.

 

GP100의 TPC의 구조 

GP104의 SM (Streaming Multiprocessor)의 구조

 

 한편, 이전에는 전혀 다른 아키텍처이었다 Tegra 계의 통합 GPU도 공통 아키텍처로 통합되어있다. 차세대 FinFET 프로세스 버전의 Tegra는 Pascal 아키텍처의 GPU 코어를 갖추고있다. 아키텍처의 통합과 분화의 양쪽이 진행되고있다.

 구체적으로는 GP100은 GP104에 명령 유닛 당 레지스터 파일 공유 메모리 인플 Warp 수가 강화되고 NVLink 칩 간의 인터페이스로 구현하고 HBM2 광대역 메모리를 실현한다. 한편 GP100은 GP104을 대비 "Simultaneous Multi-Projection (동시?? 테니 아스 멀티 프로젝션)」나 그래픽 선점은 GP100에는 구현되어 있지 않다.

 

Simultaneous Multi-Projection

 

 이렇게 보면 NVIDIA의 GPU는 GPU 컴퓨팅에 최적화 된 아키텍처와 그래픽에 최적화 된 아키텍처를 완만하게 분화하고있는 것으로 보인다. 무엇보다, 지금까지 NVIDIA GPU는 GPU 컴퓨팅을위한 하이 엔드 GPU와 그래픽을 주목적으로 한 하이미도루 GPU 다음의 제품 구조에 차이가있을 수 있었다.

 "Fermi"아키텍쳐의 세대에서도 최상위의 GeForce GTX 480 (GF100) 계와 미들 레인지의 GeForce GTX 460 (GF104) 계에서 SM의 GPU 내부의 연산 유닛 구성과 명령 발행 등의 아키텍처의 기본 부분 이 달랐다. 또한 Kepler 세대에서도 마지막가는 GK210되면 마이크로 아키텍처가 달랐다.

 "지금까지도 아키텍처의 차이는 있었다 .Kepler는 마지막 GK210은 몇 가지 점에서 진화하고 SM (Streaming Multiprocessor)이 다르다 .GK210은 더 레지스터 파일 공유 메모리를 제공 있는 .Fermi에서도 마찬가지로 다른 아키텍처를 채용했다 "고 NVIDIA에서 GPU 개발의 지휘를 받아 Jonah Alben 씨 (Senior Vice President, GPU Engineering, NVIDIA)는 설명한다.

 무엇보다, GK210 때는 그래픽 용 GPU는 Maxwell 아키텍처로 진화했지만, HPC 전용의 FP64 성능이 높은 GPU의 진화가 남겨진 상황에 있었다. 따라서 HPC 전용에 "Kepler 개"의 필요가있어, GK210 기반의 Tesla K80을 투입했다는 사정이 있었다.

 

GPU의 다이 크기 변천

공통 아키텍처에 통합하면서 구현 분화시키는

 Pascal 세대의 차이점은 인터페이스 등 지금까지보다 GPU에 의한 차이가 퍼지고있어 차이가있는 제품의 출시시기도 근접하게되어있는 것이다. NVIDIA GPU 전체로 보면 마이크로 아키텍처가 각각의 시장에 수정 된 칩 전체의 구조도 차이가 나오고있다.

 반면 마이크로 아키텍처의 기본은 공통화가 진행되고있어 공통 아키텍처를 구현하는 타이밍 동기화하고있다. 결과적으로, 동 세대에서는 GPU 컴퓨팅의 Tesla 그래픽 GeForce, 모바일 / 임베디드 Tegra에서 GPU 마이크로 아키텍쳐가 맞도록 제작했다.

 Alben 씨는 다음과 같이 설명한다.

 "마지막으로, NVIDIA는 하나의 공통 아키텍처 모델에 겨우 도착했다. 그러나 공통 아키텍처라고해??도 거기에서 성격이 다른 칩을 파생시키고있다. 우리는 각각의 시장을 향해 다른 제품을 개발하고있다. 코어 아키텍처는 공통이지만 균형이 다른 .FP64 (64-bit) 배정 밀도 부동 소수점 연산 유닛이나 레지스터 파일, 공유 메모리 등의 균형이다.

 Tesla는 이러한 기능을 강화한 균형이 필요로되고있다. 그러나 강화하여 자원을 소비한다. 따라서 GeForce는 다른 (이 기능을 깎은) 균형하고있다. 결과적으로, NVIDIA의 GPU는 일반적이다 부분은 유지하면서 각각의 칩은 이전보다 많은 차이를 갖게하고있다. 예를 들어, GP100의 NVLink 등이 그렇다.

 그래픽 용으로 기능을 날카롭게하는 것만은 아니다. 우리는 GPU의 컴퓨팅을 수용하고있는 것에 따라, GPU는 많은 컴퓨팅 기능을 주입왔다. 동시에 그래픽으로도 VR (Virtual Reality)과 같은 새로운 기술이 오면 이러한 시장 변화에 추종 할 멋진 아이디어를 주입하고있다. "

GP100의 전체 구성

GP104의 전체 구성

GP100은 깊은 학습을 위해 FP16를 배 성능 화

 마이크로 아키텍처면에서 매우 재미있는 것은 FP16 (16-bit 반 정밀도) 부동 소수점 연산의 구현이다. GPU 컴퓨팅을 주목적으로 한 GP100에서 FP16 (16-bit 반 정밀도) 부동 소수점 연산 성능을 배가하는 2-way SIMD (Single Instruction, Multiple Data) 형의 FP16를 구현했다. 이 기능은 GP100의 FP16의 피크 성능은 FP32 (32-bit 단 정밀도) 부동 소수점 연산의 2 배가되었다.

GP100과 GP104의 스펙 비교

GP100의 팍 크드 FP16 

 

 그러나 GP100 이후에 개발 된 것 인 GP104이 2-way 팍 크드 FP16는 구현되어 있지 않다. GP104의 FP16 성능은 FP32과 마찬가지다. 그런데 같은 2-way 팍 크드 FP16는 Tegra 계열 GPU로 구현된다. Tegra 버전 Maxwell 코어에서 구현되어 있으며, 새로운 Tegra의 Pascal 코어도 상속된다. "우리는 PX2 (Tegra 기반의 자동차 용 임베디드 보드)는 GP100의 것으로 유사한 (FP16) 명령 세트를 도입하겠다"고 NVIDIA의 Alben 씨는 말한다.

 즉, NVIDIA의 GPU 계열에서는 GPU 컴퓨팅 및 모바일 / 임베디드 시장을 위해서 지그비 제품에 팍 크드 FP16를 구현하여 FP16 성능을 향상한다. 그러나 PC 그래픽 용 분야에서는 FP16 부스트되지 않는다. 단순히 내장 → PC 그래픽 → GPU 컴퓨팅과 컴퓨팅 기능이 강화되는 것이 아니라 시장에 의해 다른 구현되고 있는지 알 수있다.

 우선, GPU 컴퓨팅의 GP100에서 팍 크드 FP16가 지원되는 것은 깊은 학습을위한 것이다. 'GP100은 깊은 학습의 훈련에 사용되는 제품이다. 따라서 딥 학습에서 중요하다 반 정밀도 부동 소수점 연산 성능을 높일 필요가 있었다 "고 Alben 씨는 말한다.

 딥 학습에서는 엄청난 콤보 류 셔널 신경망의 연산 속도를 위해 데이터의 양을 억제하는 방향으로 향하고있다. FP16도 충분한 정밀도를 얻을 수 있다는 것이 현재의 공통 인식되고 있으며, 따라서 FP16가 많이 사용되고있다. GP100은 이러한 흐름에 대응하기 위해 FP16를 배 성능을 향상했다.

 반면 PC 게임의 그래픽은 FP16는 과거의 일이되어 있으면 NVIDIA는 본다. 픽셀 파이프에서도 FP32 단정가 표준이되고 있기 때문에 비용을 들여 구현할 필요가 없다고 판단한 것 같다. "반 정밀도 부동 소수점 연산은 PC 게임에서 중요하지 않다고 판단했다. 저가형 게임 에서조차 단 정밀도 이상의 정밀도를 전제로하고 있기 때문이다 .GeForce 구현하지 않은 것은 그 때문이다"(Alben 씨).

임베디드의 Tegra도 FP16 반 정도를 강화

 그런데 모바일 및 임베디드된다고 이야기가 달라진다. 이러한 분야에서는 메모리 대역폭 및 오프 칩 인터페이스의 전력 소비를 억제하기 위해 FP16가 여전히 사용되고있다. 거기에 향한 Tegra는 "OpenGL ES에서도 낮은 정확도가 지원되는대로 FP16 성능이 필요하다고 판단했다"(Alben 씨)라고한다. 이것은 모바일 계 GPU에 공통된 인식에서 Imagination Technologies의 PowerVR Series6 (Rogue)도 처음에는 FP16의 경로를 만들어 않았지만, 현재는 FP16는 FP32의 배의 성능이다.

 또한 내장에서 FP16의 강화는 내장에 깊은 학습이 중요한 측면이있다. 깊은 학습을 통한 인식 처리에 사용되는 사례가 앞으로 늘어날 것으로 예상되기 때문이다. 딥 학습은 방대한 컴퓨팅 자원으로 행하는 「교육 (training) "페이즈에서 신경망 모델을 구축. 그 모델을 사용하여 자동차 등의 기기로 인식하는 '추론 (inference) "페이즈를 실현한다. 교육은 데이터 센터에서 행하지 만, 추론은 임베디드 디바이스에서 행한다. 추론도 나름대로의 데이터 량하므로 내장 GPU에서도 FP16 반 정도가 유효하다.

깊은 학습의 2 개의 페이즈 

 NVIDIA는 이처럼 GPU는 연산 경로의 마이크로 아키텍처도 변경하고있다. 그러나 프로그램 성에서의 호환성은 유지하고 NVIDIA는 강조한다. 예를 들어, GP100에서 FP64 (64-bit 정밀도) 부동 소수점 연산은 FP32의 2 분의 1로 높은 성능 비율이다. 이에 대해 GP104에서 FP64는 FP32의 3??2 분의 1의 성능이지만, 그래도 명령어 세트 수준의 호환성은 유지되고있다.

 FP16도 컴파일러 수준에서 유지되고있어한다. NVIDIA GPU는 SIMT (Single Instruction, Multiple Thread) 아키텍처에서 32-way의 스레드가 각각 마스크 레지스터에 의한 프레디 케이션에 의해 의사 적으로 분기하고 같이 취급 할 수있다. 그러나 팍 크드 FP16 부분은 프레디 케이션은 적용되지 않는다. 2 개의 FP16 연산은 같은 스레드의 내부된다. 스레드의 명령 스트림에서 FP16를 컴파일시에 팩하는 방법이 일반적이라고한다.

GP104에서만 추가 된 형상

 그래픽 기능은 GP100에 GP104 분들이 진행되고있다. GP104은 동시 테니 아스 멀티 프로젝션 그래픽 선점 제거 동기식 컴퓨팅 동적로드 밸런싱의 새로운 기능이 탑재되어있다. 모두 그래픽 기능을 확장 시키거나 그래픽과 컴퓨팅의 2 개의 처리를 섞어 경우에 중요하다 기능이다. 이러한 차이는 제품 시장마다 전문화이기도하지만, 개발시기의 차이도 영향을주고 있다고한다.

동시 테니 아스 멀티 프로젝션 GP104에서 처음 구현

그래픽 스타스쿠과 컴퓨팅 작업의 동적로드 밸런싱은 GP104

그래픽 선점도 GP100에없는 기능

 "동시 테니 아스 멀티 프로젝션을 GP100에서 구현되지 않은 것은 단순히 GP100 쪽이 먼저 개발 된 사정도있다. 우리는 일반적으로 GPU의 기능을 최대한 동일하게 가까이 유지하려고하고있다 그러나 동시 테니 아스 멀티 프로젝션의 경우에는 개발시기의 차이도 있고, GP100은 구현하지 못했다 "(Alben 씨).

 동시 테니 아스 멀티 프로젝션 응용 프로그램의 개발에 크게 영향을주는 기능이기 때문에 미래의 하이 엔드 GPU에서 지원되는 것으로 보인다.

 메모리도 GPU 컴퓨팅의 GP100이 HBM2 그래픽 GP104이 GDDR5X와 엇갈 렸다. 이것은 경제성 때문이다.

 "주의 할 것은 우리가 모두 (HBM 계와 GDDR 계)의 메모리 기술을 원하고 있으며, 그 모두에서 최신 기술을 사용하려고하고있는 것이다 .GDDR5X는 GDDR5의 자연적인 진화이며, 따라서 경제적으로 효율적인 메모리가되고있다. 이에 대해 HBM2은 경제성에 미치지 못하지만 최고의 메모리 대역을 실현 해주는 .HPC의 세계에서, 우리는 가능한 최고의 기술을 제공하려고하고있다. 따라서 HBM 계 메모리를 사용하고 싶다고 생각하고있다 "(Alben 씨).

 HBM 계 메모리는 DRAM 측에 실리콘 관통 비아 (TSV : Through Silicon Via) 기술이 필요하며, 이외에 GPU 다이와 DRAM 스택의 아래에 실리콘 인터 포저를 설치할 필요가있다. 어셈블리를 포함하여 제조 비용이 상대적으로 높다. GDDR5X도 구현이 어려운 기술이지만, HBM2에 비해 비용면에서 저렴하다. HBM2에서 얻을 수있는 대역폭과 저전력을 비용과 저울 걸면 하이미도루 GPU 이하의 제품은 GDDR5X에 정착했다는 것이다.

DRAM의 대역폭과 전송 속도

 인터페이스는 NVLink도 GP100 만의 기능이다. NVIDIA는 GP104에 SLI 기능을 갖게 칩 간 커넥터 SLI 브릿지도 쇄신했다. 그러나 SLI 인터페이스에 NVLink은 채용하지 않았다. Alben 씨는 "NVLink는 엄청난 칩 간의 대역폭을 얻을 수있다. 그러나 SLI 브릿지는 그 때까지의 대역은 필요로하지 않는다"고 설명한다. 물론 매우 빠른 인터페이스 NVLink 브릿지 사용한다는 것 자체가 어렵다는 사정도있다.


컴퓨터/노트북/인터넷

IT 컴퓨터 기기를 좋아하는 사람들의 모임방

List of Articles
번호 분류 제목 조회 수 날짜
공지 뉴스 구글 최신 뉴스 file 1384 2024.12.12
HOT글 일반 아 진짜 요새 SKT 해킹 뭐시기 때문에 신경 쓰여 죽겠어 ㅠㅠ 2 237 2025.05.20
공지 사랑LOVE 포인트 만렙! 도전 4655 2025.03.19
공지 🚨(뉴비필독) 전체공지 & 포인트안내 2 25848 2024.11.04
공지 URL만 붙여넣으면 끝! 임베드 기능 20431 2025.01.21
10640 일반 아 진짜 요새 SKT 해킹 뭐시기 때문에 신경 쓰여 죽겠어 ㅠㅠ 2 237 2025.05.20
10639 일반 저렴한 중국산 외장 SSD의 실체 file 515 2025.05.17
10638 일반 인텔 애로우레이크의 CPU 내부 다이 모습 file 600 2025.05.10
10637 일반 스카이프, 오늘 서비스 종료 file 602 2025.05.10
10636 일반 SKT "보상 시 고객도 입증책임" file 630 2025.05.10
10635 정보 KISA, 신규 악성코드 위협 공지...SKT 내부 서버에서 ‘BPF도어’ 악성코드 변종 8종 추가 발견 577 2025.05.10
10634 일반 “SK하이닉스 내부자에 뚫렸다” 中이직 앞두고 1만여건 기술 유출 file 572 2025.05.10
10633 일반 기가바이트, 12년만에 메인보드에 새로운 기능을 추가 file 589 2025.05.10
10632 일반 SKT “위약금 면제 시 수백만명 해지… 분위기 휩쓸려 시장 대혼란” file 594 2025.05.10
10631 일반 CUDA 툴킷, 맥스웰, 파스칼, 볼타 지원 중단 596 2025.05.10
10630 일반 그래픽카드를 활용한 암호 해독 벤치마크 file 598 2025.05.10
10629 일반 애즈락 X870 스틸 레전드 메인보드에서 라이젠 9 9950X CPU가 사망 file 584 2025.05.10
10628 일반 코어 울트라 200 메인보드, PCIe 5.0 M.2 성능 제한이 있음 file 562 2025.05.10
10627 일반 시게이트, 2030년까지 100TB 하드디스크 출시 file 581 2025.05.10
10626 정보 MS가 인텔 18A 공정 계약을 체결? 1 file 596 2025.05.10
10625 정보 블루투스 6.1 발표. 전력 효율과 보안 향상 file 615 2025.05.10
10624 정보 중국 Hygon, 128코어 512스레드의 서버 프로세서 로드맵 공개 file 576 2025.05.10
10623 정보 인텔, 컴퓨텍스에서 아크 프로 B60 24GB를 발표? file 617 2025.05.10
10622 일반 지포스 RTX 5060의 리뷰용 드라이버가 없음 file 624 2025.05.10
10621 일반 젠슨황이 사인한 리바 TNT 엔지니어링 프로토타입 키트, 도시락 상자 file 565 2025.05.10
10620 일반 SSD랑 HDD 가격 요즘 진짜 헬이다… 업체들 때문에 미쳐버릴 듯 4 4657 2025.04.18
10619 일반 컴퓨터 메인보드용 ddr6 메모리는 언제나올지 찾아봤는데 594 2025.04.08
10618 일반 갤럭시탭 S10 FE 4월 3일 출시했습니다. 혜택 나쁘지 않네요 842 2025.04.05
10617 수리/AS 절대 공개하지 않는 메인보드 AS센터의 전설의 기술 1 file 926 2025.03.30
10616 수리/AS 메인보드 수리방법 가감없이 공유합니다! #shorts file 864 2025.03.30
10615 일반 라이카와 협업한 샤오미 15 울트라 실버 크롬 언박싱 971 2025.03.29
10614 일반 어도비 비정품 알림 Adobe 앱 라이선스 관련 알림창 없애기 609 2025.03.28
10613 일반 윈도우 12, 과연 등장할까? (예상 및 루머 정리) 898 2025.03.21
10612 일반 메인보드중에 고장률이 가장 낮은 회사 682 2025.03.19
10611 일반 벽 콘센트 꼽는거 구멍 위치가 정해져있었네 file 1440 2025.03.14
Board Pagination Prev 1 2 3 4 5 6 7 8 9 10 ... 355 Next
/ 355