컴퓨터/노트북/인터넷

IT 컴퓨터 기기를 좋아하는 사람들의 모임방

쓰기

🕰️ 2016.04.14 15:21

NVIDIA가 차세대 GPU "Pascal"의 HBM2 아키텍처 정보

잭팟

조회 수 1913 추천 수 0 댓글 0

단축키

Prev이전 문서

Next다음 문서

수정 삭제

단축키

Prev이전 문서

Next다음 문서

수정 삭제

TSMC의 CoWoS 기술을 사용하여 HBM2을 패키지에 통합

　NVIDIA는 지난 주 미국 산호세에서 주최 한 'GTC (GPU Technology Conference)'에서 차세대 GPU "Pascal (파스칼)"의 HBM (High Bandwidth Memory) 2에 대한 개요를 밝혔다. 메모리 대역폭은 720GB / sec (ECC Error Correcting Code)도 지원된다.

　HBM은 고성능 그래픽으로는 GDDR5의 후속 메모리 기술이다. 매우 넓은 메모리 인터페이스를 사용하여 초 광대역 메모리를 실현한다. HBM 계 메모리는 Through Silicon Via (TSV) 기술과 마이크로 범프 기술을 사용하여 DRAM 다이를 적층한다. DRAM 다이의 최하층에는 베스다이가 배치되어 베스다이와 각 DRAM 다이와 DRAM 다이 끼리는 TSV와 마이크로 범프에서 수직 연결된다.

메모리 및 패키지 "CoWoS with HBM2"고 기술되어있다

중앙 NVIDIA 로고 다이가 GPU 그 주위의 4 개의 모듈이 4 대를 막힌 HBM2

　Pascal GP100는 GPU 다이 베스다이는 TSMC의 "CoWoS (Chip-On-Wafer-On-Substrate) '기술을 통해 연결된다. CoWoS는 TSV 실리콘 인터 포저를 사용하여 복수의 제 1 패키지에 통합하는 기술이다. GPU와 HBM 모듈 간의 데이터 버스는 024-bit 폭. 128-bit 폭의 채널을 8 채널 묶은 인터페이스가있다. GP100은 총 4 모듈을 연결하기위한 데이터 버스는 총 4,096-bit된다. 메모리 채널은 총 32 채널 (슈 드 메모리 채널에서 64)가된다.

SK hynix는 GTC (GPU Technology Conference) 전시장에서 HBM을 전시

GTC의 회장 인 San Jose McEnery Convention Center

AMD의 HBM1에 이어 NVIDIA는 2 세대 HBM2를 채용

　HBM은 AMD의 Radeon R9 Fury (Fiji)가 지난해 (2015 년) 여름에 처음으로 채용했다. Fiji가 채용 한 것은 1 세대 HBM1. 반면 NVIDIA가 GP100에서 사용하는 것은 2 세대 HBM2이다. 모두 HBM 4 모듈 사용 인터페이스는 096-bit 폭. 그러나 Fiji의 HBM1는 전송 속도가 1Gbps에서 512GB / sec의 메모리 대역 인 반면, GP100의 HBM2는 1.44Gbps에서 720GB / sec의 메모리 대역을 실현하고있다.

메모리의 전송 속도와 대역폭의 차트

　Maxwell 기반의 Tesla M40 (GM200), Kepler의 Tesla K40 (GK110) 모두 GDDR5 메모리 대역폭은 288GB / sec. GP100의 메모리 대역은 2.5 배가된다. 같은 GM200에도 그래픽 용 제품의 "GeForce GTX Titan X '는 336GB / sec의 대역이므로 Tesla P100은 약 2.14 배가된다.

　그러나 HBM은 대역뿐만 아니라 대역폭 당 에너지가 작다는 장점도있다. GDDR5는 비트 당 에너지가 18 ~ 22pj (피코 모듈, pj / bit) 인 반면, HBM은 6 ~ 7pj / bit. 따라서 대역을 펼쳐도 전력은 억제된다. 즉, HBM 아니면 그냥 광대역을 일정한 전력으로 얻을 수 없다.

더 넓은 메모리 대역폭 버전의 GP100의 등장 가능성도

　HBM2는 스펙에서 2Gbps의 전송 속도까지 가능하다. 선별하면 2Gbps 이상에서도 작동 가능하다고한다. 따라서 향후 GP100 계 제품에서는 메모리 대역폭은 더 벌어 질 것으로 보인다. 지금까지의 예에서는 Tesla 시스템은 메모리의 안정적인 동작을 중시하기 때문에 GeForce 계열보다 메모리 전송 속도가 낮게 설정되어있다. GP100의 그래픽 용 GeForce 버전에서는 같은 GP100에도 메모리 전송 속도가 향상 될 수있다.

HBM 아키텍처

　HBM은 베스다이과 그 위에 적층 된 DRAM 다이로 구성된 모듈로 제공된다. DRAM 다이 스택은 2-hi (2 대), 4-hi (4 대), 8-hi (8 대)의 3 가지 종류로 제공된다. HBM2는 1 대당 2 채널 또는 4 채널. 따라서 2 채널에서 4 채널에서도 동일한 피크 대역폭을 제공한다. 8 다이 스택의 경우는 2 순위 구성된다.

　HBM1는 SK hynix 만 제조하고 다이 당 DRAM의 용량은 2G-bit이었다. 따라서 4 개의 다이를 스택하여 4-Hi 스택을 4 모듈 사용 Fiji의 메모리 용량은 4GB이었다. 반면 HBM2는 칩 당 DRAM의 표준 용량 8G-bit된다. Tesla P100은 4 개의 DRAM 다이의 4-Hi 스택을 사용하고있다. 메모리 용량은 4-Hi 스택을 4 모듈에서 16GB. 향후 등장 할 것이다, 8 대 8-Hi 스택 버전의 경우 32GB가된다. 그래픽은 이만큼의 용량은 잔인하지만 HBM2 자체는 2 대에서도 동일한 메모리 대역폭을 유지할 수있다. 8GB의 저비용 구성도 가능하다.

2G-bit의 HBM1와 8G-bit의 HBM2 용량의 차이

실리콘 인터 포저를 사용 새로운 패키징 기술

　HBM2와 GPU는 아래의 그림과 같이 접속기에 타고있다. 그림에서 실리콘 경력과 보인 것이 그 것이다. 실리콘 경력은 TSV 기술을 사용하고 있으며, 다이는 웨이퍼 신 닝 (wafer thinning) 과정에서 박막화되어있다. 실리콘 캐리어의 윗면은 마이크로 범프로 GPU와 HBM에 밑면은 C4 범프로 기판과 연결한다.

GP100과 HBM2의 단면도

TSMC의 CoWoS 기술

　위의 단면 사진의 왼쪽이 HBM2 스택이다. 최하층의 가로로 긴 대화가 기반 로직 다이이다. 그 위에 3 층으로되어있는 것이 HBM2의 DRAM 다이. 4 층째의 DRAM 다이는 위의 스페이서와 붙어 있기 때문에 구별 할 수 없다. 스페이서에 의해 HBM의 적층 다이 수가 몇 장이라도 같은 720um 두께에 정렬된다.

Samsung 의한 스택의 단면 사진

다이 스택 수에 관계없이 스페이서에 의해 모듈의 높이가 720μm으로 가지런 히

이 단면도에서 상단의 다이가 스페이서와 접하고있는 것을 알 수있다

생산이 시작한지 얼마 안된 HBM2가 GP100의 출하량을 결정

　이번에 발표 된 Tesla P100 (GP100)는 Samsung의 HBM2을 사용하고있다. Samsung는 올해 (2016 년) 전반에서 HBM2의 양산을 시작하고있다. 그러나 신 DRAM의 양산은 일반적으로 제한된 양으로 시작하여 학습 곡선이 높아짐에 따라 볼륨을 늘려 간다. 이번에는 이외에 TSV 스태킹이기 때문에 "known good stacked die (KGSD)"의 제조 공정을 확립 해 나갈 필요도있다. 있는 JEDEC 관계자는 HBM2가 높은 볼륨에서 사용할 수있게되는 것은 2017 년에 들어 와서, 그리고 이전 말하고 있었다. Samsung가 앞당겨 양산을 진행하고 있지만 원래는 HBM2 출하량은 어느 정도 제한 될 것으로 예상된다.

　GP100를 생산하는 TSMC의 16nm FinFET 공정 자체는 이미 양산에서 어느 정도의 시간이 지났고 제조 리스크가 작다. 반면 HBM2 빠듯한 타이밍에 채용되고있다. 그래서인지 GTC의 키 노트 연설에서, NVIDIA의 Jen-Hsun Huang (젠슨 황) 씨 (Co-founder, President and CEO)의 설명도 다음과 같은 것이었다.

　"(Tesla P100의) 제조 지금 행하고있다."즉시 "출하 할 것이다. 처음에는 클라우드 용으로 제공 한 후 내년 1 분기까지는 OEM에서 출하된다."

Tesla P100은 내년 (2017 년)에서 OEM에서 제공되는

　Tesla P100은 올해 (2016 년) 가득은 한정된 고객들된다. 아마도 Tesla P100의 발목을 잡는 물질이 HBM2의 양산이다. HBM2은 2 순위에서 8-Hi 스택도 가능하지만, 32GB 메모리 버전의 GP100 보드의 제공은 내년 (2017 년)이 될 것이다.

젠슨 황 (Jen-Hsun Huang) 공동 설립자 겸 CEO)

총 32 메모리 채널을 제어하는 8 개의 메모리 컨트롤러

　HBM 표준은 각 스택마다 024-bit 인터페이스에서 128-bit 채널 8 채널 포함한다. HBM2는 128-bit의 채널을 더욱 분할하여 두 개의 스 드 채널 (pseudo channels)로 사용할 수있다. GP100은 4 개의 HBM2 스택을 사용한다. 따라서 메모리 채널 32 채널 64 슈 드 채널이된다.

　반면 GP100의 메모리 컨트롤러는 총 8 컨트롤러. 각 컨트롤러는 4 채널 또는 8 스 드 채널의 채널을 제어하게된다. 즉, 2 개의 메모리 컨트롤러 1 개 HBM2 스택을 제어하고있다. 이 구성에서 HBM2 다 메모리 채널을 효율적으로 제어 할 수 있는지 여부는 실제 칩이 나올 때까지는 아직 모르겠다.

스택 당 8 채널 / 16 슈 드 채널

2 개의 메모리 컨트롤러가 1 스택을 제어하는

ECC 프리를 실현하는 1Gbits의 엑스트라 비트를 탑재

　Tesla P100은 ECC (Error Correcting Code) 자유를 구가하고있다. 온칩 메모리 ECC는 물론, 외부 메모리의 ECC도 성능 및 용량의 페널티없이 실현할 수 있다는 뜻이다. 사실 이것도 HBM2 기능을 통해 실현되고있다.

　GDDR5는 ECC에는 비용이 필요했다. GDDR5는 ECC 지원을 위해 메모리 용량의 일부를 ECC bits에 할애해야만했다. NVIDIA에 따르면, GK110 Kepler GPU에서 12GB GDDR5 메모리의 경우 6.25 % 인 750MB를 ECC에 할애했다. GDDR5는 ECC를위한 엑스트라 다이는 탑재하지 않은 때문이다. 또한 ECC bits 액세스를 위해 메모리 대역폭도 다소 먹히는하게된다.

　그런데 HBM2은 옵션에서 ECC를 지원한다. HBM2의 DRAM 다이는 Samsung와 SK hynix 함께 표준 용량이 8Gbits이다. 그러나 모두 ECC 지원을 위해 추가 1Gbits 분의 메모리를 탑재하고있다. 따라서 ECC를 사용하더라도 8Gbit에서 용량이 깎인 없다. 기존의 DRAM처럼 ECC bits 분의 다이를 늘리는 것은 HBM 아키텍처는 어렵고, 또한 GDDR5처럼 용량을 깎는 것도 피하고 싶었다위한 것으로 보인다.

Samsung는 9Gbits 다이에 탑재하고있다

SK hynix의 HBM2 스펙. 각 다이는 1Gbits의 ECC 셀을 포함 9Gbits이 구현되어있는

NVIDIA도 12.5 %의 ECC 용량을 HBM2에 갖게라고 설명하고있다

　또한 HBM2에서는 ECC bits 액세스하여 메모리 대역폭도 깎일 수 없다. JEDEC 표준에서는 HBM2에서는 각 채널의 데이터 버스는 128-bit 폭이지만 ECC를 사용하는 경우 각 채널에 16-bit의 ECC 체크 비트 액세스 버스가 사용된다. 메인 데이터 버스는 사용하지 않으므로 데이터 대역폭은 유지된다.

　JEDEC의 HBM 규격은 원래 AMD와 SK hynix가 중심이되어 책정했다. 그러나 HBM2에서 NVIDIA와 Intel이 개발에 적극적으로 참가하고 양사가 원하는 기능을 담았다. ECC 기능도 NVIDIA가 강하게 원했던 기능이었다고한다. HBM1을 보았다 NVIDIA는 HBM2에서 채용했다. 그러나 HBM2와 Pascal 타이밍은 실제로 약간 어긋나있다. 당분간은, NVIDIA는 HBM2의 공급에 고통을 것 같다.

🗨️ 댓글 달기...

✔ 에디터 모드 ✔ 텍스트 모드

지금 익명게시판에 로그인해서 자유롭게 자신의 의견을 남기고, 다른 사람들과 기분 좋게 소통해봐요!
Log in to the anonymous board now and share your thoughts freely, while enjoying positive interactions with others!

컴퓨터/노트북/인터넷

IT 컴퓨터 기기를 좋아하는 사람들의 모임방

쓰기

List of Articles
번호	분류	제목	조회 수	날짜
공지	뉴스	구글 최신 뉴스	1390	2024.12.12
HOT글	일반	아 진짜 요새 SKT 해킹 뭐시기 때문에 신경 쓰여 죽겠어 ㅠㅠ 2	240	2025.05.20
공지		🚨(뉴비필독) 전체공지 & 포인트안내 3	25863	2024.11.04
공지		URL만 붙여넣으면 끝! 임베드 기능	20435	2025.01.21
10640		Intel 12세대 i3-12100YouTube 10비트 HDR 8K60 AV1 비디오를 원활하게 재생가능? 1	4540	2024.11.10
10639		블루투스 헤드셋 질문좀~	50	2021.01.31
10638		e4000이랑 560s랑 음질차이	71	2021.01.28
10637		未检测到我的手机MTP。 1	29	2019.12.24
10636		amd 라이젠 1700 > 인텔 i5 12400f cpu 변경후 드라이브 오류 1	1122	2022.06.14
10635		윈도우 11 에러 중에 이런 종류가 있나요? 2	1085	2022.06.14
10634		마소계정에 정품인증	420	2022.06.14
10633		4k나 1080p 동영상 보면 렉이 걸리는데... 2	482	2022.06.14
10632		제가쓰던 놋북 윈도우가 리테일이래요 그러니까 fpp 윈도우라는거 맞죠?? 1	401	2022.06.14
10631		윈도우 10 왜 버벅일까요..? 1	348	2022.06.14
10630		오피스 정품 판매 맞을까요? 1	170	2022.06.14
10629		윈도우11 더 많은 옵션 항상사용하는 방법	264	2022.06.09
10628		윈도우 11 22H2 RTM 빌드 확정됨	224	2022.05.30
10627		해킹 대회에서 윈도우 11의 취약점 6개가 발견됨	237	2022.05.30
10626		ProtonMail, 통합 브랜드로 다양한 서비스를 제공	186	2022.05.30
10625		가상머신에 윈도우95 설치하기	631	2022.04.22
10624		구글 크롬 100 버전 공개	840	2022.04.04
10623		윈도우 11+다이렉트스토리지, 게임 로딩 시 CPU 부하가 최대 40% 감소	709	2022.04.04
10622		애플, 위조된 법적 증명에 속아 사용자 데이터를 제공?	640	2022.04.04
10621		윈도우 탐색기 대체 대안 프로그램 8가지	906	2022.04.04
10620		인터넷은 어떻게 작동되는지 알아보자	676	2022.04.02
10619		크롬 취약점 발견 Chrome 업데이트 빨리 해야	766	2022.03.30
10618		GPU-Z, 인텔 아크 알케미스트 그래픽 지원	148	2022.03.26
10617		아프리카 TV가 트위치보다 데이터를 훨씬 많이 쓰는군요	225	2022.03.26
10616		애플, 미국 애리조나 주에서 월렛에 신분증 기능 제공	152	2022.03.26
10615		macOS 12.3에서 외장 모니터 연결 문제, 게임 패드 연결 문제	165	2022.03.26
10614		비트코인 오브 아메리카, ATM에서 도지코인을 취급	153	2022.03.26
10613		1990년대 중후반에 나온 PowerVR PC GPU의 소스 코드 공개	159	2022.03.26
10612		NVIDIA, 삼성, MS를 해킹한 Lapsus$. 알고보니 10대 소년이 주범?	160	2022.03.26
10611		통신사 직원 수십억원 갖고 잠적	365	2022.03.26

쓰기

컴퓨터/노트북/인터넷

IT 컴퓨터 기기를 좋아하는 사람들의 모임방

단축키

단축키

TSMC의 CoWoS 기술을 사용하여 HBM2을 패키지에 통합

AMD의 HBM1에 이어 NVIDIA는 2 세대 HBM2를 채용

더 넓은 메모리 대역폭 버전의 GP100의 등장 가능성도

실리콘 인터 포저를 사용 새로운 패키징 기술

생산이 시작한지 얼마 안된 HBM2가 GP100의 출하량을 결정

총 32 메모리 채널을 제어하는 8 개의 메모리 컨트롤러

ECC 프리를 실현하는 1Gbits의 엑스트라 비트를 탑재

컴퓨터/노트북/인터넷

IT 컴퓨터 기기를 좋아하는 사람들의 모임방

검색

로그인