컴퓨터/노트북/인터넷
IT 컴퓨터 기기를 좋아하는 사람들의 모임방
TSMC의 CoWoS 기술을 사용하여 HBM2을 패키지에 통합
NVIDIA는 지난 주 미국 산호세에서 주최 한 'GTC (GPU Technology Conference)'에서 차세대 GPU "Pascal (파스칼)"의 HBM (High Bandwidth Memory) 2에 대한 개요를 밝혔다. 메모리 대역폭은 720GB / sec (ECC Error Correcting Code)도 지원된다.
HBM은 고성능 그래픽으로는 GDDR5의 후속 메모리 기술이다. 매우 넓은 메모리 인터페이스를 사용하여 초 광대역 메모리를 실현한다. HBM 계 메모리는 Through Silicon Via (TSV) 기술과 마이크로 범프 기술을 사용하여 DRAM 다이를 적층한다. DRAM 다이의 최하층에는 베스다이가 배치되어 베스다이와 각 DRAM 다이와 DRAM 다이 끼리는 TSV와 마이크로 범프에서 수직 연결된다.
메모리 및 패키지 "CoWoS with HBM2"고 기술되어있다
중앙 NVIDIA 로고 다이가 GPU 그 주위의 4 개의 모듈이 4 대를 막힌 HBM2
Pascal GP100는 GPU 다이 베스다이는 TSMC의 "CoWoS (Chip-On-Wafer-On-Substrate) '기술을 통해 연결된다. CoWoS는 TSV 실리콘 인터 포저를 사용하여 복수의 제 1 패키지에 통합하는 기술이다. GPU와 HBM 모듈 간의 데이터 버스는 024-bit 폭. 128-bit 폭의 채널을 8 채널 묶은 인터페이스가있다. GP100은 총 4 모듈을 연결하기위한 데이터 버스는 총 4,096-bit된다. 메모리 채널은 총 32 채널 (슈 드 메모리 채널에서 64)가된다.
SK hynix는 GTC (GPU Technology Conference) 전시장에서 HBM을 전시
GTC의 회장 인 San Jose McEnery Convention Center
AMD의 HBM1에 이어 NVIDIA는 2 세대 HBM2를 채용
HBM은 AMD의 Radeon R9 Fury (Fiji)가 지난해 (2015 년) 여름에 처음으로 채용했다. Fiji가 채용 한 것은 1 세대 HBM1. 반면 NVIDIA가 GP100에서 사용하는 것은 2 세대 HBM2이다. 모두 HBM 4 모듈 사용 인터페이스는 096-bit 폭. 그러나 Fiji의 HBM1는 전송 속도가 1Gbps에서 512GB / sec의 메모리 대역 인 반면, GP100의 HBM2는 1.44Gbps에서 720GB / sec의 메모리 대역을 실현하고있다.
메모리의 전송 속도와 대역폭의 차트
Maxwell 기반의 Tesla M40 (GM200), Kepler의 Tesla K40 (GK110) 모두 GDDR5 메모리 대역폭은 288GB / sec. GP100의 메모리 대역은 2.5 배가된다. 같은 GM200에도 그래픽 용 제품의 "GeForce GTX Titan X '는 336GB / sec의 대역이므로 Tesla P100은 약 2.14 배가된다.
그러나 HBM은 대역뿐만 아니라 대역폭 당 에너지가 작다는 장점도있다. GDDR5는 비트 당 에너지가 18 ~ 22pj (피코 모듈, pj / bit) 인 반면, HBM은 6 ~ 7pj / bit. 따라서 대역을 펼쳐도 전력은 억제된다. 즉, HBM 아니면 그냥 광대역을 일정한 전력으로 얻을 수 없다.
더 넓은 메모리 대역폭 버전의 GP100의 등장 가능성도
HBM2는 스펙에서 2Gbps의 전송 속도까지 가능하다. 선별하면 2Gbps 이상에서도 작동 가능하다고한다. 따라서 향후 GP100 계 제품에서는 메모리 대역폭은 더 벌어 질 것으로 보인다. 지금까지의 예에서는 Tesla 시스템은 메모리의 안정적인 동작을 중시하기 때문에 GeForce 계열보다 메모리 전송 속도가 낮게 설정되어있다. GP100의 그래픽 용 GeForce 버전에서는 같은 GP100에도 메모리 전송 속도가 향상 될 수있다.
HBM 아키텍처
HBM은 베스다이과 그 위에 적층 된 DRAM 다이로 구성된 모듈로 제공된다. DRAM 다이 스택은 2-hi (2 대), 4-hi (4 대), 8-hi (8 대)의 3 가지 종류로 제공된다. HBM2는 1 대당 2 채널 또는 4 채널. 따라서 2 채널에서 4 채널에서도 동일한 피크 대역폭을 제공한다. 8 다이 스택의 경우는 2 순위 구성된다.
HBM1는 SK hynix 만 제조하고 다이 당 DRAM의 용량은 2G-bit이었다. 따라서 4 개의 다이를 스택하여 4-Hi 스택을 4 모듈 사용 Fiji의 메모리 용량은 4GB이었다. 반면 HBM2는 칩 당 DRAM의 표준 용량 8G-bit된다. Tesla P100은 4 개의 DRAM 다이의 4-Hi 스택을 사용하고있다. 메모리 용량은 4-Hi 스택을 4 모듈에서 16GB. 향후 등장 할 것이다, 8 대 8-Hi 스택 버전의 경우 32GB가된다. 그래픽은 이만큼의 용량은 잔인하지만 HBM2 자체는 2 대에서도 동일한 메모리 대역폭을 유지할 수있다. 8GB의 저비용 구성도 가능하다.
2G-bit의 HBM1와 8G-bit의 HBM2 용량의 차이
실리콘 인터 포저를 사용 새로운 패키징 기술
HBM2와 GPU는 아래의 그림과 같이 접속기에 타고있다. 그림에서 실리콘 경력과 보인 것이 그 것이다. 실리콘 경력은 TSV 기술을 사용하고 있으며, 다이는 웨이퍼 신 닝 (wafer thinning) 과정에서 박막화되어있다. 실리콘 캐리어의 윗면은 마이크로 범프로 GPU와 HBM에 밑면은 C4 범프로 기판과 연결한다.
GP100과 HBM2의 단면도
TSMC의 CoWoS 기술
위의 단면 사진의 왼쪽이 HBM2 스택이다. 최하층의 가로로 긴 대화가 기반 로직 다이이다. 그 위에 3 층으로되어있는 것이 HBM2의 DRAM 다이. 4 층째의 DRAM 다이는 위의 스페이서와 붙어 있기 때문에 구별 할 수 없다. 스페이서에 의해 HBM의 적층 다이 수가 몇 장이라도 같은 720um 두께에 정렬된다.
Samsung 의한 스택의 단면 사진
다이 스택 수에 관계없이 스페이서에 의해 모듈의 높이가 720μm으로 가지런 히
이 단면도에서 상단의 다이가 스페이서와 접하고있는 것을 알 수있다
생산이 시작한지 얼마 안된 HBM2가 GP100의 출하량을 결정
이번에 발표 된 Tesla P100 (GP100)는 Samsung의 HBM2을 사용하고있다. Samsung는 올해 (2016 년) 전반에서 HBM2의 양산을 시작하고있다. 그러나 신 DRAM의 양산은 일반적으로 제한된 양으로 시작하여 학습 곡선이 높아짐에 따라 볼륨을 늘려 간다. 이번에는 이외에 TSV 스태킹이기 때문에 "known good stacked die (KGSD)"의 제조 공정을 확립 해 나갈 필요도있다. 있는 JEDEC 관계자는 HBM2가 높은 볼륨에서 사용할 수있게되는 것은 2017 년에 들어 와서, 그리고 이전 말하고 있었다. Samsung가 앞당겨 양산을 진행하고 있지만 원래는 HBM2 출하량은 어느 정도 제한 될 것으로 예상된다.
GP100를 생산하는 TSMC의 16nm FinFET 공정 자체는 이미 양산에서 어느 정도의 시간이 지났고 제조 리스크가 작다. 반면 HBM2 빠듯한 타이밍에 채용되고있다. 그래서인지 GTC의 키 노트 연설에서, NVIDIA의 Jen-Hsun Huang (젠슨 황) 씨 (Co-founder, President and CEO)의 설명도 다음과 같은 것이었다.
"(Tesla P100의) 제조 지금 행하고있다."즉시 "출하 할 것이다. 처음에는 클라우드 용으로 제공 한 후 내년 1 분기까지는 OEM에서 출하된다."
Tesla P100은 내년 (2017 년)에서 OEM에서 제공되는
Tesla P100은 올해 (2016 년) 가득은 한정된 고객들된다. 아마도 Tesla P100의 발목을 잡는 물질이 HBM2의 양산이다. HBM2은 2 순위에서 8-Hi 스택도 가능하지만, 32GB 메모리 버전의 GP100 보드의 제공은 내년 (2017 년)이 될 것이다.
젠슨 황 (Jen-Hsun Huang) 공동 설립자 겸 CEO)
총 32 메모리 채널을 제어하는 8 개의 메모리 컨트롤러
HBM 표준은 각 스택마다 024-bit 인터페이스에서 128-bit 채널 8 채널 포함한다. HBM2는 128-bit의 채널을 더욱 분할하여 두 개의 스 드 채널 (pseudo channels)로 사용할 수있다. GP100은 4 개의 HBM2 스택을 사용한다. 따라서 메모리 채널 32 채널 64 슈 드 채널이된다.
반면 GP100의 메모리 컨트롤러는 총 8 컨트롤러. 각 컨트롤러는 4 채널 또는 8 스 드 채널의 채널을 제어하게된다. 즉, 2 개의 메모리 컨트롤러 1 개 HBM2 스택을 제어하고있다. 이 구성에서 HBM2 다 메모리 채널을 효율적으로 제어 할 수 있는지 여부는 실제 칩이 나올 때까지는 아직 모르겠다.
스택 당 8 채널 / 16 슈 드 채널
2 개의 메모리 컨트롤러가 1 스택을 제어하는
ECC 프리를 실현하는 1Gbits의 엑스트라 비트를 탑재
Tesla P100은 ECC (Error Correcting Code) 자유를 구가하고있다. 온칩 메모리 ECC는 물론, 외부 메모리의 ECC도 성능 및 용량의 페널티없이 실현할 수 있다는 뜻이다. 사실 이것도 HBM2 기능을 통해 실현되고있다.
GDDR5는 ECC에는 비용이 필요했다. GDDR5는 ECC 지원을 위해 메모리 용량의 일부를 ECC bits에 할애해야만했다. NVIDIA에 따르면, GK110 Kepler GPU에서 12GB GDDR5 메모리의 경우 6.25 % 인 750MB를 ECC에 할애했다. GDDR5는 ECC를위한 엑스트라 다이는 탑재하지 않은 때문이다. 또한 ECC bits 액세스를 위해 메모리 대역폭도 다소 먹히는하게된다.
그런데 HBM2은 옵션에서 ECC를 지원한다. HBM2의 DRAM 다이는 Samsung와 SK hynix 함께 표준 용량이 8Gbits이다. 그러나 모두 ECC 지원을 위해 추가 1Gbits 분의 메모리를 탑재하고있다. 따라서 ECC를 사용하더라도 8Gbit에서 용량이 깎인 없다. 기존의 DRAM처럼 ECC bits 분의 다이를 늘리는 것은 HBM 아키텍처는 어렵고, 또한 GDDR5처럼 용량을 깎는 것도 피하고 싶었다위한 것으로 보인다.
Samsung는 9Gbits 다이에 탑재하고있다
SK hynix의 HBM2 스펙. 각 다이는 1Gbits의 ECC 셀을 포함 9Gbits이 구현되어있는
NVIDIA도 12.5 %의 ECC 용량을 HBM2에 갖게라고 설명하고있다
또한 HBM2에서는 ECC bits 액세스하여 메모리 대역폭도 깎일 수 없다. JEDEC 표준에서는 HBM2에서는 각 채널의 데이터 버스는 128-bit 폭이지만 ECC를 사용하는 경우 각 채널에 16-bit의 ECC 체크 비트 액세스 버스가 사용된다. 메인 데이터 버스는 사용하지 않으므로 데이터 대역폭은 유지된다.
JEDEC의 HBM 규격은 원래 AMD와 SK hynix가 중심이되어 책정했다. 그러나 HBM2에서 NVIDIA와 Intel이 개발에 적극적으로 참가하고 양사가 원하는 기능을 담았다. ECC 기능도 NVIDIA가 강하게 원했던 기능이었다고한다. HBM1을 보았다 NVIDIA는 HBM2에서 채용했다. 그러나 HBM2와 Pascal 타이밍은 실제로 약간 어긋나있다. 당분간은, NVIDIA는 HBM2의 공급에 고통을 것 같다.