Tech News

제목테슬라의 프로젝트 Dojo 오버뷰2021-08-25 09:48
작성자 Level 10

https://perspectives.mvdirona.com/2021/08/tesla-project-dojo-overview/ 

AWS VP인 James Hamilton의 글

- Dojo 머신러닝 시스템은 3가지 측면에서 흥미로움

1. 대규모 네트워크

ㅤ→ 각 D1칩이 16,000Gbps(4Tbps 4채널) 네트워킹을 제공하고, 25칩 MCM(Multi-Chip Modules)로 결합되어 36,000Gbps(4x 9Tb) 대역폭 제공

2. 엄청 작은 메모리 대 계산 비율

ㅤ→ 각 D1칩은 354개의 기능 유닛으로, 각 유닛은 1.25메가의 SRAM만 있고 DRAM은 없으므로 D1 칩 하나에는 1기가의 절반도 안되는 메모리만 있음 (442.5Mb)

ㅤ→ 5개 단위 Rack의 끝에 큰 DRAM풀을 배치하고 컴퓨팅 랙 자체에는 DRAM이 없음

ㅤ→ 어떻게 이렇게 적은 메모리로 동작이 가능한지 생각해보면, 광대한 네트워크 대역폭과 다른 일반적인 ML학습 작업보다 훨씬 적게 메모리를 사용하는 비젼 모델을 실행하도록 설계된 시스템 조합일 것

3. 엄청난 전력 밀도

ㅤ→ 각 D1칩은 400W만 소모하며, 이건 이 크기에선 최신 수준의 예상치와 같지만, 이걸 상당히 조밀한 25칩 MCM에 결합해서 15kw(D1의 10kw 및 전압조정기의 5kw)만 소모하도록 했음

ㅤ→ 이러면 꽉 채워진 10랙 Dojo 훈련 시스템이 1.8 메가와트 임

ㅤ→ 규모의 관점에서 보면 중간 규모의 데이터 센터는 30~40메가 와트 범위에서 운영 될 것


- 사소한 부분 이긴 하지만, VRD(Voltage Regulator Down)를 타일에 직접 놓은 것은 비정상적으로 높은 52V전원을 공급하기 위한 좋은 시도인 듯. 15Kw 전력소모를 감안해도, 52V에서도 여전히 288A를 소모

- 354개의 기능유닛이 한개의 645mm^2 D1칩에 결합. 25개의 D1칩이 트레이닝 타일이라고 하는 멀티칩 모듈을 형성하고, 12개의 트레이닝 타일이 랙을 구성하고, 10개의 랙이 Exapod를 채움.

- "상당히 혁신적인 시스템"

댓글
자동등록방지
(자동등록방지 숫자를 입력해 주세요)