Google은 TPU v4가 Nvidia A100보다 성능이 뛰어나다고 주장합니다. - 심천 코스트와이즈 솔루션(Shenzhen Coastwise Solutions Inc.)

제이미 햄튼

2023년 4월 6일

Google의 새로운 과학 논문에서는 Cloud TPU v4 슈퍼컴퓨팅 플랫폼의 성능을 자세히 설명하며 향상된 효율성으로 기계 학습을 위한 엑사스케일 성능을 제공한다고 주장합니다.

연구 논문의 저자는 TPU v4가 유사한 크기의 시스템에서 Nvidia A100보다 1.2배~1.7배 더 빠르며 1.3배~1.9배 더 적은 전력을 사용한다고 주장합니다. 논문에서는 Google이 TPU v4의 제한된 가용성과 4nm 아키텍처(TPU v4의 7nm 아키텍처 대비)로 인해 최신 Nvidia H100 GPU와 비교하지 않았다고 지적합니다.

기계 학습 모델이 더 크고 복잡해짐에 따라 컴퓨팅 리소스 요구 사항도 늘어났습니다. Google의 TPU(텐서 처리 장치)는 기계 학습 모델, 특히 심층 신경망을 구축하는 데 사용되는 특수 하드웨어 가속기입니다. 이는 텐서 작업에 최적화되어 있으며 대규모 ML 모델의 훈련 및 추론 효율성을 크게 높일 수 있습니다. Google은 성능, 확장성 및 가용성으로 인해 TPU 슈퍼컴퓨터가 LaMDA, MUM 및 PaLM과 같은 대규모 언어 모델의 주력이 된다고 말합니다.

TPU v4 슈퍼컴퓨터에는 독점적인 광학 회로 스위치(OCS)를 통해 상호 연결된 4,096개의 칩이 포함되어 있습니다. Google은 OCS가 또 다른 인기 있는 상호 연결 기술인 InfiniBand보다 더 빠르고 저렴하며 전력을 덜 사용한다고 주장합니다. Google은 자사의 OCS 기술이 TPU v4 시스템 비용 및 전력의 5% 미만이라고 주장하며 확장성, 가용성, 활용도, 모듈성, 배포, 보안, 전력 및 성능을 향상시키기 위해 슈퍼컴퓨터 상호 연결 토폴로지를 동적으로 재구성한다고 밝혔습니다.

Google 엔지니어이자 논문 저자인 Norm Jouppi와 David Patterson은 블로그 게시물에서 상호 연결 기술 및 도메인별 가속기(DSA)의 주요 혁신 덕분에 Google Cloud TPU v4가 TPU v3에 비해 ML 시스템 성능 확장에서 거의 10배의 도약을 가능하게 했다고 설명했습니다. 또한 최신 ML DSA에 비해 에너지 효율성을 약 2~3배 높이고 회사가 일반적인 온프레미스 데이터 센터라고 부르는 곳에서 DSA에 비해 CO2e를 약 20배 줄였습니다.

TPU v4 시스템은 2020년부터 Google에서 운영되고 있습니다. TPU v4 칩은 회사의 2021 I/O 개발자 컨퍼런스에서 공개되었습니다. Google은 슈퍼컴퓨터가 언어 모델, 추천 시스템 및 기타 생성 AI 전반에 걸쳐 ML 연구 및 생산을 위해 선도적인 AI 팀에서 적극적으로 사용되고 있다고 밝혔습니다.

추천 시스템과 관련하여 Google은 TPU 슈퍼컴퓨터가 광고, 검색 순위, YouTube 및 Google Play에 사용되는 DLRM(Deep Learning Recommendation Models)의 핵심 구성 요소인 임베딩에 대한 하드웨어 지원을 갖춘 최초의 제품이라고 밝혔습니다. 이는 각 TPU v4에 임베딩에 의존하는 모델을 5배~7배 가속화하지만 다이 면적과 전력의 5%만 사용하는 데이터 흐름 프로세서인 SparseCore가 장착되어 있기 때문입니다.

텍스트-이미지 AI 스타트업인 Midjourney는 최근 이미지 생성 모델의 네 번째 버전을 교육하기 위해 TPU v4를 선택했습니다. 확장 가능한 인프라"라고 Midjourney의 창립자이자 CEO인 David Holz는 Google 블로그 게시물에서 말했습니다. "JAX를 사용하여 최신 v4 TPU에서 알고리즘의 네 번째 버전을 훈련하는 것부터 GPU에서 추론을 실행하는 것까지 TPU v4를 통해 사용자가 생생한 아이디어를 실현할 수 있는 속도에 깊은 인상을 받았습니다."

TPU v4 슈퍼컴퓨터는 지난해 문을 연 오클라호마주 Google Cloud ML 클러스터의 AI 연구원과 개발자에게 제공됩니다. 9엑사플롭스의 최고 총 성능을 달성한 Google은 클러스터가 90% 무탄소 에너지로 운영되는 공개적으로 사용 가능한 최대 규모의 ML 허브라고 믿습니다. 여기에서 TPU v4 연구 논문을 확인하세요.