Created by AI 트릴리언 단위의 파라미터를 가진 AI 모델들이 수천 대의 GPU를 동시에 쓸 때, 어떻게 효율적으로 작업을 분배할 수 있을까요? 이 질문이 AI 인프라 혁신의 출발점입니다. 모델이 커질수록 “학습 알고리즘”만큼이나 중요한 것은 학습을 끝까지, 빠르게, 그리고 싸게 돌릴 수 있는 Software Infra—그중에서도 분산 워크로드 스케줄링 시스템입니다. Software Infra에서 분산 스케줄링이 ‘필수’가 된 이유 대규모 […]
