AI의 '기억의 벽' 돌파할 혁신 서버, 무엇이 다를까?

현존하는 인공지능(AI) 대규모 언어 모델(LLM)의 가장 심각한 제약은 바로 '기억'입니다.

LLM이 텍스트를 생성하는 속도는 데이터를 얼마나 빨리 불러올 수 있느냐, 즉 메모리 접근 속도에 의해 결정됩니다. 모델의 크기가 커질수록 이 병목 현상은 더욱 심각해지고, 이는 곧 AI 성능 향상을 가로막는 '기억의 벽(Memory Wall)'으로 작용하죠.

하지만 AI 하드웨어 스타트업 매직스틱 랩스(Majestic Labs)가 이 '기억의 벽'을 허물기 위한 파격적인 시도를 공개했습니다.

'메모리 폭증'으로 AI의 한계를 넘어서다

매직스틱 랩스는 최대 128 테라바이트(TB)의 메모리를 탑재한 새로운 AI 서버, '프로메테우스(Prometheus)'를 개발 중입니다. 이는 현재 최첨단 AI 서버로 꼽히는 엔비디아(Nvidia)의 DGX B300 서버보다 60배 이상 많은 용량이죠.

매직스틱 랩스의 공동 창립자이자 사장인 샤 라비(Sha Rabii)는 이러한 메모리 용량의 획기적인 증대가 경쟁사 대비 우위를 점할 것이라고 확신합니다.

그는 엔비디아가 확장성 좋은 시스템을 만드는 데 탁월했지만, 모델이 커질수록 경제성이 떨어지고 컴퓨팅 자원은 과도하게 공급하면서 메모리는 부족해지는 현상이 발생한다고 지적합니다.

프로메테우스는 이러한 문제를 정면으로 해결하려는 야심 찬 계획을 담고 있습니다.

DRAM 중심 아키텍처: '기억의 벽'을 넘는 비결

매직스틱 랩스의 접근 방식은 기존 경쟁사들과 근본적으로 다릅니다.

엔비디아 서버는 주로 LLM 모델 가중치(weights)를 불러오는 데 사용되는 고대역폭 메모리(HBM)와, 더 크지만 속도가 느린 동적 랜덤 액세스 메모리(DRAM)를 함께 사용합니다. 하지만 프로메테우스는 LPDDR6 DRAM을 중심으로 통합된 아키텍처를 채택했습니다.

라비는 기존 메모리 인터페이스는 물리적 거리가 짧아야 효율적이기 때문에 메모리 탑재량에 한계가 있다고 설명합니다. 즉, 컴퓨팅 칩 주변에 HBM을 배치하는 데 제약이 있다는 것이죠.

이를 극복하기 위해 매직스틱 랩스는 1미터까지 효율적인 독자적인 메모리 인터페이스와, 여러 DRAM 칩을 효율적으로 관리하는 맞춤형 메모리 어그리게이션 칩을 개발했습니다.

이 설계는 대규모 메모리 풀을 지원할 뿐만 아니라, 초당 25.6 테라바이트에 달하는 놀라운 메모리 대역폭을 제공한다고 합니다. 이는 LLM 처리 속도를 비약적으로 향상시킬 잠재력을 가지고 있습니다.

'이그나이트' 프로세서: AI 가속을 위한 핵심

막대한 메모리 용량만큼이나 중요한 것은 이를 효율적으로 활용할 AI 가속 능력입니다. 매직스틱 랩스는 '이그나이트(Ignite)'라는 자체 AI 프로세서로 이 문제를 해결했습니다.

프로메테우스 서버에는 총 12개의 이그나이트 칩이 탑재됩니다. 이 칩은 데이터센터급 ARM 애플리케이션 코어와 RISC-V 벡터 및 텐서 코어를 단일 칩에 통합하여, 모든 프로세스가 동일한 메모리 공간을 공유합니다.

ARM 코어는 AI 모델을 오케스트레이션하는 호스트 프로세서 역할을 하고, RISC-V 코어가 실제 LLM 처리를 담당합니다. 이를 통해 여러 프로세서 간의 데이터 이동 없이 단일 칩에서 LLM 추론의 다양한 요구 사항을 처리할 수 있게 되는 것이죠.

또한, 매직스틱 랩스는 기존 AI 프레임워크와의 호환성을 높이기 위해 PyTorch, vLLM, OpenAI의 Triton 추론 프레임워크를 지원하며, 코드 수정 없이 기존 모델을 그대로 실행할 수 있도록 할 계획입니다. 이는 AI 모델의 도입 장벽을 크게 낮출 것으로 보입니다.

프로메테우스 서버의 디자인 및 가격 경쟁력

이 모든 기술이 집약된 프로메테우스 서버는 오픈 컴퓨트 프로젝트(OCP) 표준을 준수합니다. 한 랙에 최대 4개의 서버가 장착되며, 랙당 최대 120킬로와트(kW)의 전력을 소비하고 액체 냉각 방식을 채택합니다.

서버 메모리 또한 모듈식 설계로, 초기 구매 시 최대 용량이 아니더라도 추후 업그레이드가 가능합니다. 흥미로운 점은, 이러한 방대한 메모리 용량에도 불구하고 매직스틱 랩스가 서버 가격 경쟁력을 자신한다는 것입니다.

이는 HBM 대신 DRAM을 사용하기 때문이며, 라비는 고객의 초기 자본 지출을 10배에서 50배까지 줄이고 전력 소비량도 유사한 수준으로 절감할 수 있다고 주장합니다.

물론 프로메테우스는 2027년 출시 예정이므로, 구체적인 가격 정보는 아직 공개되지 않았습니다. 하지만 데이터센터 업계에 상당한 파장을 불러올 것은 분명해 보입니다. 이는 AI 인프라 구축에 새로운 가능성을 제시하는 혁신으로 평가받고 있습니다.

자주 묻는 질문 (Q&A)

Q1: 프로메테우스 서버의 가장 큰 장점은 무엇인가요?

A1: 프로메테우스는 압도적인 메모리 용량(최대 128TB)과 독자적인 DRAM 중심 아키텍처를 통해 기존 AI 서버의 '기억의 벽' 문제를 해결하고 LLM 처리 속도를 획기적으로 향상시키는 것을 목표로 합니다. 또한, 가격 경쟁력과 기존 프레임워크와의 높은 호환성도 주요 장점으로 꼽힙니다.

Q2: HBM 대신 DRAM을 사용하는 이유는 무엇인가요?

A2: HBM은 속도가 빠르지만 비용이 비싸고 확장성에 한계가 있습니다. 매직스틱 랩스는 DRAM을 대규모로 활용하고, 독자적인 인터페이스와 기술을 통해 DRAM의 속도 단점을 극복하면서도 훨씬 저렴하고 확장성 높은 메모리 솔루션을 구현할 수 있다고 판단했기 때문입니다.

Q3: 프로메테우스 서버는 언제 구매할 수 있나요?

A3: 프로메테우스 서버는 2027년 출시될 예정입니다. 현재는 개발 및 테스트 단계에 있으며, 정확한 출시 시점 및 판매 관련 정보는 추후 공개될 예정입니다.

Q4: 기존 AI 모델들을 프로메테우스 서버에서 바로 사용할 수 있나요?

A4: 네, 그렇습니다. 프로메테우스 서버는 PyTorch, vLLM, OpenAI의 Triton 등 널리 사용되는 AI 프레임워크를 지원하며, 이러한 프레임워크와 호환되는 기존 AI 모델들은 코드 수정 없이 그대로 실행할 수 있도록 설계되었습니다.

마치며

AI 기술 발전의 핵심 동력인 LLM의 성능은 '기억'이라는 물리적 한계에 부딪혀 왔습니다. 매직스틱 랩스의 프로메테우스 서버는 이러한 한계를 정면으로 돌파하려는 야심 찬 시도입니다. 혁신적인 메모리 아키텍처와 AI 가속 기술의 결합은 앞으로 AI 개발 및 활용 방식에 큰 변화를 가져올 것으로 기대됩니다. 2027년, 프로메테우스가 AI의 새로운 시대를 열 수 있을지 주목해 볼 필요가 있습니다.