AI 성능의 벽을 허문다? 차세대 LLM 서버 '프로메테우스'의 등장!

현대 인공지능, 특히 대규모 언어 모델(LLM)의 발목을 잡는 가장 심각한 제약 중 하나는 바로 메모리라는 주장이 힘을 얻고 있다. 토큰 생성 과정이 본질적으로 메모리 바운드(memory-bound) 작업이라니, 모델이 텍스트를 출력하는 속도가 메모리에서 데이터를 읽어오는 속도에 의해 결정된다는 의미가 아닐까 싶다. 모델 규모가 커질수록 이 메모리 병목현상은 더욱 심화되어 AI 메모리 추론 성능의 발전을 가로막는 '기억의 벽'을 형성하고 있더라는 이야기다.

이 난제를 정면으로 돌파하겠다고 나선 AI 하드웨어 스타트업이 등장했다. 바로 Majestic Labs다. 이들은 최대 128테라바이트(TB) 메모리를 탑재한 새로운 AI 서버, '프로메테우스(Prometheus)'를 개발 중이다. 이는 엔비디아의 최첨단 AI 서버인 DGX B300보다 60배 이상 많은 메모리 용량이라고 하니, 실로 엄청난 도전장이라 볼 수 있다.

Majestic Labs의 공동 창립자이자 사장인 Sha Rabii는 이러한 대대적인 메모리 증설이 자사에 결정적인 우위를 제공할 것이라고 자신하고 있다. 엔비디아가 놀라운 시스템을 구축했지만, 모델 규모가 커질수록 경제성이 떨어지고 컴퓨팅 자원은 과잉 공급되는 반면, 메모리는 턱없이 부족해지는 현상이 발생한다고 지적하기도 했다.

'기억의 벽' 돌파를 위한 Majestic Labs의 독자 아키텍처

Majestic Labs는 경쟁사와는 근본적으로 다른 아키텍처로 '기억의 벽'을 넘어설 계획이다. 엔비디아 서버는 일반적으로 LLM 모델 가중치를 읽어오는 데 사용되는 빠른 고대역폭 메모리(HBM)와, LLM 및 서버 오버헤드를 처리하는 느리지만 더 큰 DRAM 풀을 결합한다. 반면, Majestic Labs는 통합 아키텍처에서 LPDDR6를 포함한 DRAM에 전력을 집중하고 있다.

⚡ 로그인 없이 공식 홈페이지 이동하기 ➔

대부분의 메모리 인터페이스는 물리적으로 짧은 거리에서 작동하도록 설계되어 메모리 배치 용량에 한계가 있다. Rabii는 “HBM을 배치할 수 있는 컴퓨트 다이에 해안선이 생기는데, 더 넣고 싶어도 그럴 수 없다”고 설명했다. Majestic Labs는 이를 해결하기 위해 최대 1미터까지 효과적인 독점 미니어처 구리 케이블 기반 메모리 인터페이스를 사용한다. 이는 메모리 모듈 옆에 물리적으로 위치하여 서버 전체의 메모리를 조율하는 맞춤형 메모리 집적 칩과 결합된다. 이 설계는 대규모 메모리 풀을 처리할 뿐만 아니라 초당 최대 25.6테라바이트의 메모리 대역폭을 제공한다고 한다.

LLM 가속을 위한 AI 프로세서 'Ignite'의 힘

더 많은 메모리만으로는 충분하지 않다. 엔비디아의 GPU와 같은 AI 가속기와 짝을 이루어야 한다. Majestic Labs는 이에 대한 해법으로 맞춤형 AI 처리 장치인 'Ignite'를 제시했다. Ignite는 서버의 컴퓨팅 엔진 역할을 하며, 프로메테우스 서버 한 대에 12개의 Ignite 칩이 탑재된다.

Ignite는 데이터센터급 ARM 애플리케이션 코어와 RISC-V 벡터 및 텐서 코어를 단일 다이에 통합하여, 이들 모두 동일한 메모리 공간을 공유한다. ARM 코어는 온칩 호스트 프로세서로 AI 모델을 오케스트레이션하고, RISC-V 코어는 실제 LLM 처리를 수행한다. 이는 여러 프로세서 간의 핸드오프 없이 LLM 추론 요구 사항의 여러 측면을 처리하는 단일 칩을 만들어낸다. 아직 Prometheus의 컴퓨팅 성능에 대한 구체적인 지표는 공개되지 않았다는 점이 흥미롭다.

소프트웨어의 중요성 또한 간과할 수 없다. Majestic Labs는 PyTorch, vLLM, OpenAI의 Triton 추론 프레임워크를 코드 수정 없이 지원하여 고객 채택의 마찰을 최대한 줄일 계획이라고 한다. 기존 모델도 바로 실행할 수 있도록 말이다.

Prometheus 서버 디자인, 그리고 놀라운 가격 경쟁력

이 모든 기술이 결합된 프로메테우스 서버는 Open Compute Project를 준수한다. 서버 랙 하나에 최대 4대가 장착되며, 랙당 최대 120킬로와트의 전력 소모가 예상된다. 열 관리는 콜드 플레이트 액체 냉각 방식으로 이루어질 예정이라 한다. 서버의 메모리 설계는 모듈식이어서, 초기 구매 시 최대 용량보다 적은 메모리를 선택해도 나중에 업그레이드할 수 있는 유연성을 제공한다.

⚡ 로그인 없이 공식 홈페이지 이동하기 ➔

이처럼 광범위한 프로젝트임에도 불구하고, Majestic Labs는 가격 경쟁력에서도 프로메테우스를 포지셔닝하고자 한다. 각 서버에 엄청난 양의 메모리가 들어가는 것을 고려하면 다소 의외의 전략으로 보일 수도 있다. Majestic Labs는 HBM 대신 DRAM을 사용하기 때문에 이것이 가능하다고 주장한다. 아직 가격은 발표되지 않았지만, 프로메테우스는 2027년에 출시될 예정이다.

Rabii는 “작업 부하에 따라 고객의 자본 지출이 10배에서 50배까지 줄어들 것이며, 전력 소비량도 비슷한 양으로 감소할 것”이라고 단언하고 있다. 이는 정말 혁명적인 변화가 아닐 수 없다.

자주 묻는 질문 (Q&A)

Q1: AI의 '기억의 벽' 현상이 정확히 뭔가요?

AI, 특히 LLM이 텍스트를 생성하는 속도가 메모리에서 데이터를 읽어오는 속도에 의해 제한되는 현상을 말합니다. 모델의 크기가 커질수록 메모리 요구량이 폭증하면서 전체적인 AI 추론 성능이 느려지는 병목 현상이 발생합니다.

Q2: Majestic Labs의 솔루션이 NVIDIA와 다른 점은 무엇인가요?

NVIDIA는 HBM과 DRAM을 조합하는 방식인 반면, Majestic Labs는 대규모의 저전력 DRAM(LPDDR6)에 집중하는 독자적인 'DRAM 중심 아키텍처'를 채택합니다. 또한, 독자적인 장거리 메모리 인터페이스 기술을 통해 메모리 용량 한계를 극복하는 것이 가장 큰 차이점입니다.

Q3: '프로메테우스' 서버는 언제쯤 만나볼 수 있나요?

Majestic Labs의 프로메테우스 서버는 2027년 출시를 목표로 하고 있습니다. 현재까지 구체적인 가격은 공개되지 않았습니다.

Q4: 비용 절감 효과가 정말 그렇게 큰가요?

Majestic Labs는 DRAM 사용과 효율적인 설계를 통해 고객의 자본 지출과 전력 소비를 작업 부하에 따라 10배에서 최대 50배까지 절감할 수 있다고 주장합니다. 이는 기존 AI 서버 대비 매우 파격적인 비용 절감 효과라 할 수 있습니다.

마치며

AI의 폭발적인 성장을 뒷받침할 하드웨어의 혁신은 필수적이다. Majestic Labs의 프로메테우스 서버는 기존 AI 메모리 병목 현상을 해결하고, LLM의 성능을 한 단계 끌어올릴 잠재력을 보여준다. 특히 대용량 DRAM 기반의 독특한 아키텍처와 혁신적인 Ignite 프로세서, 그리고 놀라운 비용 효율성까지 제시하는 그들의 전략은 AI 산업에 큰 파장을 불러일으킬 것이 분명해 보인다. 2027년, 프로메테우스가 AI 시장에 어떤 지각 변동을 가져올지 기대되지 않을 수 없다. 진정한 의미의 AI 대중화를 위한 중요한 발걸음이 될 수 있을지도 모른다는 생각에 벌써부터 두근거리는 마음을 금할 길이 없다.