로그인이 필요합니다.
로그인
[인공지능]
AMD '에이전틱 AI에 필요한 랙 스케일 CPU 성능, 에픽으로 구현'
[인공지능]
엔비디아, 로컬 AI 위한 구글 딥마인드 디퓨전젬마 가속화
[인공지능]
글로벌 AI 창작 플랫폼 PixAI, 1500만 사용자 기반 ‘커뮤니티 콘테스트’ 출시
[인공지능]
무인공장, K-다그팩토리 시대 본격화
[인공지능]
DeepSeek-V4 기술보고서 저자 명단 공개 핵심인력 대기업 이직
[인공지능]
서린씨앤아이, 국제인공지능대전 AI EXPO KOREA에서 리드텍 제품군 소개
[인공지능]
신세계, 챗GPT로 이마트에서 AI쇼핑
[인공지능]
AI로 인해 IT·전문직 ‘2030’ 취업자 13만명 감소
[인공지능]
아마존, AI 비서 알렉사+의 웹 서비스 출시
[인공지능]
구글, AI 프로 요금제 59% 할인
[인공지능]
네이버, 연관검색어 서비스 이달 종료
[인공지능]
AI가 만든 광고, 젊은 세대는 싫어한다
[인공지능]
인피니언, 엔비디아와 협력해 차세대 휴머노이드 로봇 개발 가속화
[인공지능]
젠틀몬스터, 구글과 함께한 차세대 인텔리전트 아이웨어 첫 공개
[인공지능]
엔비디아의 루빈이 구글의 가상 머신에 탑재되며, 다중 사이트 클러스터를 약 100만 개의 GPU 규모로 확장하다
[인공지능]
엔비디아, AI로 게임 그래픽 혁신하는 ‘DLSS 5’ 공개
[인공지능]
젠틀몬스터, 구글과 함께한 차세대 인텔리전트 아이웨어 첫 공개
[인공지능]
AMD '에이전틱 AI에 필요한 랙 스케일 CPU 성능, 에픽으로 구현'
[인공지능]
엔비디아, 로컬 AI 위한 구글 딥마인드 디퓨전젬마 가속화
[인공지능]
글로벌 AI 창작 플랫폼 PixAI, 1500만 사용자 기반 ‘커뮤니티 콘테스트’ 출시
[인공지능]
서린씨앤아이, 국제인공지능대전 AI EXPO KOREA에서 리드텍 제품군 소개
[인공지능]
Groq의 추론 칩, 비용은 NVIDIA Blackwell 대비 5분의 1 수준—속도는 2배
[인공지능]
오픈AI, 가장 지능적인 AI 모델 GPT-5.5 공개… 토큰 비용 1/35 수준으로 절감, 메가와트당 성능 50배 향상
[인공지능]
무인공장, K-다그팩토리 시대 본격화
[인공지능]
AI 영상 광고·숏폼 공모전 대상
[인공지능]
SpaceX, GPU 자체 생산 계획 밝혀—1조 7,500억 달러 IPO 문서에 포함
[인공지능]
아마존, AI 비서 알렉사+의 웹 서비스 출시
[인공지능]
한국의 물가가 그리고 전기욛금이 싸니까 오는겨? ! ? !!!
[인공지능]
구글 Tensor G6 칩, 약 5년 전에 처음 선보였던 구형 GPU와 함께 출시될 전망
[인공지능]
DeepSeek-V4 기술보고서 저자 명단 공개 핵심인력 대기업 이직
전체
l
기술
l
산업
l
문화/연예
l
생활
l
건강
l
금융/경제
l
사회
l
게임
l
스포츠
l
레트로
l
자동차
l
성인
엔비디아가 구글 딥마인드(Google DeepMind)의 디퓨전젬마(DiffusionGemma)를 엔비디아 지포스(NVIDIA GeForce) RTX GPU, 엔비디아 RTX PRO 플랫폼, 엔비디아 DGX 스파크(DGX Spark) 시스템 전반에서 더욱 빠르게 실행할 수 있도록 최적화했다고 밝혔다. 이를 통해 로컬 PC부터 클라우드 환경까지 폭넓은 활용이 가능해졌다. 디퓨전젬마는 텍스트를 한 번에 한 단어씩 생성하는 대신 여러 단어를 병렬로 생성해 텍스트 블록 전체를 출력한다. 이를 통해 개발자와 연구자, AI 애호가들이 일상적으로 사용하는 단일 사용자 워크로드에서 혁신적인 저지연 AI 경험을 제공한다. 디퓨전젬마의 주요 특징은 다음과 같다. - 병렬 생성: 디퓨전젬마는 토큰을 한 번에 하나씩 예측하는 대신, 단계마다 최대 256개의 토큰을 디노이징한다. - 젬마(Gemma) 4 기반으로 구축: 디퓨전젬마는 젬마 4를 기반으로 구축됐다. 이는 260억 개의 파라미터를 갖춘 전문가 혼합(Mixture-of-Experts, MoE) 모델이다. 단계마다 38억 개의 파라미터를 활성화하며, 구글의 젬마 4 아키텍처에 디퓨전 헤드를 결합했다. - 최대 4배 향상된 성능: 단일 사용자 생성 환경에서 일반적으로 발생하는 지연 현상을 줄여 로컬 하드웨어에서도 빠른 텍스트 생성을 지원한다. - 오픈 로컬 실행: 디퓨전젬마는 아파치(Apache) 2.0 라이선스 기반의 오픈 웨이트 모델로 제공되며, RTX와 DGX 스파크에서 완전히 실행된다. 클라우드나 토큰당 비용이 필요 없으며, 허깅페이스 트랜스포머(Hugging Face Transformers), vLLM, 언슬로스(Unsloth)에서 기본 지원된다. 새로운 텍스트 생성 방식 오늘날 널리 사용되는 대부분의 거대 언어 모델(large language model, LLM)은 자기회귀(autoregressive) 방식으로 작동한다. 이는 새로운 단어가 이전 단어에 의존하는 형태로, 텍스트를 토큰 단위로 하나씩 순차적으로 생성하는 방식이다. 이러한 순차적 생성 과정 때문에 대화형 AI는 마치 글자를 입력하는 것처럼 응답한다. 디퓨전젬마는 이와 다른 방식을 채택했다. 디퓨전젬마는 젬마 4 26B 전문가 혼합 아키텍처를 기반으로 구축돼, 디퓨전 모델이 이미지를 생성하는 방식과 같이 텍스트를 생성한다. 즉, 노이즈에서 시작해 텍스트 블록 전체를 한 번에 정제한다. 단일 토큰을 생성한 뒤 다음 토큰을 계산하기 위해 대기하는 대신, 각 단계에서 최대 256개의 토큰을 병렬로 디노이징한다. 그 결과, 디퓨전젬마는 텍스트를 순차적으로 생성하는 대신 블록 단위로 처리하는 모델이 됐다. 이러한 병렬 처리 방식은 레이턴시에 민감한 단일 사용자 작업에서 개발자의 사고와 반복 속도에 발맞춘 빠른 응답을 제공한다. 대화형 채팅, 에이전틱 루프, 계획과 실행을 수행하는 온디바이스 어시스턴트와 같은 작업이 여기에 해당된다. 엔비디아 GPU에서 더욱 강력해진 디퓨전젬마 토큰을 한 번에 하나씩 생성하는 방식은 본질적으로 메모리의 영향을 크게 받는다. 기존 LLM은 대부분의 시간을 연산 수행이 아닌 메모리 대역폭 대기에 사용하기 때문에 컴퓨팅 자원을 충분히 활용하지 못한다. 디퓨전 방식은 이러한 구조를 뒤바꾼다. 256개 토큰으로 구성된 전체 블록을 트랜스포머를 통해 병렬로 처리하는 워크로드는 컴퓨팅 성능에 의해 좌우된다. 여기서 엔비디아 GPU가 두각을 드러낸다. 엔비디아 텐서 코어(Tensor Core)는 대규모 병렬 연산을 가속하며, 쿠다(CUDA) 소프트웨어 스택은 별도의 튜닝 없이도 초기부터 모델의 효율적 실행을 지원한다. 이와 같이 디퓨전젬마는 GPU의 강점을 최대한 활용하도록 설계됐다. 이러한 장점은 실제 성능에서도 확인된다. 디퓨전젬마는 단일 엔비디아 H100 텐서 코어 GPU에서 초당 1,000개 토큰, 엔비디아 DGX 스파크에서 초당 150개 토큰, 엔비디아 DGX 스테이션(DGX Station)에서 최대 초당 2,000개 토큰의 성능을 제공한다. 이는 동일한 단일 사용자 환경에서 실행되는 동급 자기회귀 모델 대비 약 4배 빠른 수준이다. 이러한 성능상의 이점은 엔비디아의 제품군 전반에서 제공된다. - 엔비디아 DGX 스파크 데스크사이드 개인용 AI 슈퍼컴퓨터에서 로컬 실행: 128GB 통합 메모리를 탑재한 엔비디아 GB10 그레이스 블랙웰 슈퍼칩(Grace Blackwell Superchip) 기반으로 구동되며, 프로토타이핑, 파인튜닝, 완전한 로컬 에이전트 워크플로우를 위한 엔비디아 AI 소프트웨어 스택이 사전 설치돼 있다. - 엔비디아 RTX PRO 6000 워크스테이션에서 실행: 개발자와 연구자, AI 전문가는 전문 워크플로우의 일부로 로컬 저지연 생성과 에이전틱 루프가 실행할 수 있는 충분한 성능 여유를 제공한다. - DGX 스테이션에서 실행: 748GB의 통합(coherent) 메모리를 기반으로, 저지연 텍스트 생성과 에이전틱 루프를 위해 초당 최대 2,000토큰의 업계 최고 수준의 로컬 고속 추론 성능을 제공한다. - 지포스 RTX GPU에서 실행: 향후 라마.cpp(llama.cpp) 지원이 추가될 예정이다. 로컬 환경에서 시작하기 허깅페이스 트랜스포머를 활용하면 모델을 가장 빠르게 테스트하고 프로토타이핑할 수 있다. 이는 지포스 RTX 5090 또는 DGX 스파크에서 별도 설정 없이 디퓨전젬마 실행을 기본 지원한다. 더 높은 처리량의 추론이 필요한 경우에는 vLLM을 활용하면 된다. 특정 작업이나 도메인에 맞게 모델을 적용하려는 경우, 언슬로스와 엔비디아 네모(NeMo) 프레임워크를 통해 파인튜닝을 수행할 수 있다. 또한 로컬 환경을 신속하게 실행할 수 있도록 사전 구성된 DGX 스파크 플레이북도 제공된다. DGX 스파크, RTX PRO, DGX 스테이션용 vLLM 플레이북은 현재 열람 가능하다. 허깅페이스에서 디퓨전젬마를 직접 사용해 보거나, build.nvidia.com에서 엔비디아가 호스팅하는 애플리케이션 프로그래밍 인터페이스를 통해 무료로 테스트할 수 있다. 아키텍처와 로컬 배포에 대해 더 자세히 알아보려면 엔비디아 기술 블로그와 구글 딥마인드 발표를 참고하면 된다. RTX AI 개러지 최신 업데이트 사항 - 엔비디아 연구진이 SANA-WM을 공개했다. 이는 단일 이미지와 카메라 경로만으로 정밀한 6-DoF 제어가 가능한 720p 해상도의 1분 길이 비디오를 생성하는 오픈소스 월드 모델이다. 26억 개 파라미터 규모의 증류 버전은 NVFP4 포맷을 활용해 단일 지포스 RTX 5090 GPU에서 34초 만에 60초 분량의 비디오를 생성할 수 있다. 이는 단일 GPU에서 실행되면서도 유사한 오픈 모델 대비 최대 36배 높은 처리량을 제공한다. 여기에서 관련 논문을 확인할 수 있다. - 윈도우(Windows) 에이전트 구축 환경이 한층 강화됐다. 엔비디아와 마이크로소프트(Microsoft)는 기본 윈도우 환경에서 활용 가능한 턴키 에이전트 샌드박싱 기능을 공개했다. 이는 마이크로소프트 실행 컨테이너(eXecution Containers)와 엔비디아 오픈쉘(OpenShell) 런타임을 제공하는 동시에, 에이전틱 추론 속도를 최대 2배 향상시키고 헤르메스 에이전트(Hermes Agent)의 기본 윈도우 지원을 추가했다. - DGX 스파크는 개봉 후 몇 분 만에 에이전트를 실행할 수 있는 환경을 제공한다. 간소화된 엔비디아 네모클로(NemoClaw) 설치 과정을 통해 개발자는 로컬 에이전트를 빠르게 활용할 수 있으며, 큐원(Qwen) 3.6-35B는 vLLM에서 최대 2.6배 빠르게 실행된다. 또한 엔비디아 싱크(Sync)의 새로운 클러스터 어시스턴트는 최대 4대의 DGX 스파크를 하나의 512GB 풀로 연결해 약 4,000억 개 파라미터 규모의 모델을 실행할 수 있다.
브로홍
2026.06.13
3
4
글로벌 AI 2D 창작 플랫폼 PixAI를 운영하는 Metanomaly K.K.는 사용자가 직접 창작 콘테스트를 기획하고 운영할 수 있는 신규 기능 ‘커뮤니티 콘테스트’를 정식 출시했다고 밝혔다. PixAI는 그동안 공식 콘테스트를 통해 전 세계 크리에이터들이 같은 주제 아래 작품을 만들고, 서로의 결과물을 발견하며, 창작 영감을 나누는 커뮤니티형 활동을 이어왔다. 이번 커뮤니티 콘테스트는 이러한 기존 콘테스트 경험을 바탕으로 사용자가 직접 창작 주제를 제안하고 콘테스트를 운영할 수 있도록 한 기능이다. 커뮤니티 콘테스트를 통해 조건을 충족한 크리에이터는 콘테스트 주제, 참가 요건, 보상, 진행 기간을 직접 설정하고 PixAI 내에서 창작 챌린지를 공개할 수 있다. PixAI는 이를 통해 사용자가 작품을 생성하고 공유하는 데서 나아가 직접 새로운 창작 흐름을 만들고 다른 사용자들의 참여를 이끄는 구조를 강화할 계획이다. 이번 업데이트에는 콘테스트 페이지 개편, 공식 문서 사이트 공개, 아시아권 결제 수단 8종 추가, 15개 이상 언어 대상 현지화 자원봉사자 모집도 함께 포함됐다. PixAI는 전 세계 1500만 명 이상의 등록 사용자를 기반으로 창작 커뮤니티 기능뿐 아니라 제품 이해도, 결제 접근성, 현지화 품질까지 함께 고도화하고 있다. 공식 콘테스트에서 사용자 개최형 콘테스트로 확장 PixAI의 콘테스트는 그동안 다양한 창작 주제를 중심으로 전 세계 사용자들의 작품 참여와 커뮤니티 반응을 이끌어 온 대표적인 플랫폼 활동 중 하나다. 사용자는 콘테스트 주제에 맞춰 이미지를 생성하고, 작품을 공개하며, 다른 크리에이터의 작품을 감상하고 반응할 수 있었다. 새롭게 출시된 커뮤니티 콘테스트는 이러한 기존 콘테스트 경험을 사용자 주도형으로 확장한 기능이다. 주최자는 특정 캐릭터 콘셉트, 계절 테마, 의상 스타일, 장면 연출, 팬아트형 챌린지 등 다양한 창작 주제를 직접 제안할 수 있으며, 플랫폼 심사를 통과하면 해당 콘테스트는 PixAI 사용자들에게 공개된다. PixAI는 커뮤니티 콘테스트를 통해 공식 이벤트 중심의 참여 경험을 더욱 넓히고, 사용자들이 스스로 창작 문화를 만들어가는 흐름을 지원할 계획이다. 이를 통해 플랫폼 내 콘테스트는 단순한 보상형 이벤트를 넘어 크리에이터들이 서로의 취향과 아이디어를 발견하고 새로운 창작 문화를 함께 만들어가는 커뮤니티 활동으로 확장될 것으로 기대된다. 창작자의 자율성과 운영 신뢰성을 함께 고려한 구조 커뮤니티 콘테스트에서는 주최자가 콘테스트 주제, 참가 요건, 보상 내용, 진행 기간을 직접 설정할 수 있다. 콘테스트 개최 자체에는 별도 비용이 발생하지 않으며, 보상으로 설정한 크레딧은 주최자의 유료 크레딧 잔액에서 차감된다. 신청이 승인되지 않거나 일부 수상자가 선정되지 않은 경우 해당 유료 크레딧은 자동으로 반환된다. 수상 결과는 작품의 ‘좋아요’ 수를 기반으로 산정되며, 공정한 운영과 부정행위 방지를 위해 PixAI 운영팀이 최종 검토를 진행한다. PixAI는 사용자 주도형 콘테스트의 자율성을 보장하면서도 플랫폼 차원의 심사와 결과 검토 절차를 통해 커뮤니티 운영의 신뢰성을 함께 확보한다는 방침이다. 콘테스트 페이지 개편으로 참여 경험 개선 PixAI는 커뮤니티 콘테스트 출시와 함께 콘테스트 페이지도 전면 개편했다. 사용자는 새롭게 개편된 목록 페이지에서 콘테스트 주제, 이벤트 소개, 총 보상 규모, 남은 기간 등을 한눈에 확인할 수 있다. 상세 페이지에서는 주최자 정보, 보상 내용, 참가 요건 등이 보다 명확하게 표시된다. 이를 통해 사용자는 자신에게 맞는 콘테스트를 더 쉽게 찾고, 참여 전 필요한 정보를 빠르게 확인할 수 있다. 작품 제출 흐름도 개선됐다. 기존의 태그 기반 참여 방식은 유지하면서 콘테스트 페이지 내 전용 제출 기능을 추가했다. 사용자는 ‘지금 제출하기’ 버튼을 통해 이미 공개된 작품을 콘테스트에 제출할 수 있으며, 시스템이 해당 콘테스트 태그를 자동으로 부여한다. 또한 ‘내 콘테스트’ 기능을 통해 주최자는 콘테스트 신청 진행 상황, 작품 제출 현황, 결과 발표 정보를 한곳에서 관리할 수 있다. 참가자는 관심 있는 콘테스트를 팔로우해 진행 상황과 관련 소식을 확인할 수 있다. 공식 문서 사이트 공개… 사용자 온보딩과 제품 이해도 강화 PixAI는 신규 사용자부터 고급 기능을 더 깊이 활용하려는 사용자까지 참고할 수 있는 공식 문서 사이트도 새롭게 공개했다. 공식 문서에는 이미지 생성, 프롬프트 작성, 크레딧 획득 방법 등 핵심 기능 가이드와 함께 크레딧 및 결제 시스템 설명, 신규 사용자 필수 안내가 포함된다. PixAI는 이를 통해 사용자가 주요 기능과 크레딧 사용 구조를 더 명확하게 이해하고, 예상치 못한 사용이나 혼선을 줄일 수 있도록 지원한다. 공식 문서 링크는 웹 버전의 우측 상단 아바타 드롭다운 메뉴와 앱 마이페이지에서 확인할 수 있다. 또한 PixAI는 공식 문서에 대한 사용자 피드백도 함께 수렴한다. 채택된 유효한 피드백에는 보상이 제공되며, PixAI는 사용자 의견을 반영해 문서 품질과 서비스 이해도를 지속적으로 개선할 계획이다. 아시아권 결제 수단 8종 추가 PixAI는 웹 버전에 아시아권을 중심으로 한 신규 결제 수단 8종도 추가했다. 새롭게 지원되는 결제 수단은 Alipay, GCash, TrueMoney, Touch ’n Go eWallet, AlipayHK, BPI, Bluecode, Tinaba다. 이번 업데이트로 신용카드 결제가 어렵거나 지역별 결제 환경이 다른 사용자도 PixAI 멤버십 플랜과 추가 크레딧을 보다 원활하게 구매할 수 있게 됐다. 결제 화면에서는 사용자의 지역과 언어 설정에 따라 적합한 결제 수단이 우선 표시된다. PixAI는 결제 수단 확대를 통해 아시아권 사용자의 결제 접근성을 높이고, 글로벌 창작자들이 보다 원활하게 플랫폼을 이용할 수 있는 환경을 마련할 계획이다.
브로홍
2026.06.13
0
1
에이전틱 AI는 인프라의 형태를 변화시키고 있다. 기업들이 개별적인 AI 실험 단계에서 실제 운영 환경의 에이전틱 시스템으로 전환함에 따라, 이를 뒷받침하는 CPU 인프라의 중요성이 더욱 커지고 있다. 오케스트레이션 서비스, 데이터베이스, 웹 프런트엔드, 캐시, 미들웨어, API 및 컨트롤 플레인 서비스는 모두 실제 랙의 전력 및 냉각 한계 내에서 효율적으로 확장되어야 한다. 고객은 벤치마크 결과만을 기준으로 인프라를 구축하지 않는다. 실제 데이터센터에서는 전력, 냉각, 설치 공간, 소프트웨어 호환성, 운영 준비 상태 등 다양한 제약 조건을 고려한 랙 단위 인프라를 구축해야 한다. 이러한 관점에서 평가했을 때 AMD 에픽(EPYC) 프로세서는 랙 규모의 성능에서 명확한 리더십을 보여준다. 모델링된 100kW 랙 시나리오에서 AMD 에픽 9965는 엔비디아 베라(Vera) 기준 대비 약 2.37배의 랙 수준 처리량을 제공하며, 인텔 제온(Xeon) 6980P 대비로는 약 1.6배 높은 처리량을 제공한다. 차세대 AMD 에픽 "베니스(Venice)"는 엔비디아 베라와 대비하여 격차를 3.30배까지 확대할 것으로 예상된다. 더 중요한 점은, 고객이 이러한 인프라를 미래의 새로운 아키텍처로 기다릴 필요 없이 오늘날 표준 x86 플랫폼 위에서 즉시 구축할 수 있다는 점이다. 에이전틱 AI에는 풍부한 CPU 자원을 갖춘 인프라가 필요 AI 인프라 구축을 GPU 중심의 이야기로만 규정하기 쉽다. 하지만 실제 운영 환경의 에이전틱 시스템은 단순한 모델 추론(Inference)만으로 구성되지 않으며 방대하고 지속적으로 운영되는 서비스 환경이다. 각 AI 에이전트는 작업을 조율하는 오케스트레이션 로직, 트랜잭션 데이터베이스, 웹 및 API 엔드포인트, 키-값 저장소, 인메모리 캐시 및 미들웨어에 의존한다. 이러한 구성 요소들은 시스템 전반에서 작업을 조정하고 상태를 유지하며 요청을 처리하고 분배하는 역할을 한다. 이러한 서비스는 대부분 CPU 자원 의존도가 매우 높으며, 단일 모델의 크기보다 동시에 실행되는 에이전트 수에 따라 확장된다. 에이전틱 AI 배포가 실제 운영 환경으로 확대될수록 이를 지원하는 인프라의 규모도 함께 증가한다. 이러한 서비스를 호스팅하는 프로세서 플랫폼은 기업이 실제로 얼마나 많은 에이전트를 운영할 수 있는지, 그리고 어떤 비용 구조로 운영할 수 있는지를 결정하는 핵심 요소가 된다. 결국 이 인프라 계층에서는 가속기(GPU)의 최고 성능이 아닌, 범용 CPU의 처리 능력이 시스템 확장성의 상한선을 결정한다. 랙 수준(Rack-Level) 성능이 올바른 평가 지표인 이유 개별 부품의 벤치마크는 특정 칩의 성능을 설명할 수는 있지만, 고객이 실제로 구축할 수 있는 시스템의 역량을 보여주지는 못한다. 데이터센터는 랙 단위로 구축되며, 각 랙은 고정된 전력 및 냉각 예산, 제한된 설치 공간, 소프트웨어 호환성 요구사항, 그리고 운영 준비 상태 등의 제약을 받는다. 따라서 실제 성능을 결정하는 질문은 "하나의 소켓이 얼마나 빠른가"가 아닌, "100kW 랙 안에 얼마나 많은 유효 작업량을 담을 수 있는가"이다. 이번 분석은 바로 이러한 관점에서 수행되었다. 모든 구성은 2P(2-프로세서) 플랫폼 기반의 가상 100kW 랙 환경으로 정규화되었으며, 이를 통해 개별 프로세서의 최고 성능이 아닌 실제 배포 가능한 서비스 처리 용량을 비교했다. 더 높은 집적도는 곧 랙당 더 많은 서비스 처리 능력으로 이어지며, 이는 자본 효율성, 공간 활용도를 높이고 운영을 간소화하는 핵심 요소다. AMD 에픽의 랙 수준 성능 리더십 범용 컴퓨팅, 서버측 자바(Java), 웹 서비스, 키-값 저장소, 인메모리 캐싱, 관계형 데이터베이스 등 이번 평가에 포함된 모든 워크로드에서 AMD 에픽은 랙 수준 성능 비교에서 뚜렷한 우위를 드러냈다. AMD 에픽 9965("튜린(Turin)", 192코어)는 엔비디아 베라(88코어 "올림푸스(Olympus)") 대비 정규화된 기하평균 성능 기준으로 2.37배 높은 성능을 기록했다. 인텔 제온 6980P("그래나이트 래피즈-AP(Granite Rapids-AP)", 128코어)는 NVIDIA 베라 대비 1.46배의 성능을 기록했다. 향후 AMD 에픽 "베니스"(256코어)가 출시되면 AMD의 격차는 3.3배까지 확대될 것으로 예상된다. 이러한 성능 향상은 특정 벤치마크 하나에 국한된 결과가 아닌, 전체 워크로드 전반에 걸쳐 일관되게 나타났다. 패턴은 일관된다. 고정된 전력 한도 내에서 코어 집적도가 높아질수록 전체 서비스 처리량도 함께 증가한다. 이는 에이전틱 AI 시스템을 둘러싼 트랜잭션 처리 계층, 웹 서비스 계층, 미들웨어 계층에서 랙당 더 높은 동시 처리 능력과 응답성을 제공한다는 의미이며, 이러한 특성은 결국 하나의 환경에서 얼마나 많은 AI 에이전트를 안정적으로 운영할 수 있는지를 결정한다. 당장 구축 가능한 랙 밀도, 미래의 약속이 아닌 현실 랙 밀도는 최근 데이터센터 업계의 핵심 지표로 자리 잡고 있으며, 이는 실제로 배포 가능한 인프라 가치를 보여주는 직접적인 척도다. 또한 AMD의 현재 출시된 솔루션이 차별화되는 영역이기도 하다. 델 파워엣지 IR7000 또는 이와 유사한 액체냉각 랙에 구축된 AMD EPYC "튜린" 시스템은 현재 랙당 2만7,000개 이상의 CPU 코어를 지원한다. 차세대 AMD EPYC "베니스"는 동일한 등급의 랙 환경에서 3만6,000개 이상의 코어로 확장할 수 있도록 설계되었다. 샌드박스 수와 CPU 코어 수는 직접적으로 동일한 개념은 아니지만, 랙 규모의 컴퓨팅 집적도를 보여주는 지표로 볼 때 결과는 분명하다. AMD는 이미 현재 상용화된 표준 인프라를 통해 미래 기술로 제시되는 랙 밀도를 뛰어넘고 있다. 이러한 AMD 기반 구축 환경은 별도의 새로운 랙 아키텍처 없이도 표준 액체 냉각 데이터센터 장비와 기업이 이미 운영 중인 x86 소프트웨어 생태계에서 구동된다. 이를 통해 소프트웨어 연속성을 유지하고, 마이그레이션 부담을 줄이며, 실제 운영 환경으로의 전환 시간을 단축할 수 있다. 테스트 방법론 및 워크로드 세부 사항 이번 평가에 사용된 워크로드는 에이전틱 AI 서비스 환경에서 중요한 인프라 요소를 반영하도록 구성됐으며, 각 영역은 검증된 업계 표준 벤치마크를 기반으로 평가되었다. - 범용 컴퓨팅: SPEC CPU 2017 정수 연산 성능(Integer Rate) - 서버측 자바: 처리량과 지연 시간에 민감한 비즈니스 로직 실행 성능을 측정하는 SPECjbb2015 기반 워크로드 - 웹 서비스: 지속적인 동시 요청 환경에서 NGINX와 WRK 도구 활용 - 키-값 저장소: 고속 인메모리 작업을 위한 redis-benchmark - 인메모리 캐싱 및 분석: Memcached와 memtier_benchmark 활용 - 관계형 데이터베이스: MySQL 기반 TPROC-C(TPC-C 파생 OLTP 벤치마크) 이번 평가 세트는 AI 에이전트의 전체 엔드투엔드 파이프라인을 모델링한 것이 아닌, 해당 파이프라인이 의존하는 인프라 계층을 분리해 측정하는 데 초점을 맞췄다. 비교는 2소켓(2P) 플랫폼 기반의 100kW 기준 랙 환경에서 수행됐으며, 시스템 전력과 랙당 노드 수는 엔비디아 베라를 기준으로 정규화되었다. 또한 AMD 에픽 "베니스"와 엔비디아 베라 관련 수치는 모델링 및 예측 기반 구성에 따른 결과이므로, 명시된 랙 전력 제약 조건 내에서의 추정치로 제시된다. 단일 스레드 성능 랙 수준 성능과 에너지 효율성 외에도 일부 워크로드에서는 코어당 성능이 여전히 중요한 고려 요소다. AMD는 데이터베이스, 분석, 시뮬레이션 및 멀티 GPU 서버 환경에서의 호스트 프로세싱과 같은 고성능 워크로드에서 지속적으로 우수한 성능을 제공해 왔다. AMD의 차세대 64코어 "베니스" CPU는 엔비디아 베라 88코어 프로세서 대비 코어당 성능에서 약 27% 높은 성능을 제공할 것으로 예상된다. 또한 더 많은 코어를 탑재한 96코어 "베니스" CPU 역시 엔비디아 베라 88코어 프로세서보다 약 11% 높은 코어당 성능을 제공할 것으로 전망된다. 실제 배포 가능한 성능이 경쟁력을 결정 에이전틱 AI 인프라는 개별 부품의 성능 수치가 아니라 랙 단위 관점에서 설계되어야 한다. 이러한 기준에서 결론은 명확하다. AMD 에픽은 더 높은 수준의 실제 배포 가능한 CPU 처리량과 x86 소프트웨어 연속성, 고밀도 AI 지원 인프라를 구현할 수 있는 표준 기반의 확장 경로를 제공한다. 또한 이러한 인프라는 현재 공급 중인 플랫폼에서 바로 구축할 수 있다. 에이전틱 AI를 실제 운영 환경으로 확장하려는 기업에게는 집적도, 호환성, 구축 용이성의 조합이 단순한 성능을 실제 운영 역량으로 전환하는 핵심 요소가 될 것이다.
브로홍
2026.06.13
2
4
구글답게 텐서(Tensor)급 칩의 성능을 의도적으로 제한하려는 시도를 하지 않았다면 오히려 이상했을 것입니다. 그리고 이러한 안타까운 추세는 곧 출시될 텐서 G6 SoC에서도 계속될 것으로 보이는데, 이 칩에는 무려 2021년에 출시된 GPU가 탑재될 가능성이 매우 높습니다! 새로운 유출 정보에 따르면, 구글 텐서 G6 칩은 2021년에 처음 선보였던 PowerVR CXT-48-1536 GPU를 탑재할 것으로 보입니다. 독자 여러분도 잘 아시다시피, 우리는 몇 달 전 텐서 G5 칩에 수 세대 전의 ARM CPU 코어를 사용한 구글을 신랄하게 비판한 바 있습니다. 다행히도 최근 유출된 정보에 따르면, 구글은 곧 출시될 텐서 G6 칩에 (현재로서는) 최신인 ARM C1 Ultra 및 C1 Pro CPU 코어를 탑재하기로 결정했으며, 유일한 빅 코어의 클럭 속도는 4.11GHz로 설정될 것으로 보입니다. 그럼에도 불구하고, 전작의 옥타코어 아키텍처와 달리, 곧 출시될 텐서 G6 SoC는 1+4+2 형식의 7코어 아키텍처를 채택할 것으로 보입니다. 이러한 후퇴는 비용 절감을 위한 편의주의적 결정으로 추정됩니다. 하지만 최근 나온 소식은 받아들이기 훨씬 더 어렵습니다. Android Authority가 인용한 Mystic Leaks 텔레그램 채널의 한 소식통에 따르면, 구글 텐서 G6 칩은 무려 2021년에 출시된 PowerVR CXT-48-1536 GPU를 탑재할 것이라고 합니다. 보아하니 구글은 텐서 G6 칩의 다이 크기를 최소화하려는 기이한 집착 때문에 5년 전 GPU에 의존하고 있는 것으로 보이며, 특히 AI 워크로드와 관련해서는 NPU가 그 공백을 메워주기를 바라고 있는 듯합니다. 특히 DRAM 비용이 계속 치솟는 상황에서, 이러한 기이한 선택이 구글의 마진 확보에 도움이 될 것이라는 점은 의심의 여지가 없습니다. 하지만 매우 안타까운 점은, 픽셀 11 시리즈 구매자들이 이 일로 인해 속아 넘어가고 있다는 사실입니다. 다행히도, 곧 출시될 SoC에는 새로운 타이탄 M3 보안 칩이 탑재될 예정이다. 잘 모르는 분들을 위해 설명하자면, 구글의 타이탄급 보안 코프로세서는 암호화 키와 생체 정보를 포함한 사용자 데이터를 하드웨어 수준에서 보호해 준다. 🔗 원문 링크: https://wccftech.com/google-tensor-g6-chip-likely-to-launch-with-an-ancient-gpu-that-debuted-around-5-years-back/
따노스
2026.04.29
1
1
DeepSeek은 지난주 58페이지에 달하는 V4 기술 보고서를 발표했으며, 약 300명에 달하는 ‘연구 및 엔지니어링’ 저자 명단이 주목을 받았다. 창업자 량원펑(梁文鋒)은 모든 연구원, 엔지니어와 함께 공동 저자로 이름을 올렸다. 명단 중 10명은 ‘퇴사’로 표기되어 있으며, 그중에는 왕빙쉔(王炳宣), 웨이하오란(魏浩然), 궈다야(郭達雅) 등 핵심 간부 멤버들도 포함되어 있다. 보도에 따르면, 2025년 하반기부터 현재까지 DeepSeek의 핵심 연구개발 멤버 최소 5명의 퇴사가 확인되었다. 보도에 따르면, DeepSeek 1세대 대규모 언어 모델의 핵심 저자인 왕빙쉔은 텐센트로, V2의 핵심 기여자인 루오푸리는 샤오미로, R1의 핵심 연구원인 궈다야는 바이트댄트(ByteDance)의 Seed 팀에 합류했으며, 다중 모달 기술 핵심 연구원인 룽촨도 퇴사 후 자율주행 기술 기업 원롱치행(Yuanrong Qixing)에 합류했다. OCR 시리즈의 핵심 저자인 웨이 하오란의 퇴사 후 행방은 아직 공개되지 않았으며, 이들 핵심 연구개발 인력은 기반 모델, 추론, OCR, 다중 모달 등 4대 핵심 기술 분야를 아우르고 있다. 양적 사모펀드 거물인 환방량화(幻方量化)가 2023년에 설립한 인공지능 기업인 DeepSeek은 DeepSeek-V3 및 DeepSeek-R1 등의 모델 오픈소스화와 뛰어난 성능을 바탕으로 2025년 한때 전 세계 AI 분야의 기술적 벤치마크가 되었다. IT홈(IT之家)의 4월 24일 보도에 따르면, DeepSeek-V4 모델 프리뷰 버전이 정식 출시되었으며 동시에 오픈소스로 공개되었다. DeepSeek-V4는 백만 단어 규모의 초대형 컨텍스트를 갖추고 있으며, 에이전트(Agent) 능력, 세계 지식 및 추론 성능 면에서 모두 국내 및 오픈소스 분야를 선도하고 있다. 광고 고지: 본문 내에 포함된 외부 연결 링크(하이퍼링크, QR 코드, 비밀번호 등 형태를 포함하되 이에 국한되지 않음)는 더 많은 정보를 전달하고 검색 시간을 절약하기 위한 것이며, 결과는 참고용일 뿐입니다. IT지아의 모든 기사에는 본 고지가 포함되어 있습니다. 🔗 원문 링크: https://www.ithome.com/0/944/264.htm
따노스
2026.04.29
0
1
구글과 엔비디아는 최근 출시된 A5X 인스턴스의 성능을 강화하기 위해 최대 100만 대의 엔비디아 GPU를 사용자에게 제공하기로 협력했습니다. 이번 발표는 추론 비용을 절감하고 토큰 처리량을 향상시키기 위한 양사의 최신 협력의 일환입니다. A5X 시스템은 AI 워크로드를 위한 단일 및 다중 클러스터 컴퓨팅 인프라 구축을 가능하게 하는 엔비디아의 네트워크 가속기를 기반으로 합니다. A5X 인스턴스는 에이전트형 인공지능 워크로드를 실행하도록 특별히 설계된 구글의 최신 제품입니다. 이는 구글의 AI 하이퍼컴퓨터 포트폴리오의 일부로, 이 포트폴리오는 구글의 제미니(Gemini) 플랫폼과 소비자 및 기업용 AI 서비스에도 활용되고 있습니다. 최근 발표에서 구글은 맞춤형 Arm 기반 CPU, 8세대 텐서 프로세서, 네이티브 PyTorch TPU 지원 및 A5X 인스턴스를 탑재한 새로운 가상 머신을 포함하여 하이퍼컴퓨터에 대한 대대적인 업그레이드를 발표했습니다. 이러한 새로운 기능들은 문제나 과제를 단계적으로 해결하는 데 중점을 두는 AI 에이전트 그룹에 의존하는 에이전트형 AI 워크로드를 특별히 겨냥하여 설계되었습니다. A5X 인스턴스는 NVIDIA의 최신 Vera Rubin AI GPU에서 작동하도록 설계된 구글 최초의 인스턴스입니다. 세부 사항에 따르면, A5X는 이더넷 기반 클라우드 인프라에서 AI 워크로드를 가속화하도록 설계된 NVIDIA의 ConnectX-9 NIC를 사용할 예정입니다. 이 NIC는 구글의 버고(Virgo) 플랫폼과 결합되어 사용자가 단일 클러스터에서 최대 80,000개의 루빈 GPU에, 멀티사이트 클러스터에서는 960,000개의 GPU에 접근할 수 있게 해줍니다. 구글의 버고 플랫폼은 단일 데이터 센터 내에서 여러 AI 칩을 연결할 수 있게 해줍니다. NVIDIA의 루빈(Rubin) GPU와 연동되는 것은 물론, 구글의 텐서 처리 장치(TPU)도 지원한다. 버고는 단일 데이터 센터 내에서 최대 134,000개의 TPU를, 여러 사이트에 걸쳐 100만 개 이상의 칩을 연결할 수 있다. NVIDIA에 따르면, A5X 인스턴스는 이전 세대에 비해 토큰당 추론 비용을 10분의 1로 낮추고 메가와트당 처리량을 10배 높일 수 있다. NVIDIA는 또한 Cadence 및 Siemens와 같은 기업의 제품들이 자사의 인프라를 통해 구동되며 Google Cloud에서 이용 가능하다고 언급하며, 물리적 및 산업용 AI에 대해서도 간략히 다루었습니다. 또한 Google의 Gemini 플랫폼은 사이버 보안과 같은 다양한 산업 분야에 에이전트 기반 모델과 워크플로를 배포할 수 있다고 덧붙였습니다. 🔗 원문 링크: https://wccftech.com/nvidias-rubin-lands-inside-googles-virtual-machine-stretching-multi-site-clusters-to-nearly-1-million-gpus/
따노스
2026.04.28
0
0
OpenAI는 오늘(4월 24일) 최신 AI 모델 GPT-5.5를 공개했다. 이는 현재까지 가장 지능적이고 직관적인 모델로, 에이전트 기반 코딩(Agentic Coding), 컴퓨터 활용, 과학 연구 분야에서 뛰어난 성능을 보인다. 이전 모델인 GPT-5.4와 비교해 동일한 작업을 수행할 때 필요한 토큰(Token) 사용량도 줄어든 것이 특징이다. OpenAI의 사장 Greg Brockman은 GPT-5.5의 핵심 혁신으로 “더 적은 지시로 더 많은 작업을 수행할 수 있는 능력”을 강조했다. 특히 모호한 문제를 처리할 때 높은 자율성을 발휘하며, 사용자 의도를 빠르게 이해하고 복잡한 다단계 작업을 스스로 계획하고 실행할 수 있다는 점이 주요 강점이다. 코드 작성 및 디버깅, 온라인 리서치, 데이터 분석, 다양한 도구 간 연동 작업에서 특히 뛰어난 성과를 보인다. GPT-5.5의 가장 큰 특징은 ‘에이전트(Agent) 능력’이다. 사용자가 세부 단계를 일일이 지정할 필요 없이, 다소 추상적인 복합 작업만 제시하면 모델이 스스로 계획을 세우고, 도구를 호출하며, 결과를 검증하고, 완료될 때까지 작업을 지속적으로 수행한다. 성능 측면에서도 GPT-5.5는 지능과 속도의 균형을 한층 강화했다. 모델 규모와 성능이 향상되었음에도 불구하고 실제 서비스 환경에서 토큰당 지연 시간은 GPT-5.4와 동일한 수준을 유지했으며, 동일 작업 수행 시 필요한 토큰 수는 크게 감소했다. Artificial Analysis의 Coding Index에서는 경쟁 모델 대비 절반 비용으로 최첨단(SOTA) 수준의 성능을 달성했다. Terminal-Bench 2.0 테스트에서는 82.7%의 정확도를 기록했다. GitHub 문제 해결을 평가하는 SWE-Bench Pro에서는 58.6%를 달성했으며, Expert-SWE 등 장기 과제에서도 이전 모델을 능가했다. 기업 활용 사례에서도 성과가 두드러진다. OpenAI 내부에서는 85% 이상의 직원이 매주 Codex를 사용하고 있으며, 재무팀은 이를 활용해 7만 페이지 이상의 세무 문서를 검토하며 업무 효율을 크게 향상시켰다. NVIDIA등 파트너 기업 역시 디버깅 시간을 수일에서 수시간으로 단축했다고 밝혔다. 현재 GPT-5.5는 Plus 및 Pro 사용자에게 제공되고 있으며, API 버전도 곧 출시될 예정이다. 가격은 입력 기준으로 100만 토큰당 5달러, Pro 버전은 30달러로 책정됐다.
따노스
2026.04.24
5
1
SpaceX가 비공개로 제출한 1조 7,500억 달러 규모의 S-1 신고서 유출 내용에 따르면, 자사 GPU를 직접 생산할 계획이 포함된 것으로 나타났습니다. 해당 문서는 장기적인 반도체 공급 계약이 부족한 상황에서, 필요한 프로세서 일부를 자체적으로 생산하기 위해 수십억 달러를 투자할 의도를 밝히고 있습니다. 특히 Reuters에 따르면, 사내에서 생산할 반도체는 AI 가속용 ASIC이 아니라 GPU로 언급된 점이 주목됩니다. 다만 명칭에 대해서는 여전히 해석의 여지가 있습니다. 이번 소식은 머스크가 새로운 TeraFab 반도체 제조 프로젝트에서 Intel의 14A 공정을 활용하고, SpaceX가 생산 시설을 운영할 것이라고 발표한 직후 전해졌습니다. Reuters가 확인한 S-1 문서에는 향후 대규모 자본 지출의 이유 중 하나로 ‘자체 GPU 생산(manufacturing our own GPUs)’이 명시되어 있습니다. 이는 SpaceX가 주요 칩 공급업체들과 장기 계약을 충분히 확보하지 못한 상황과도 관련이 있는 것으로 보입니다. 일론 머스크는 전날, Tesla에서 개발한 반도체를 생산하기 위해 SpaceX가 대규모 반도체 제조 시설을 건설 및 운영할 것이라고 확인했지만, ‘자체 GPU’ 개발 계획은 이번에 새롭게 드러난 내용입니다. Reuters는 기업마다 AI 가속기를 부르는 명칭이 다르다는 점도 지적합니다. AMD와 NVIDIA는 이를 ‘GPU’라고 부르는 반면, Google은 ‘TPU’, Microsoft는 ‘가속기(Accelerator)’, SambaNova는 ‘RDU’라는 용어를 사용합니다. 대부분의 하이퍼스케일 클라우드 기업과 하드웨어 업체들은 이러한 칩을 ASIC(특정 용도 집적회로)으로 분류합니다. SpaceX가 Tesla의 AI 칩과 별도로 ASIC을 명시하지 않은 점을 고려할 때, Reuters는 SpaceX가 ‘자체 GPU’라는 이름으로 기존 Tesla AI 프로세서와는 다른 개념의 칩을 설계 및 생산하려는 것으로 보고 있습니다.
따노스
2026.04.24
3
1
AI 컴퓨팅 용량이 지속적으로 증가하는 가운데, 컴퓨팅 인프라 제공업체 Nebius의 한 전문가는 AlphaSense와의 인터뷰에서 업계 현황을 설명했습니다. 성능 측면에서는 여전히 NVIDIA의 최첨단 AI GPU가 업계를 선도하고 있지만, 비용 기준이 변화하면서 대안 솔루션의 인기가 점점 높아지고 있다는 분석입니다. 또한 AI 컴퓨팅 수요는 여전히 매우 높아, 서비스 제공업체들은 100%에 가까운 가동률을 유지하며 비용을 낮추고 투자 수익을 극대화할 수 있는 상황입니다. 해당 전문가는 현재 AI 인프라 가격이 사용되는 GPU 종류와 사전 예약 여부에 따라 달라진다고 설명했습니다. 온디맨드 기준으로 NVIDIA H100은 시간당 2.95달러, H200은 3.50달러, 최신 Blackwell B200은 시간당 4.90달러에서 6.50달러 사이입니다. 한편, 사전 예약 시 가격은 낮아집니다. 최소 10,000개의 GPU를 1~2년 계약으로 예약할 경우, H100은 1.50달러, H200은 2.20달러, B200은 최소 3.50달러 수준입니다. 2025년 말, NVIDIA는 칩 스타트업 Groq과 비독점 라이선스 계약을 체결했다고 발표했습니다. 이는 당시 NVIDIA의 최대 규모 계약으로, Groq의 AI 추론 기술이 포함되었습니다. Nebius 전문가는 현재 기업 워크로드 수요의 90~95%가 추론에서 발생한다고 설명합니다. 이는 기업들이 자체 소프트웨어를 개발하기보다 사전 학습된 모델이나 API를 활용하는 경향이 강해졌기 때문입니다. AI 인프라 시장에서는 학습에서 추론으로의 전환뿐만 아니라, 비용 구조의 변화도 동시에 진행되고 있습니다. 이와 함께 NVIDIA GPU의 대안 칩에 대한 수요 역시 증가하고 있습니다. 백만 토큰당 비용 비교: NVIDIA Blackwell vs. Groq 새로운 비용 구조에서는 사용량을 토큰 단위, 또는 백만 토큰 기준으로 과금하는 방식이 확산되고 있습니다. 이에 따르면 Groq의 칩은 백만 토큰당 0.05~0.10달러 수준으로 매우 경제적인 반면, NVIDIA의 B100, B200, B300은 약 0.25달러로 약 5배 높은 비용입니다. 또한 Groq 칩은 비용뿐 아니라 속도에서도 경쟁력을 보이며, 초당 최대 800토큰을 처리할 수 있어 NVIDIA 칩의 약 450토큰 대비 거의 두 배에 달합니다. 출처 : https://wccftech.com/nvidias-ai-chips-see-alternatives-emerge-amidst-pricing-model-shift-to-cost-per-million-tokens/
따노스
2026.04.24
4
1
엔비디아(www.nvidia.co.kr, CEO 젠슨 황)가 미국 새너제이에서 열린 세계 최대 AI·가속 컴퓨팅 콘퍼런스인 ‘엔비디아(NVIDIA) GTC 2026’에서 엔비디아 베라 루빈(Vera Rubin) 플랫폼이 에이전틱 AI의 새로운 지평을 열어가고 있으며, 세계 최대 규모 AI 팩토리 확장을 위해 7종의 신규 칩 양산을 시작했다고 발표했다. 이 플랫폼은 엔비디아 베라 CPU(Vera CPU), 엔비디아 루빈 GPU, 엔비디아 NV링크™ 6 스위치(NVLink™ 6 Switch), 엔비디아 커넥트X®-9 슈퍼NIC(ConnectX®-9 SuperNIC), 엔비디아 블루필드®-4 DPU(BlueField®-4 DPU), 엔비디아 스펙트럼™-6 이더넷 스위치(Spectrum™-6 Ethernet Switch), 그리고 새롭게 통합된 엔비디아 그록 3 LPU(Groq 3 LPU)를 포함한다. 하나의 강력한 AI 슈퍼컴퓨터로 작동하도록 설계된 이 칩들은 대규모 사전·사후 훈련, 테스트 시점 확장부터 실시간 에이전틱 추론까지 AI의 전 단계를 지원한다. 엔비디아 창립자 겸 CEO 젠슨 황(Jensen Huang)은 “베라 루빈은 세대를 뛰어넘는 도약이다. 7개의 혁신적인 칩, 5개의 랙, 하나의 거대한 슈퍼컴퓨터가 AI의 모든 단계를 지원하기 위해 구축됐다. 이제 에이전틱 AI의 전환점이 도래했으며, 베라 루빈이 역사상 가장 위대한 인프라 구축을 본격화하고 있다”고 말했다. 앤트로픽(Anthropic) CEO 겸 공동 창립자 다리오 아모데이(Dario Amodei)는 “기업과 개발자들은 점점 더 복잡한 추론, 에이전틱 워크플로우, 미션 크리티컬 의사결정을 위해 클로드(Claude)를 활용하고 있다. 이를 위해서는 이러한 변화에 발맞출 수 있는 인프라가 필요하다. 엔비디아 베라 루빈 플랫폼은 서비스를 지속적으로 제공하는 데 필요한 컴퓨팅, 네트워킹, 시스템 설계 역량을 제공하며, 고객의 안전성과 신뢰성을 한층 더 높여준다”고 말했다. 오픈AI(OpenAI) CEO 샘 올트먼(Sam Altman)은 “엔비디아 인프라는 우리가 AI의 지평을 계속 넓혀갈 수 있게 하는 기반이다. 엔비디아 베라 루빈을 통해 더 강력한 모델과 에이전트를 대규모로 구동하고, 수억 명의 사용자에게 더 빠르고 더 안정적인 시스템을 제공할 것”이라고 말했다. POD 규모 시스템으로의 전환 AI 인프라는 개별 칩과 독립형 서버에서 완전 통합형 랙 규모 시스템, POD 규모 배치, AI 팩토리, 소버린 AI(sovereign AI)로 빠르게 진화하고 있다. 이러한 발전은 성능을 획기적으로 끌어올리고, 스타트업, 중견기업, 공공·민관 기관, 대기업에 이르기까지 모든 규모와 산업 분야의 비용 효율성을 개선한다. 동시에 AI 접근성을 에너지 효율을 개선해 세계에서 가장 까다로운 워크로드를 구동하는 데 기여하고 있다. 엔비디아 베라 루빈은 컴퓨팅, 네트워킹, 스토리지 전반에 걸친 긴밀한 공동 설계를 통해, 글로벌 공급망을 갖춘 80개 이상의 엔비디아 MGX 생태계 파트너가 이를 지원한다. 또한 가장 광범위한 엔비디아 POD 규모 플랫폼을 제공하며, 이는 AI 전용으로 설계된 여러 랙이 하나의 거대하고, 일관된 통합 시스템으로 작동하는 슈퍼컴퓨터다. 엔비디아 베라 루빈 NVL72 랙 NV링크 6로 연결된 72개의 루빈 GPU와 36개의 베라 CPU, 커넥트X-9 슈퍼NIC, 블루필드-4 DPU를 통합한 베라 루빈 NVL72는 획기적인 효율성을 제공한다. 엔비디아 블랙웰 플랫폼 대비 4분의 1 수준의 GPU 수로 대규모 전문가 혼합(mixture-of-experts, MoE) 모델을 훈련시키고, 토큰당 비용은 10분의 1 수준으로 유지하며, 와트당 추론 처리량을 최대 10배까지 향상시킨다. 전 세계 하이퍼스케일 AI 팩토리를 위해 설계된 NVL72는 엔비디아 퀀텀-X800 인피니밴드(Quantum-X800 InfiniBand)와 스펙트럼-X 이더넷과 원활하게 확장된다. 이를 통해 대규모 GPU 클러스터 전반에서 높은 활용도를 유지하는 동시에 훈련 시간을 줄이고 총소유비용을 절감한다. 엔비디아 베라 CPU 랙 강화학습과 에이전틱 AI 워크로드는 GPU 시스템 모델에서 생성된 결과를 테스트, 검증하기 위해 다수의 CPU 기반 환경에 의존한다. 엔비디아 베라 CPU 랙은 엔비디아 MGX 기반의 고밀도 액체 냉각 인프라를 제공하며, 256개의 베라 CPU를 통합해 확장 가능하고 에너지 효율적인 용량을 제공한다. 이를 통해 세계 최고 수준의 단일 스레드 성능을 통해 대규모 에이전틱 AI를 구현한다. 스펙트럼-X 이더넷 네트워킹과 통합된 베라 CPU 랙은 AI 팩토리 전반에 걸쳐 CPU 환경을 긴밀하게 동기화한다. GPU 컴퓨팅 랙과 함께 대규모 에이전틱 AI와 강화 학습을 위한 CPU 기반을 제공하며, 베라는 기존 CPU 대비 2배 높은 효율성과 50% 더 빠른 속도로 결과를 제공한다. 엔비디아 그록 3 LPX 랙 엔비디아 그록 3 LPX는 가속 컴퓨팅의 새로운 이정표로, 에이전틱 시스템의 저지연과 대규모 컨텍스트 요구사항을 충족하도록 설계됐다. LPX와 베라 루빈의 뛰어난 성능과 결합해 메가와트당 최대 35배 더 높은 추론 처리량을 제공하고, 1조 파라미터 모델 기준 최대 10배 더 높은 수익 기회를 창출한다. 대규모 환경에서 LPU 플릿(fleets)은 빠르고 결정적인 추론을 위한 단일 논리 프로세서로 작동한다. 256개의 LPU 프로세서를 탑재한 LPX 랙은 128GB 온칩 SRAM과 초당 640TB의 확장형 대역폭을 제공한다. 베라 루빈 NVL72에 탑재된 루빈 GPU와 LPU는 AI 모델의 모든 출력 토큰의 각 레이어를 공동으로 연산해, 디코딩을 가속화한다. 1조 파라미터 모델과 100만 토큰 컨텍스트에 최적화된 공동 설계형 LPX 아키텍처는 베라 루빈과 결합해 전력, 메모리, 컴퓨팅 전반의 효율성을 극대화한다. 또한 와트당 처리량과 토큰당 성능을 높여 수조 파라미터, 백만 컨텍스트 기반의 초고성능 추론이라는 새로운 성능 단계를 구현한다. 완전 액체 냉각 방식과 MGX 인프라 기반으로 구축된 LPX는 차세대 베라 루빈 AI 팩토리에 원활하게 통합될 수 있도록 설계됐으며, 올해 하반기 출시될 예정이다. 엔비디아 블루필드-4 STX 스토리지 랙 엔비디아 블루필드-4 STX 랙 규모 시스템은 GPU 메모리를 POD 전반에 원활하게 확장하는 AI 네이티브 스토리지 인프라다. STX는 엔비디아 베라 CPU와 엔비디아 커넥트X-9 슈퍼NIC을 결합한 블루필드-4로 구동된다. 이를 통해 거대 언어 모델(large language model, LLM)과 에이전틱 AI 워크플로우에서 생성되는 대규모 키-값(KV) 캐시 데이터를 저장하고 검색하는 데 최적화된 고대역폭 공유 계층을 제공한다. 엔비디아 도카 메모스™(DOCA Memos™)는 블루필드-4 스토리지를 극대화하는 새로운 도카 프레임워크로, 전용 KV 캐시 스토리지 처리를 통해 추론 처리량을 최대 5배까지 높이고, 일반 스토리지 아키텍처 대비 전력 효율을 크게 향상시킨다. 그 결과, POD 전반에 걸친 컨텍스트를 통해 AI 에이전트와의 더 빠른 멀티턴(multi-turn) 상호작용을 구현하고, AI 서비스의 확장성과 전체 인프라 활용도를 향상시킨다. 미스트랄 AI(Mistral AI) 공동 창립자 겸 CTO 티모테 라크루아(Timothée Lacroix)는 “엔비디아 블루필드-4 STX 랙 규모 컨텍스트 메모리 스토리지 시스템은 우리의 에이전틱 AI 개발을 기하급수적으로 확장하는 데 필요한 핵심적인 성능 향상을 지원할 것이다. STX는 AI 에이전트 메모리를 위해 특별히 설계된 새로운 스토리지 계층을 제공함으로써, 모델이 방대한 데이터셋을 추론할 때에도 일관성과 속도를 유지할 수 있는 이상적인 솔루션”이라고 말했다. 엔비디아 스펙트럼-6 SPX 이더넷 랙 스펙트럼-6 SPX 이더넷은 AI 팩토리 전반의 동서(east-west) 트래픽을 가속하도록 설계됐다. 스펙트럼-X 이더넷 또는 엔비디아 퀀텀-X800 인피니밴드 스위치와 함께 구성할 수 있으며, 대규모 환경에서 저지연·고처리량의 랙 간 연결을 제공한다. 광학 모듈이 통합된 스펙트럼-X 이더넷 포토닉스(Spectrum-X Ethernet Photonics)는 기존 플러그형 트랜시버 대비 최대 5배 높은 광 전력 효율과 10배 높은 복원력을 제공한다. 복원력과 에너지 효율성 향상 엔비디아는 200개 이상의 데이터센터 인프라 파트너와 함께 베라 루빈을 위한 엔비디아 DSX 플랫폼을 발표했다. 여기에는 DSX 맥스-Q(DSX Max-Q)가 포함되며, 이는 AI 팩토리 전체에 동적 전력 프로비저닝(provisioning)을 통해, 전력이 고정된 데이터센터에서 최대 30% 더 많은 AI 인프라 구축을 지원한다. 새로운 DSX 플렉스(DSX Flex) 소프트웨어는 AI 팩토리를 전력망 유연성을 갖춘 에셋으로 전환해, 100기가와트 규모의 유휴 전력을 활용할 수 있다. 또한 엔비디아는 베라 루빈 DSX AI 팩토리 레퍼런스 디자인(Vera Rubin DSX AI Factory reference design) 을 공개했다. 이는 와트당 토큰 수와 전체 처리량을 극대화하고, 시스템 복원력을 높이며, 초기 프로덕션까지 걸리는 시간을 단축하는 공동 설계 AI 인프라의 블루프린트(blueprint)를 제공한다. 이 아키텍처는 컴퓨팅, 네트워킹, 스토리지, 전력, 냉각을 긴밀하게 통합함으로써, 에너지 효율성을 높이고 AI 팩토리가 지속적인 고강도 워크로드 환경에서도 최대 가동 시간을 유지하며 안정적으로 확장될 수 있도록 지원한다. 광범위한 생태계 지원 베라 루빈 기반 제품은 올해 하반기부터 파트너사를 통해 제공될 예정이다. 여기에는 아마존 웹 서비스(Amazon Web Services), 구글 클라우드(Google Cloud), 마이크로소프트 애저(Microsoft Azure), 오라클 클라우드 인프라스트럭처(Oracle Cloud Infrastructure) 등 주요 클라우드 제공업체와 함께, 엔비디아 클라우드 파트너(Cloud Partners)인 코어위브(CoreWeave), 크루소(Crusoe), 람다(Lambda), 네비우스(Nebius), 엔스케일(Nscale), 투게더 AI(Together AI)가 포함된다. 글로벌 시스템 제조업체인 시스코(Cisco), 델 테크놀로지스(Dell Technologies), HPE, 레노버(Lenovo), 슈퍼마이크로(Supermicro)는 베라 루빈 기반 제품을 탑재한 다양한 서버를 공급할 것으로 예상된다. 여기에는 에이브레스(Aivres), 에이수스(ASUS), 폭스콘(Foxconn), 기가바이트(GIGABYTE), 인벤텍(Inventec), 페가트론(Pegatron), 퀀타 클라우드 테크놀로지(Quanta Cloud Technology, QCT), 위스트론(Wistron), 위윈(Wiwynn) 등도 포함된다. 앤트로픽, 메타(Meta), 미스트랄 AI, 오픈AI를 포함한 AI 연구소와 최첨단 모델 개발사들은 엔비디아 베라 루빈 플랫폼을 활용해 더 크고 성능이 뛰어난 모델을 훈련시키고, 이전 GPU 세대보다 더 낮은 지연 시간과 비용으로 긴 컨텍스트 멀티모달 시스템을 제공할 계획이다.
대장
2026.03.17
0
0
인피니언 테크놀로지스(코리아 대표이사 이승수)는 엔비디아와의 협력을 확대해 피지컬 AI를 위한 시스템 아키텍처 개발을 가속한다고 밝혔다. 양사는 2025년 8월 발표된 기존 협력을 기반으로, 인피니언의 모터 제어, 마이크로컨트롤러, 전력 시스템 및 보안 기술과 엔비디아의 AI, 로보틱스, 시뮬레이션 플랫폼을 결합해 업계가 휴머노이드 로봇을 설계하고 상용화하는 것을 지원할 것이다. 인피니언은 또한 엔비디아의 Halos AI Systems Inspection Lab에 참여해 견고한 하드웨어 및 소프트웨어 안전 기반 설계를 검토하여, 로봇이 실제 환경에서 안전하고 보안적으로 작동할 수 있도록 할 것이다. 휴머노이드 로봇은 주변을 인지하고, 실시간으로 의사 결정을 내리며, 사람을 위해 설계된 작업 공간에서 안전하게 움직여야 하는 복잡한 시스템이다. 이를 위해서는 센싱, 프로세싱, 구동, 커넥티비티, 에너지 관리 등 반도체 기반 기능의 연결이 필수적이다. 인피니언은 반도체 솔루션을 엔비디아의 시뮬레이션 및 로보틱스 플랫폼에 통합해 센싱, 판단, 안전하고 보안적인 동작의 전 과정을 가속화하여, 휴머노이드 로봇이 실험실 단계에서 대규모 상용 배치로 빠르게 전환될 수 있도록 지원한다. 이번 협력의 핵심 요소는 인피니언 스마트 액추에이터 및 엄선된 센서의 디지털 트윈 활용이다. 이러한 가상 모델은 개방형 로보틱스 학습 및 시뮬레이션 프레임워크인 NVIDIA Isaac Sim 및 NVIDIA Isaac Lab에 적용되어, 개발자들이 하드웨어 제작 및 통합 이전에 현실적인 시뮬레이션 환경에서 로봇 모션 제어와 인지 기능을 테스트하고 조정할 수 있도록 한다. 이를 통해 고객은 개발 초기 단계에서 문제를 발견하고 해결할 수 있어, 물류, 제조, 서비스 로봇 등 휴머노이드 로봇의 시장 출시 시간을 단축하고 통합 리스크를 줄일 수 있다. 인피니언 전력 및 센서 시스템 부문의 아담 화이트(Adam White) 사장은 “지능형 로봇은 주변을 인식하고 판단하고 행동하는 데 필요한 마이크로 일렉트로닉스에 의존하기 때문에, 로보틱스 시장의 빠른 성장은 반도체 시장의 성장을 견인할 것이다. 인피니언의 전력, 모터, 제어, 마이크로컨트롤러, 보안 기술과 엔비디아의 로보틱스 및 디지털 트윈 플랫폼, Halos AI Systems Inspection Lab을 결합함으로써 개발자들이 설계를 더 빠르게 검증하고, 휴머노이드 로봇을 실험실 단계에서 실제 운영 단계로 전환하며, 프로토타입에서 대규모 플릿 배치까지 확장할 수 있도록 지원하고 있다.”라고 말했다. 엔비디아 로보틱스 및 엣지 AI 부문 디푸 탈라(Deepu Talla )부사장은 “차세대 휴머노이드 로봇은 복잡한 실제 환경을 안전하게 탐색하기 위한 피지컬 AI를 요구하며, 최고 수준의 기능 안전과 보안 기준을 충족해야 한다. 인피니언은 엔비디아의 젯슨 토르(Jetson Thor)와 고급 시뮬레이션 기술을 센싱 및 액추에이션 솔루션에 통합함으로써, 개발자들에게 안전한 차세대 자율 로봇의 상용화를 가속할 수 있는 강력한 플랫폼을 제공하고 있다.”라고 말했다. 인피니언, 휴머노이드 로봇의 안전하고 보안적인 센싱, 이동, 동작, 연결 지원 인피니언과 엔비디아는 기존 협력을 기반으로 초저지연, 소형 폼팩터 및 고전력 밀도를 갖춘 휴머노이드 로봇용 공통 시스템 아키텍처를 개발할 것이다. 인피니언은 NVIDIA Jetson Thor 개발 플랫폼과 연동되는 NVIDIA Holoscan Sensor Bridge 기반의 모터 제어 솔루션을 제공하며, AURIX™ 마이크로컨트롤러 및 PSOC™ 디바이스를 활용하고 펌웨어 및 시스템 보호를 위한 PQC(양자내성암호)를 지원할 것이다. 보안은 협력의 핵심이다. NVIDIA Jetson Thor는 소형 컴퓨팅 모듈과 센서, 네트워크, 액추에이터에 전원을 공급하고 인터페이스를 제공하는 캐리어 보드로 구성된다. 인피니언은 AI 모델과 데이터를 보호하고 NVIDIA Jetson 모듈부터 클라우드까지 시스템 전체를 안전하게 유지하기 위해 하드웨어 TPM(Trusted Platform Module) 칩 및 기타 보안 구성 요소를 레퍼런스 디자인으로 제공할 예정이다. 또한 이번 협력은 레벨 4 자율주행 차량 및 로봇 시스템 인증 설계를 지원하는 Halos 안전 프레임워크에 중점을 둘 것이다. 인피니언은 하드웨어 및 소프트웨어 안전 기반을 제공하고, 하드웨어 플랫폼과 운영 체제를 통합하여 전체 스택에 걸쳐 설계 단계부터 엄격한 안전 및 체계적인 사이버 보안을 보장한다. 이를 통해 Jetson 기반 캐리어 보드를 설계하는 기업들은 시큐어 부트, 암호화 통신, 보안적인 OTA 업데이트 등 강화된 보안을 구축할 수 있다. 로보틱스 업계의 신뢰받는 파트너인 인피니언은 엔비디아와 휴머노이드 OEM 등 에코시스템 파트너와 협력하며, 센서, 마이크로컨트롤러, 액추에이터, 이더넷 기반 네트워킹 등 커넥티비티, 메모리, 배터리 관리 시스템까지 휴머노이드 로봇의 핵심 기능 블록에 필요한 광범위한 포트폴리오를 제공한다. Si·SiC·GaN 등 다양한 반도체 기술을 기반으로, 인피니언은 휴머노이드 로봇 1대당 약 500달러 수준의 반도체 부품을 제공할 것으로 추정한다. 인피니언은 로봇이 안전하고 보안적으로 감지, 이동, 동작, 연결할 수 있는 솔루션을 제공하여 로봇 도입 속도를 가속화한다.
대장
2026.03.17
0
0
엔비디아(www.nvidia.co.kr, CEO 젠슨 황)가 미국 새너제이에서 열린 세계 최대 AI·가속 컴퓨팅 콘퍼런스인 ‘엔비디아(NVIDIA) GTC 2026’에서 세계 최초의 에이전틱 AI·강화학습 전용 프로세서 엔비디아 베라 CPU(NVIDIA Vera CPU)를 공개했다. 엔비디아 베라 CPU는 기존 랙 스케일 CPU 대비 2배 높은 효율과 50% 빠른 성능을 제공한다. 추론과 에이전틱 AI가 발전을 거듭하면서, 작업 계획 수립과 도구 실행, 데이터 상호작용, 코드 실행, 결과 검증을 수행하는 모델을 지원하는 인프라가 규모와 성능, 비용을 좌우하는 핵심 요소로 부상하고 있다. 엔비디아 베라 CPU는 엔비디아 그레이스 CPU(Grace™ CPU)의 성과를 바탕으로 개발됐으며, 다양한 규모의 조직과 산업 전반에서 에이전틱 AI의 대규모 구현에 필요한 AI 팩토리를 구축할 수 있도록 지원한다. 최상급 단일 스레드 성능과 코어당 대역폭을 갖춘 베라는 새로운 등급의 CPU다. 코딩 어시스턴트와 같은 대규모 AI 서비스는 물론, 소비자와 기업용 에이전트에서 더 높은 AI 처리량과 응답성, 효율성을 제공한다. 베라 도입을 위해 엔비디아와 협력 중인 선도적 하이퍼스케일러에는 알리바바(Alibaba), 코어위브(CoreWeave), 메타(Meta), 오라클 클라우드 인프라스트럭처(Oracle Cloud Infrastructure, OCI) 등이 있다. 델 테크놀로지스(Dell Technologies), 휴렛팩커드 엔터프라이즈(Hewlett Packard Enterprise, HPE), 레노버(Lenovo), 슈퍼마이크로(Supermicro) 등 글로벌 시스템 제조사도 베라 기반 서버를 설계하고 있다. 이처럼 폭넓은 채택을 바탕으로 베라는 개발자와 스타트업, 공공 및 민간 조직 등 다양한 기관이 필요로 하는 AI 워크로드의 새로운 CPU 표준으로 자리 잡아 AI 접근성을 높이고 혁신을 가속할 것으로 기대된다. 엔비디아 창립자 겸 CEO 젠슨 황(Jensen Huang)은 “베라는 AI의 전환점에 등장했다. 인텔리전스가 에이전틱 형태로 발전해 추론과 행동이 가능해지면서 그 작업을 오케스트레이션(orchestration)하는 시스템의 중요도는 높아지고 있다. 이제 CPU는 단순한 지원 역할을 넘어 모델을 직접 구동하는 단계로 확장되고 있다. 베라는 혁신적인 성능과 에너지 효율을 바탕으로 더욱 빠르게 사고하고 더욱 큰 규모로 확장하는 AI 시스템의 시대를 연다”라고 말했다. 모든 데이터센터 환경에 적합한 구성 엔비디아는 256개 수랭식 베라 CPU로 구성된 새로운 베라 CPU 랙을 발표했다. 이는 독립적으로 실행되는 2만 2,500개 이상의 동시 CPU 환경을 최대 성능으로 지원한다. 이를 통해 AI 팩토리는 단일 랙에서 수만 개의 인스턴스와 에이전틱 도구를 동시에 빠르게 배포, 확장할 수 있다. 베라 랙은 전 세계 80개 생태계 파트너가 지원하는 엔비디아 MGX™ 모듈형 레퍼런스 아키텍처를 기반으로 구축됐다. 엔비디아 베라 루빈 NVL72 플랫폼에 포함된 베라 CPU는 엔비디아 NV링크-C2C(NVLink™-C2C) 인터커넥트 기술을 바탕으로 엔비디아 GPU와 결합될 수 있다. 이 기술은 1.8 TB/s의 일관적인 대역폭을 제공하며, PCIe 젠 6(Gen 6) 대역폭보다 7배 높은 수준으로 CPU와 GPU 사이 고속 데이터 공유가 가능하다. 또한 엔비디아는 베라를 엔비디아 HGX™ 루빈(Rubin) NVL8 시스템의 호스트 CPU로 사용해 GPU 가속 워크로드의 데이터 이동과 시스템 제어를 조율할 수 있는 새로운 레퍼런스 디자인을 발표했다. 베라 시스템 파트너들은 듀얼, 싱글 소켓 CPU 서버 구성을 제공하고 있다. 이는 강화학습과 에이전틱 추론, 데이터 처리, 오케스트레이션, 스토리지 관리, 클라우드 애플리케이션, 고성능 컴퓨팅과 같은 워크로드에 최적화돼 있다. 베라 시스템은 모든 구성에서 엔비디아 커넥트X 슈퍼NIC(ConnectX® SuperNIC) 카드를 비롯한 엔비디아 블루필드-4(BlueField®-4) DPU와 통합돼 가속 네트워킹, 스토리지와 보안 기능을 제공하며, 이는 에이전틱 AI의 구현에 중요한 요소다. 이를 통해 특정 워크로드에 맞춰 시스템을 최적화하면서도 엔비디아 플랫폼 전반에서 단일 소프트웨어 스택을 유지할 수 있게 된다. 에이전틱 확장을 위한 설계 고성능, 고효율의 CPU 코어와 고대역폭 메모리 서브시스템, 2세대 엔비디아 스케일러블 코히어런시 패브릭(Scalable Coherency Fabric)을 결합한 베라는 에이전틱 AI와 강화학습 환경과 같이 시스템 활용도가 높은 상황에서도 더욱 신속한 에이전틱 응답을 가능하게 한다. 베라는 엔비디아가 자체 설계한 올림푸스(Olympus) 코어 88개를 탑재해 컴파일러, 런타임 엔진, 분석 파이프라인, 에이전틱 툴링(tooling), 오케스트레이션 서비스에서 높은 성능을 제공한다. 각 코어는 엔비디아 공간적 멀티스레딩(Spatial Multithreading)을 활용해 두 개의 작업을 동시에 실행하면서 일관되고 예측 가능한 성능을 제공한다. 이 같은 특성은 여러 작업을 동시에 실행하는 다중 테넌트(multi-tenant) AI 팩토리에 특히 적합하다. 또한 에너지 효율을 더욱 높이기 위해 베라는 엔비디아 저전력 메모리 서브시스템의 2세대 아키텍처를 도입했다. 이는 LPDDR5X 메모리를 기반으로 하며 최대 1.2TB/s의 대역폭을 제공한다. 일반 범용 CPU와 비교해 대역폭은 두 배, 전력 소비는 절반 수준이다. 폭넓은 생태계 지원 AI 네이티브 소프트웨어 개발 분야의 혁신 기업인 커서(Cursor)는 AI 코딩 에이전트의 성능을 향상시키기 위해 엔비디아 베라를 도입하고 있다. 커서 공동 창립자 겸 CEO 마이클 트루엘(Michael Truell)은 “엔비디아 베라 CPU를 통해 전체 처리량과 효율성을 높여 고객에게 더 빠르고 반응성이 뛰어난 코딩 에이전트 경험을 제공할 수 있게 되기를 기대한다”고 말했다. 데이터 스트리밍, AI 플랫폼 선도 기업 레드판다(Redpanda)는 베라를 활용해 성능을 크게 향상시키고 있다. 레드판다 창립자 겸 CEO 알렉스 갈레고(Alex Gallego)는 “레드판다는 최근 엔비디아 베라에서 아파치 카프카(Apache Kafka) 호환 워크로드를 테스트한 결과 기존에 벤치마킹한 시스템 대비 탁월한 성능 향상을 확인했다. 특히 레이턴시는 5.5배까지 줄었다. 베라는 코어당 더 많은 메모리와 더 낮은 오버헤드를 제공하는 CPU 아키텍처의 새로운 방향을 제시한다. 이를 통해 고객들은 실시간 스트리밍 워크로드를 이전보다 월등히 큰 규모로 확장하고, 새로운 AI와 에이전틱 애플리케이션을 구현할 수 있게 된다”고 말했다. 라이프니츠 슈퍼컴퓨팅 센터(Leibniz Supercomputing Centre)와 로스앨러모스 국립 연구소(Los Alamos National Laboratory), 로렌스 버클리 국립 연구소(Lawrence Berkeley National Laboratory) 산하 국립 에너지 연구 과학 컴퓨팅 센터(National Energy Research Scientific Computing Center), 텍사스 첨단 컴퓨팅 센터(Texas Advanced Computing Center, TACC) 등의 국가 연구 기관 또한 베라 CPU 도입을 계획하고 있다. TACC 고성능 컴퓨팅 디렉터 존 케이즈(John Cazes)는 “TACC는 차세대 호라이즌(Horizon) 시스템에 베라를 도입하기에 앞서 최근 베라 CPU 플랫폼을 테스트했다. 여섯 개의 과학 애플리케이션을 실행한 결과 놀라운 초기 성능이 확인됐다. 베라의 코어당 성능과 메모리 대역폭은 과학 컴퓨팅 분야의 비약적인 도약을 의미한다. TACC는 올해 말 호라이즌 시스템의 CPU 사용자들에게 베라 기반 노드를 제공할 수 있기를 기대한다”라고 말했다. 베라 CPU 도입을 계획 중인 선도적인 클라우드 서비스 제공업체로는 알리바바, 바이트댄스(ByteDance), 클라우드플레어(Cloudflare), 코어위브, 크루소(Crusoe), 람다(Lambda), 네비우스(Nebius), 엔스케일(Nscale), OCI, 투게더.AI(Together.AI), 벌처(Vultr) 등이 있다. 베라 CPU를 도입한 주요 인프라 공급업체로는 에이브레스(Aivres), 애즈락 랙(ASRock Rack), 에이수스(ASUS), 컴팔(Compal), 시스코(Cisco), 델, 폭스콘(Foxconn), 기가바이트(GIGABYTE), HPE, 하이브(Hyve), 인벤텍(Inventec), 레노버, 미텍(MiTAC), MSI, 페가트론(Pegatron), 콴타 클라우드 테크놀로지(Quanta Cloud Technology QCT), 슈퍼마이크로, 위스트론(Wistron), 위윈(Wiwynn) 등이 있다.
대장
2026.03.17
0
0
- 이벤트
l
- 체험단 모집
l
- 특가 이벤트
l
- 당첨/발표