
김선욱 엔비디아코리아 테크니컬 마케팅 상무가 22일 대만 그랜드 하이라이 타이베이에서 열린 '엔터프라이즈 AI 설루션 투어'에서 "이번에 텐서RT-윈도ML 통합으로 AI 작업량 처리 속도가 DirectML 대비 50% 이상 향상됐다"고 말했다.

김 상무는 "텐서RT 통합으로 기존 대비 8배 더 작은 패키지 크기로 1억 대 이상의 RTX AI PC에 AI를 배포할 수 있게 됐다"며 "RTX AI PC는 생성형 AI 실험을 더 쉽게 시작할 수 있도록 지원한다"고 설명했다.
마이크로소프트(MS) 빌드에서 발표된 RTX용 텐서RT는 윈도 ML을 기본적으로 지원한다. 윈도 ML은 ONNX 런타임 기반으로 구동된다.
김 상무는 "텐서RT는 원래 데이터센터용으로 구축된 라이브러리였지만, RTX AI PC를 위해 완전히 새롭게 설계했다"고 강조했다.

김 상무는 투어에서 블랙웰 GPU와 그레이스 CPU를 결합한 'GB300' 아키텍처를 상세히 소개했다.
김 상무는 "GB300 컴퓨팅 트레이로 그레이스 CPU와 블랙웰 GPU를 연결한 모듈을 여러 개 구성할 수 있다"며 "NV링크는 엔비디아의 핵심 기술로 GPU 간 연결을 담당한다. NV링크 72는 GPU 72개를 연결할 수 있단 의미로 향후 8개 GPU 18개를 연결한 랙을 4개 묶어 GPU 576개를 연결하는 기술을 개발하고 있다"고 설명했다.

그는 "카이버(Kyber)는 차세대 GPU 적용 프로젝트 코드네임으로 훨씬 더 얇고 효율적인 형태로 설계됐다"며 "기존의 랙 방식이 아닌 새로운 방식의 GPU 구성을 제공한다"고 했다.
이어 "포토닉(Photonic) 기술은 전기 신호를 광신호로 변환하는 과정 없이 직접 광신호를 송출해 에너지를 절약한다"며 "데이터센터 간 연결에서 컨버팅 작업을 줄이면 80와트씩 절약돼 전체 에너지 효율이 크게 높일 수 있다"고 강조했다.

김 상무는 대규모 데이터센터가 아닌 연구자들이 개인적으로 활용할 수 있는 설루션도 제시했다.
그는 "DGX 스파크, DGX 스테이션 등 연구자들이 개인 환경에서 활용할 수 있는 설루션이 있다"며 "딥시크, 라마 같은 모델을 다운받아 탑재하면 클라우드를 이용하지 않고 로컬에서 대형언어모델(LLM)을 구동할 있어 비용을 절감할 수 있다"고 강조했다.
엔비디아는 기업이 어디서나 엔비디아 GPU로 AI 모델을 실행할 수 있게 해주는 가속화 추론 마이크로서비스 세트 'NIM'(nvidia Inference microservice)을 제공한다. 이 모델은 △애니띵LLM △MS VS코드 △컴피UI 등 앱에서 실행할 수 있다.
