엔비디아 "신규설계 텐서RT·윈도ML 통합으로 AI성능 50%향상"
김선욱 상무 "8배 작아진 패키지로 1억대이상 RTX AI PC지원"
"GPU 연결 핵심기술 NV링크, GPU 576개 연결기술 개발 중"
- 김민석 기자
(타이베이=뉴스1) 김민석 기자
"RTX 인공지능(AI) PC용으로 새롭게 설계된 엔비디아 텐서RT(TensorRT)가 윈도 ML(Windows ML)을 통해 고성능 AI 실행 환경을 지원합니다"
김선욱 엔비디아코리아 테크니컬 마케팅 상무가 22일 대만 그랜드 하이라이 타이베이에서 열린 '엔터프라이즈 AI 설루션 투어'에서 "이번에 텐서RT-윈도ML 통합으로 AI 작업량 처리 속도가 DirectML 대비 50% 이상 향상됐다"고 말했다.
김 상무는 "텐서RT 통합으로 기존 대비 8배 더 작은 패키지 크기로 1억 대 이상의 RTX AI PC에 AI를 배포할 수 있게 됐다"며 "RTX AI PC는 생성형 AI 실험을 더 쉽게 시작할 수 있도록 지원한다"고 설명했다.
마이크로소프트(MS) 빌드에서 발표된 RTX용 텐서RT는 윈도 ML을 기본적으로 지원한다. 윈도 ML은 ONNX 런타임 기반으로 구동된다.
김 상무는 "텐서RT는 원래 데이터센터용으로 구축된 라이브러리였지만, RTX AI PC를 위해 완전히 새롭게 설계했다"고 강조했다.
김 상무는 투어에서 블랙웰 GPU와 그레이스 CPU를 결합한 'GB300' 아키텍처를 상세히 소개했다.
김 상무는 "GB300 컴퓨팅 트레이로 그레이스 CPU와 블랙웰 GPU를 연결한 모듈을 여러 개 구성할 수 있다"며 "NV링크는 엔비디아의 핵심 기술로 GPU 간 연결을 담당한다. NV링크 72는 GPU 72개를 연결할 수 있단 의미로 향후 8개 GPU 18개를 연결한 랙을 4개 묶어 GPU 576개를 연결하는 기술을 개발하고 있다"고 설명했다.
그는 "카이버(Kyber)는 차세대 GPU 적용 프로젝트 코드네임으로 훨씬 더 얇고 효율적인 형태로 설계됐다"며 "기존의 랙 방식이 아닌 새로운 방식의 GPU 구성을 제공한다"고 했다.
이어 "포토닉(Photonic) 기술은 전기 신호를 광신호로 변환하는 과정 없이 직접 광신호를 송출해 에너지를 절약한다"며 "데이터센터 간 연결에서 컨버팅 작업을 줄이면 80와트씩 절약돼 전체 에너지 효율이 크게 높일 수 있다"고 강조했다.
김 상무는 대규모 데이터센터가 아닌 연구자들이 개인적으로 활용할 수 있는 설루션도 제시했다.
그는 "DGX 스파크, DGX 스테이션 등 연구자들이 개인 환경에서 활용할 수 있는 설루션이 있다"며 "딥시크, 라마 같은 모델을 다운받아 탑재하면 클라우드를 이용하지 않고 로컬에서 대형언어모델(LLM)을 구동할 있어 비용을 절감할 수 있다"고 강조했다.
엔비디아는 기업이 어디서나 엔비디아 GPU로 AI 모델을 실행할 수 있게 해주는 가속화 추론 마이크로서비스 세트 'NIM'(nvidia Inference microservice)을 제공한다. 이 모델은 △애니띵LLM △MS VS코드 △컴피UI 등 앱에서 실행할 수 있다.
ideaed@dqdt.shop
Copyright ⓒ 뉴스1. All rights reserved. 무단 전재 및 재배포, AI학습 이용금지.