NVIDIA 및 VMware Cloud Foundation을 통해 AI 지원 인프라 제공

Dan's Logging·2022년 2월 14일

VMware_WhatsNew

목록 보기

22/22

디지털 혁신은 조직이 매일 생성되는 방대한 양의 데이터에서 더 큰 가치와 비즈니스 통찰력을 창출하고 제공하도록 이끄는 핵심 C급 이니셔티브입니다. 이러한 통찰력을 적절하게 관리하면 즉각적인 경쟁 우위를 제공하고 효율성을 극대화하며 조직의 분기별 주당 순이익(EPS)으로 직접 측정할 수 있는 생산성을 높일 수 있습니다. 이러한 변화는 모든 산업 분야에서 일어나고 있으며, 그 중심에는 인공지능(AI)이 있습니다.

전체 기술 스택에 AI 인프라를 설계하는 많은 조직의 과제는 이와 관련된 복잡성입니다. 전통적으로 AI 기술은 기존 IT 스택 및 운영 프로세스에 원활하게 통합되지 않았습니다. 이는 데이터 과학자들이 일반적으로 원하는 결과를 얻기 위해 클러스터를 구성 및 재구성하여 신속하게 실험하기를 원한다는 사실로 인해 더욱 복잡해집니다. 또한 AI 워크로드를 가능한 한 빠르고 원활하게 생산 준비 환경으로 확장하는 것을 목표로 AI 라이프사이클을 따라 이러한 이니셔티브를 신속하게 이동해야 하는 비즈니스 압력이 있습니다.

VMworld 2021에서 발표된 NVIDIA AI Enterprise 소프트웨어 제품군과 vSphere 7 업데이트 3 의 통합 으로 VMware vSphere 내에서 엔터프라이즈급 거버넌스, 안정성 및 보안을 유지하면서 AI 개발자 팀에 Kubernetes 클러스터를 빠른 속도로 제공할 수 있습니다. Tanzu 환경과 함께. AI/ML(머신 러닝) 인프라를 구현하는 조직의 경우 이러한 기술의 조합이 IT 운영과 비즈니스 라인 간의 마찰을 일으키지 않고 비즈니스 결과를 제공하는 초석이 됩니다.

이 솔루션이 강력한 이유는 두 회사의 장점을 결합했기 때문입니다. VMware는 인프라, 운영 및 관리에 대한 깊은 지식을 제공하고 NVIDIA는 가속화된 컴퓨팅 전문 지식, GPU 가상화 기술, 사전 구축된 AI 소프트웨어 세트, 사전 훈련된 모델 및 데이터 과학자가 애플리케이션을 생성하고 신속하게 배포하는 데 사용할 수 있는 기타 도구를 제공합니다. . NVIDIA AI Enterprise 제품군에는 PyTorch, TensorFlow, TensorRT, NVIDIA RAPIDS 및 NVIDIA Triton Inference Server 와 같은 프레임워크와 도구가 포함되어 있으며, 모두 쉽게 배포 및 관리할 수 있는 컨테이너로 패키징됩니다.

AI 지원 인프라 제공

VMware Cloud Foundation 4.4 의 GA 발표와 함께 이러한 혁신은 이제 VMware의 주력 하이브리드 클라우드 플랫폼에서 사용할 수 있습니다. 이를 통해 솔루션을 향상시켜 AI 지원 인프라를 제공하고 NVIDIA AI Enterprise와 통합된 VM 및 컨테이너 기반 워크로드를 지원하여 생산 규모에서 단순하게 주요 제조업체의 NVIDIA 인증 서버에 AI를 배포할 수 있습니다. 이 솔루션을 통해 IT 인프라 팀은 VMware Cloud Foundation과 함께 NVIDIA AI Enterprise를 사용하여 VM 및 Kubernetes 클러스터를 구축할 수 있습니다. 가속화된 성능 특성 외에도 이 솔루션은 출시 시간을 단축하고 배포 위험을 최소화하며 총 소유 비용을 낮춥니다.

그림 1에 표시된 것처럼 이 결합 솔루션을 통해 고객은 NVIDIA AI Enterprise 제품군을 사용하여 AI/ML 워크로드를 자신 있게 배포하여 전체 스택 VMware Cloud Foundation 환경 내에서 AI 워크로드를 실행하고 운영할 수 있습니다. 성능 향상은 NVIDIA Ampere 아키텍처 GPU의 원시 성능을 통해 실현되는 동시에 개발 및 프로덕션 워크로드의 요구 사항을 충족하도록 확장되는 플랫폼을 제공합니다. 이를 통해 데이터 과학자와 연구원은 필요에 따라 AI 지원 인프라를 구축할 수 있습니다.

그림 1: VMware Cloud Foundation을 사용하는 NVIDIA AI Enterprise

vSphere 관리자가 인프라 리소스에 대한 전체 제어 유지

또한 관리자는 유연한 소프트웨어 정의 환경의 클라우드 운영 모델을 활용하면서 자동화된 방식으로 이 인프라를 배포, 구성 및 관리할 수 있습니다. 관리자는 또한 유지 관리 및 LCM 작업 중에 NVIDIA Ampere 아키텍처 GPU로 구성된 VM 기반 애플리케이션의 초기 배치 및 vMotion 마이그레이션을 위해 vSphere DRS를 활용할 수 있다는 이점을 누릴 수 있습니다. 이 솔루션을 통해 vSphere 관리자는 표준화된 HCI 빌딩 블록을 사용하여 온디맨드로 개발자와 데이터 과학자가 액세스할 수 있도록 AI/ML에 최적화된 리소스에 대한 액세스를 구성하고 제어할 수 있습니다. 그런 다음 VM 또는 TKG(Tanzu Kubernetes Grid) 워크로드는 미리 구성된 프로필에서 GPU 리소스를 사용하도록 구성할 수 있습니다.

데이터 사이언티스트는 스스로 대응하여 민첩성을 극대화할 수 있습니다.

데이터 과학 및 개발자 팀은 필요할 때 관리자가 할당한 GPU 리소스를 사용하여 AI 및 데이터 분석 애플리케이션을 지원하고 프로비저닝을 위해 오랜 시간을 기다릴 필요 없이 온프레미스에서 실행할 수 있습니다. 물리적 GPU 리소스는 하나 이상의 가상 머신 또는 Tanzu 작업자 노드 VM에서 전용, 공유 또는 분할되어 활용도를 높이고 규모의 경제를 개선할 수 있습니다. 개발자는 사전 구성된 vGPU 프로필을 선택하여 IT 관리 팀에서 할당한 GPU 리소스를 사용할 수 있습니다. 개발자는 사전 구성된 vGPU 프로필을 선택하여 IT 관리 팀과 별도로 데이터 과학자/개발 팀이 필요할 때 GPU 리소스를 사용하고 확장 및 축소할 수 있습니다.

GPU 활용을 최대화하면서 원시 성능 제공

NVIDIA A3 0 또는 A100 Tensor Core GPU를 여러 인스턴스로 분할 하면 예측 가능한 성능을 제공하는 동시에 이러한 중요한 시스템 리소스의 활용도를 높일 수 있습니다. NVIDIA AI Enterprise 제품군을 사용하는 NVIDIA GPU는 타임 슬라이싱 또는 MIG(멀티 인스턴스 GPU)를 지원하도록 구성할 수 있습니다. 둘 다 많은 이점을 제공합니다. 다음은 몇 가지 주요 고려 사항입니다.

시간 분할:

Time-Sliced 모드로 구성된 워크로드는 물리적 GPU를 공유하고 연속적으로 작동합니다. NVIDIA AI Enterprise 제품군에 포함된 NVIDIA vGPU 소프트웨어로 활성화됩니다. 시간 분할 모드는 NVIDIA GPU의 기본 설정입니다. 시간 분할 모드는 리소스 경합이 우선 순위가 아닌 워크로드에 가장 적합합니다. 타임 슬라이싱은 GPU 리소스를 공유하는 가장 경제적인 접근 방식입니다. 이를 통해 사용자는 장치에서 가능한 한 많은 워크로드를 실행하여 GPU 리소스 활용을 극대화할 수 있습니다. 또한 Time Slicing은 둘 이상의 물리적 GPU를 사용해야 하는 대규모 워크로드에 가장 적합합니다. 이를 통해 여러 물리적 GPU를 단일 워크로드에 할당할 수 있습니다.

멀티 인스턴스 GPU

NVIDIA AI Enterprise를 통해 MIG는 완전한 하드웨어 격리를 제공하여 GPU 리소스가 병렬로 작동해야 하는 여러 개별 워크로드를 허용합니다. MIG 기술은 전용 GPU 리소스가 여러 사용자 또는 테넌트에 의해 실행되어야 하는 경우 탁월한 선택입니다. NVIDIA A30 또는 A100 Tensor Core GPU의 MIG 구성을 통해 사용자는 물리적 GPU를 공유하고 장치를 사용하는 각 VM 워크로드에 예측 가능한 수준의 성능과 서비스 품질을 제공할 수 있습니다. MIG로 구성된 NVIDIA GPU는 타임 슬라이싱을 사용하여 구성된 워크로드와 비교할 때 더 높은 수준의 처리량과 더 낮은 수준의 대기 시간을 허용합니다. MIG 구성의 또 다른 이점은 메모리가 슬라이스 간에 공유되지 않기 때문에 보안 격리입니다.

Dell 기술, NVIDIA 및 VMware

VMworld 2021에서 소개된 Dell Technologies, VMware 및 NVIDIA 간의 파트너십을 기반으로 Dell Technologies는 VxRail 7.0.320의 VMware Cloud Foundation 4.4 내에서 NVIDIA AI Enterprise 소프트웨어 제품군 및 GPU에 대한 지원도 발표했습니다 . VMware Cloud Foundation on VxRail 고객은 턴키 하이브리드 클라우드에서 AI 및 ML 워크로드를 실행하여 간소화된 경험을 제공함으로써 AI의 모든 비즈니스 이점을 그 어느 때보다 쉽게 활용할 수 있습니다.

다음 단계를 수행하십시오.

VMware Cloud Foundation은 vSphere와 Tanzu 및 NVIDIA AI Enterprise의 통합을 한 차원 높였습니다. VMware Cloud Foundation 고객은 이제 소프트웨어 정의 프라이빗 클라우드 플랫폼을 확장하여 유연하고 쉽게 확장 가능한 AI 지원 인프라를 지원할 수 있습니다. 아래에 제시된 리소스를 통해 더 자세히 알아볼 수 있습니다.