Oracle Cloud Infrastructure(OCI) GPU Scanner는 GPU 워크로드에 대한 관찰 가능성, 상태 검사 및 성능 모니터링을 제공하는 전용 솔루션입니다.
10월 30일 열리는 독점 라이브 데모에서 OCI에 Llama를 배포하는 과정을 선보이니, 놓치지 마세요. 최신 생성형 AI 기술의 생생한 구동 현장을 확인하고, 실제 사용 사례를 살펴보고, 더욱 스마트하고 자동화된 워크플로를 단계별로 구축하는 방법을 알아보세요.
OCI의 최고 아키텍트들이 소수의 GPU부터131,072개의 NVIDIA Blackwell GPU를 탑재한 제타스케일 OCI Supercluster까지 유연하게 확장 가능한 OCI 클러스터 네트워크로 생성형 AI를 지원하는 방법을 소개합니다.
Oracle AI 인프라는 확장 가능하고, 성능이 뛰어나고, 어디든 배포 가능합니다. Oracle만의 독보적인 확장성, 베어메탈 GPU 인스턴스를 비롯한 다양한 기능을 확인해 보세요.
AMD GPU를 탑재한 OCI AI 인프라에 대한 분석가들의 견해, 해당 조합이 생산성 향상, 가치 창출 시간 단축, 에너지 비용 절감에 기여하는 이유를 확인해 보세요.
OCI GPU Scanner는 GPU 성능 모니터링을 위한 중앙 집중식 관리형 솔루션으로, 수동 조사와 스크립팅을 없애 벤치마킹 프로세스를 간소화합니다.
GPU Scanner는 종합적인 상태 점검, 기준 비교 및 자동화된 진단을 통해 다운타임 및 오탐을 최소화합니다.
OCI GPU Scanner는 커스터마이징 가능한 테넌트 전체 가시성과 팀별 인사이트를 제공하여, 엔터프라이즈급 GPU 클러스터의 리소스 공유 및 비용 관리를 최적화할 수 있도록 지원합니다.
테넌시의 모든 리전에서 수동 스크립트 실행 및 호환성 조사를 제거하는 중앙 집중식 관리형 솔루션입니다. 대규모 클러스터를 공유하는 팀들이 샤딩 상태를 확인할 수 있도록 합니다.
0일 차(기준선), 1일 차(활성 모니터링), 2일 차 이후(지속적인 진단)에 대한 자세한 상태 검사(과거 비교를 통한 노드, 다중 노드 및 고급 진단 포함)를 통해 문제를 정확히 파악합니다.
NVIDIA 및 AMD GPU를 지원하며, 향후 칩 메이커 및 차세대 아키텍처에 대한 지원을 확대할 계획입니다.
Oracle Cloud Infrastructure Kubernetes Engine 클러스터, 고성능 컴퓨팅 클러스터, 베어메탈 및 가상 머신을 지원하므로 리전별로 설치하지 않아도 모든 리전에서 GPU 리소스를 모니터링할 수 있습니다.
Grafana 및 Prometheus를 비롯한 널리 사용되는 오픈 소스 도구와 호환되며, 대시보드를 커스터마이징할 수 있고 데이터 저장이나 내보내기를 고객 사용 사례에 맞게 원활하게 할 수 있습니다.
권장되는 수정 조치(예: GPU 오프버스 오류에 대한 재부팅)을 제공하고, API나 포털을 통한 상태 검사를 자동화하여 고객의 운영 중단과 오탐을 줄입니다.
Oracle 전문가들이 새로운 AI 솔루션 구축, OCI GPU Scanner에 워크로드 배포하기와 같은 다양한 AI 관련 주제를 상담해 드립니다.
귀사의 비즈니스를 돕기 위해 개발된 생성형 AI 솔루션이 제공하는 차원이 다른 생산성을 직접 경험해 보세요. Oracle의 지원을 바탕으로 Oracle의 전체 기술 스택에 내장된 AI 기능을 완전히 활용하는 방법을 살펴보세요.
RDMA 클러스터 네트워킹, GPU 인스턴스, 베어메탈 서버 등과 관련된 정보를 더 자세히 살펴보세요.
Oracle Cloud는 저렴한 가격을 전 세계적으로 동일하게 적용하며, 간편하고 다양한 사용 사례를 지원합니다. 예상 요금 절감액을 확인하려면, 비용 계산기를 사용하여 필요에 맞게 서비스를 구성해보세요.
라이브 데모: Oracle, Meta, NVIDIA 전문가, OCI에 Llama 배포
First Principles: Zettascale OCI Superclusters
OCI로 AI 워크로드 가속화하기(PDF)
AMD Instinct MI300X에 대한 Enterprise Strategy Group의 견해