O Oracle Cloud Infrastructure (OCI) GPU Scanner é uma solução dedicada que fornece observabilidade, verificações de integridade e monitoramento de desempenho para cargas de trabalho de GPU.
Não perca nossa demonstração ao vivo exclusiva em 30 de outubro, na qual mostraremos a implementação do Llama na OCI. Veja as mais recentes tecnologias de IA generativa em ação, explore casos de uso reais e saiba como criar fluxos de trabalho mais inteligentes e automatizados passo a passo.
Os principais arquitetos da OCI revelam como as redes de cluster impulsionam o GenAI escalável, de algumas GPUs a um OCI Supercluster em zettascale com 131.072 GPUs NVIDIA Blackwell.
A infraestrutura da Oracle AI é escalável, de alto desempenho e implementável em qualquer lugar. Saiba por que nos destacamos com escalabilidade líder do setor, instâncias de GPU bare-metal e muito mais.
Descubra a perspectiva do analista sobre a infraestrutura de IA da OCI com GPUs AMD e como essa combinação pode melhorar a produtividade, acelerar o tempo de valorização e reduzir os custos de energia.
O OCI GPU Scanner é uma solução centralizada e gerenciada para monitoramento de desempenho de GPU que ajuda a eliminar pesquisas e scripts manuais, simplificando o processo de benchmarking.
O OCI GPU Scanner minimiza o tempo de inatividade e os falsos positivos por meio de verificações abrangentes de integridade, comparações de linha de base e diagnósticos automatizados.
O OCI GPU Scanner oferece visibilidade personalizável em todo o locatário e insights específicos da equipe que podem ajudar a otimizar o compartilhamento de recursos e o gerenciamento de custos para clusters de GPU em escala empresarial.
Uma solução gerenciada e centralizada que elimina a execução manual de scripts e a pesquisa de compatibilidade em todas as regiões de uma tenancy. Permite a visibilidade de sharding para equipes que compartilham clusters grandes.
Verificações detalhadas de integridade para o dia zero (linha de base), o dia um (monitoramento ativo) e o dia dois+ (diagnóstico em andamento), incluindo nó, multinó e diagnósticos avançados com comparações históricas para identificar problemas.
Suporta GPUs NVIDIA e AMD, com planos de estender o suporte a futuras fabricantes de chips e arquiteturas de última geração.
Monitora recursos de GPU em todas as regiões sem precisar de instalações por região, oferecendo suporte a clusters do Oracle Cloud Infrastructure Kubernetes Engine, clusters de computação de alto desempenho, bare metal e máquinas virtuais.
Compatível com ferramentas populares de código aberto, incluindo Grafana e Prometheus, permitindo painéis personalizáveis e armazenamento/exportação de dados contínuos para casos de uso do cliente.
Fornece ações de correção recomendadas (por exemplo, reinicialização para erros off-bus de GPU) e automatiza verificações de integridade por meio de API ou portal, reduzindo o tempo de inatividade do cliente e falsos positivos.
Receba ajuda para criar sua próxima solução de IA ou implementar sua carga de trabalho com o OCI GPU Scanner.
Entre em uma nova era de produtividade com soluções de IA generativas para sua empresa. Saiba como a Oracle ajuda os clientes a aproveitar a IA incorporada em toda a pilha de tecnologia.
Saiba mais sobre rede de cluster RDMA, instâncias de GPU, servidores bare metal e muito mais.
Os preços da Oracle Cloud são simples, com preço baixo consistente em todo o mundo, oferecendo suporte a uma ampla gama de casos de uso. Para estimar a sua taxa, consulte a estimativa de custos e configure os serviços para atender às suas necessidades.
Demonstração ao vivo: especialistas da Oracle, Meta e NVIDIA implementam o Llama na OCI
Primeiros princípios: OCI Superclusters Zettascale
Acelerando cargas de trabalho de IA com a OCI (PDF)
Enterprise Strategy Group sobre AMD Instinct MI300X