No passado, todos se esforçavam para migrar para a nuvem, mas o custo de poder de computação por unidade durante a fase de inferência fez com que muitas equipes percebessem: a inferência de IA em longo prazo e em grande escala consome dinheiro muito rapidamente na nuvem. Aplicações nativas de IA são mais adequadas para transferir as tarefas críticas de inferência para os data centers locais, o que reduz a latência e economiza largura de banda e custos de aluguel na nuvem.
A competição por memória é uma característica típica do início do treinamento em aprendizado profundo ( quem tem mais memória de vídeo ganha ), mas hoje:
O limite de throughput de dados armazenados na GPU afeta diretamente o QPS de inferência.
A velocidade de interação entre GPU e CPU/cartões de aceleração é o limite do desempenho de pipeline.
O consumo de energia do cluster AI em um único gabinete pode chegar a dezenas de quilowatts, e um design PD inadequado pode travar diretamente a escala de implantação do Poder de computação.
Se o layout do centro de dados ainda estiver preso no paradigma de design tradicional de Web/banco de dados de 2015, ele vai falhar diretamente sob a carga de trabalho de IA.
Veja as nossas percepções: 20 Especialistas em Tecnologia sobre as Tendências Emergentes de Hardware que as Empresas Devem Observar via @forbes
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
No passado, todos se esforçavam para migrar para a nuvem, mas o custo de poder de computação por unidade durante a fase de inferência fez com que muitas equipes percebessem: a inferência de IA em longo prazo e em grande escala consome dinheiro muito rapidamente na nuvem. Aplicações nativas de IA são mais adequadas para transferir as tarefas críticas de inferência para os data centers locais, o que reduz a latência e economiza largura de banda e custos de aluguel na nuvem.
A competição por memória é uma característica típica do início do treinamento em aprendizado profundo ( quem tem mais memória de vídeo ganha ), mas hoje:
O limite de throughput de dados armazenados na GPU afeta diretamente o QPS de inferência.
A velocidade de interação entre GPU e CPU/cartões de aceleração é o limite do desempenho de pipeline.
O consumo de energia do cluster AI em um único gabinete pode chegar a dezenas de quilowatts, e um design PD inadequado pode travar diretamente a escala de implantação do Poder de computação.
Se o layout do centro de dados ainda estiver preso no paradigma de design tradicional de Web/banco de dados de 2015, ele vai falhar diretamente sob a carga de trabalho de IA.
Veja as nossas percepções:
20 Especialistas em Tecnologia sobre as Tendências Emergentes de Hardware que as Empresas Devem Observar via @forbes