Não é a IA que custa caro; é a forma como as empresas a usam

|

A recente onda de notícias sobre gastos desenfreados com IA revela algo simples e incômodo: a tecnologia em si não é o problema é a forma desordenada e sem governança com que as empresas a adotam. Quando organizações transformam cada conversa, revisão de código e sessão de depuração em chamadas pagas a modelos, o consumo explode. 

O resultado não é economia, é uma nova linha de custo que muitas empresas não estavam prontas para lidar.

O exemplo mais simbólico veio da Microsoft. Depois de liberar o acesso ao Claude Code para dezenas de milhares de engenheiros e incentivar o uso, a adoção disparou até que as faturas chegaram. A cobrança por token converteu interações rotineiras em despesas recorrentes. Em escala, entre centenas de milhares de engenheiros, a conta ficou insustentável: a empresa emitiu uma ordem interna para cancelar grande parte das licenças do fornecedor e migrar equipes para uma solução interna mais barata. 

A Uber passou pelo mesmo choque, em forma ainda mais dramática. Em poucos meses após a implantação do Claude Code, a maioria dos engenheiros já usava a ferramenta; cerca de 70% do código estava vindo de sistemas de IA

Usuários intensivos relataram gastos mensais na faixa de centenas a milhares de dólares e o CTO disse que o orçamento planejado para o ano foi "estourado" em abril. Internamente, a gamificação (leaderboards de uso) incentivou mais consumo, não mais eficiência. 

Até quem vende hardware admitem o problema. Bryan Catanzaro, VP de aprendizado profundo aplicado da Nvidia, declarou que para sua equipe "o custo de computação está muito além dos custos dos funcionários"

Quando a empresa que lucra com GPUs alerta que rodar modelos em produção pode sair mais caro que pagar engenheiros, isso deveria fazer qualquer CFO repensar as premissas de eficiência herdadas do jargão corporativo.

Por que o gasto explode?

  • Precificação por token/ciclo: cada chamada consome tokens ou tempo de GPU; em larga escala, pequenas interações se somam de forma exponencial.
  • Agentes e pipelines complexos: workflows que encadeiam modelos, mantêm contexto longo ou fazem múltiplas iterações consomem muito mais tokens por tarefa do que simples prompts.
  • Incentivos mal desenhados: métricas que recompensam adoção (uso bruto) em vez de valor (insights entregues, tempo salvo) transformam uso em objetivo, não em meio.
  • Custos de integração: engenharia, segurança, latência, armazenamento de contexto e manutenção da infraestrutura aumentam o custo total de propriedade.
  • Falso trade-off entre humanos e IA: nem toda tarefa se beneficia de automação; algumas mantêm-se mais eficientes quando executadas por pessoas bem treinadas.

O que dizem os relatórios do mercado

Analistas já alertam que o consumo de tokens deve explodir nas próximas décadas o Goldman Sachs prevê um aumento multiplicativo significativo até 2030 , e consultorias demonstram que mesmo com quedas no preço por token, o custo total pode subir porque agentes consomem muitos mais tokens por tarefa. Grandes empresas estão criando painéis internos para monitorar uso (ex.: "Claudeonomics") e práticas internas que incentivam consumo extremo ("tokenmaxx"). Isso tudo cria uma lacuna entre as promessas feitas nas chamadas com investidores e a matemática operacional real.

O que as empresas precisam fazer  e rápido

  • Mensurar custo por resultado, não por número de chamadas: calcule custo total (tokens, GPU, engenharia, segurança) dividido por benefício real (tempo salvo, bugs evitados, receita gerada).
  • Redesenhar incentivos: substitua leaderboards de uso por métricas de valor e eficiência; premie reduções de custo por unidade de resultado.
  • Implementar guardrails técnicos: cotas por usuário, amostragem, caching de respostas e compressão de contexto reduzem consumo.
  • Otimizar prompts e arquiteturas: prompt engineering, modelos menores para tarefas específicas e pipelines híbridos (cache + modelos) cortam tokens sem sacrificar qualidade.
  • Priorizar automações com ROI claro: comece por processos de alto volume e baixo contexto; deixe tarefas de alto contexto para humanos ou modelos especializados.
  • Comparar custo total de propriedade: avalie cuidadosamente fornecedores versus infra própria, incluindo manutenção e atualização contínua.

A crise das faturas de IA não invalida a tecnologia. Ela revela uma falha de gestão: copiar ferramentas sem desenho de governança, sem métricas de valor e sem limites é receita para transformar promessa em problema. 

A narrativa fácil “IA reduzirá custos e funcionários” atraiu capital e decisões rápidas, mas a realidade operacional mostra que eficiência exige disciplina, instrumentação e economia por resultado.

Se as empresas aprenderem isso agora, podem transformar gastos exponenciais em ganhos sustentáveis; se não, as próximas rodadas de demissões e anúncios triunfais podem acabar custando bem mais do que prometiam.

Artigos Relacionados