Prompt API vs. OpenAI API: quando usar cada uma

A Prompt API (Chrome, on-device, Gemini Nano) e a OpenAI API (cloud, GPT-4o/GPT-5.4) são duas filosofias completamente diferentes de colocar IA numa aplicação web. Uma roda no navegador do usuário. A outra, em servidores lá fora. Parece simples, mas os trade-offs são reais — e nenhuma das duas ganha em tudo.

TL;DR

Prompt API: latência 2-8x menor, gratuita, privacidade total — mas só Chrome desktop e qualidade inferior
OpenAI API: multilingual, cross-platform, qualidade superior — mas custo por token e dados saem do device
O padrão híbrido (on-device + cloud fallback) é a arquitetura certa para a maioria dos casos reais

Eu comparo as duas em sete dimensões aqui. E no final, mostro o padrão híbrido que — adianto logo — é provavelmente o que você vai querer implementar.

Diagrama comparativo entre inferência local no notebook e inferência remota em servidor cloud.

Comparativo geral

Dimensão	Prompt API (On-Device)	OpenAI API (Cloud)
Modelo	Gemini Nano (~4,27 GB)	GPT-4o, GPT-4o-mini, GPT-5.4
Localização	Local no dispositivo	Servidores OpenAI
Latência (TTFT)	~50-200ms	300-2000ms
Custo por token	Gratuito	$0,15-60/milhão tokens
Privacidade	Dados nunca saem do device	Dados enviados à OpenAI
Qualidade (geral)	Boa para tarefas simples	Superior em tarefas complexas
Idiomas	5 (en, es, ja, de, fr)	90+ idiomas
Context window	~4.096 tokens	128K-1M tokens
Multimodal input	Texto, imagem, áudio	Texto, imagem, áudio, vídeo
Multimodal output	Só texto	Texto, imagem, áudio
Offline	✅ Funciona	❌ Requer internet
Interoperabilidade	Só Chrome 148+	Qualquer plataforma
Hardware	GPU >4GB VRAM ou 16GB RAM	Qualquer com internet
Structured output	JSON Schema	JSON Schema (Structured Outputs)
Rate limits	Sem limites	Tier-based (TPM, RPM)

A tabela já conta a história, mas os detalhes importam. Vamos por dimensão.

1. Latência

Esse é o argumento mais forte para a Prompt API:

Métrica	Prompt API	OpenAI API	Diferença
Time to First Token	50-200ms	300-800ms	2-8x mais rápido
Throughput (tokens/seg)	15-30 tok/s	50-150 tok/s	Cloud gera mais rápido
Latência total (prompt curto)	100-500ms	500-2000ms	2-5x mais rápido
Variabilidade	Baixa (hardware fixo)	Alta (load do servidor)	On-device é previsível

Para respostas curtas (classificação, extração), a Prompt API vence. Para geração longa, o throughput superior do cloud compensa a latência inicial.

O detalhe que importa na prática: o Time to First Token local é consistente. Não depende de rede. O usuário vê feedback imediato. Com APIs cloud, em horários de pico, você pode ter spikes de 3-5 segundos. Já perdi usuários por causa disso.

2. Custo

Cenário	Prompt API	OpenAI GPT-4o-mini	OpenAI GPT-4o
1.000 classificações/dia	$0	~$0,03	~$0,30
10.000 resumos/dia	$0	~$1,50	~$15,00
100.000 extrações/mês	$0	~$45	~$450
1M prompts/mês	$0	~$450	~$4.500

Zero é zero. Para aplicações de alto volume com tarefas simples, eliminar custos de inferência é significativo.

O custo oculto: funciona só no Chrome, exclui mobile, qualidade inferior pode significar mais iterações ou necessidade de fallbacks. Grátis não é grátis se metade dos seus usuários não consegue usar.

3. Privacidade

Aspecto	Prompt API	OpenAI API
Dados saem do device?	Nunca	Sempre
GDPR/LGPD compliance	Facilitada (dados locais)	Requer DPA e configuração
PII em prompts	Sem risco de vazamento	Risco de exposição
Opt-out de treinamento	N/A (local)	API data não usada para treino

Para dados sensíveis (saúde, finanças, dados pessoais), a Prompt API é a escolha óbvia. Dados nunca saem do dispositivo do usuário — sem brechas, sem trust necessário, sem DPA para negociar.

Cenários onde isso é decisivo: análise de sentimento em mensagens privadas, classificação de documentos confidenciais, autocomplete em campos sensíveis, qualquer coisa regulada por LGPD ou GDPR.

4. Qualidade

Aqui a diferença entre 4 GB e centenas de bilhões de parâmetros fica evidente:

Tarefa	Prompt API	GPT-4o-mini	GPT-4o
Classificação binária	⭐⭐⭐⭐	⭐⭐⭐⭐⭐	⭐⭐⭐⭐⭐
Classificação multi-class	⭐⭐⭐	⭐⭐⭐⭐⭐	⭐⭐⭐⭐⭐
Resumo simples	⭐⭐⭐⭐	⭐⭐⭐⭐⭐	⭐⭐⭐⭐⭐
Extração de dados	⭐⭐⭐⭐	⭐⭐⭐⭐⭐	⭐⭐⭐⭐⭐
Raciocínio complexo	⭐⭐	⭐⭐⭐⭐	⭐⭐⭐⭐⭐
Geração criativa longa	⭐⭐	⭐⭐⭐⭐	⭐⭐⭐⭐⭐
Código/programação	⭐⭐	⭐⭐⭐⭐	⭐⭐⭐⭐⭐
Português (PT-BR)	⭐	⭐⭐⭐⭐⭐	⭐⭐⭐⭐⭐
Alucinações	~6% falha	~2% falha	<1% falha

Resumindo: Gemini Nano dá conta de classificação, extração e resumo simples. Para raciocínio, criatividade, código ou multilingual, cloud é incomparavelmente melhor.

5. Disponibilidade

Aspecto	Prompt API	OpenAI API
Browsers suportados	Só Chrome 148+ desktop	Qualquer (HTTP API)
Mobile	❌	✅
Hardware necessário	GPU >4GB ou 16GB RAM	Internet
% de usuários cobertos	~30-40%	~99%
Primeiro uso	Espera download 4,27 GB	Imediato

A OpenAI API alcança virtualmente todo mundo. A Prompt API atinge uma fração — Chrome desktop com hardware adequado. Para produtos que precisam funcionar para todos, cloud é a única opção como funcionalidade primária.

6. Interoperabilidade

Ironicamente, apesar de ser uma “API web”, a Prompt API é menos interoperável que APIs HTTP cloud. A OpenAI API funciona em qualquer lugar que faz HTTP requests. A Prompt API funciona em um browser.

Mais: a interface OpenAI virou meio que um padrão de facto. Anthropic, Google, Groq — todos oferecem APIs compatíveis. Se amanhã você quer trocar de provider, troca. Com a Prompt API, você está preso ao Google e ao Gemini Nano.

7. Offline

Cenário	Prompt API	OpenAI API
Sem internet	✅ Funciona	❌ Falha
Conexão instável	✅ Sem impacto	⚠️ Timeouts
Avião/metrô	✅ Funciona	❌

Esse é o diferencial mais absoluto. Se sua feature precisa funcionar offline, não tem alternativa cloud que resolva. Ponto.

Quando usar cada uma

Use a Prompt API quando:

Privacidade é requisito inegociável
Precisa funcionar offline
Tarefas simples e repetitivas (classificação, extração, filtragem)
Alto volume sem budget para APIs
Latência mínima é prioridade
Público é Chrome desktop
IA é progressive enhancement, não core

Use a OpenAI API quando:

Qualidade é prioridade
Precisa de português ou multilingual
Todos os dispositivos e browsers
Context window grande (documentos longos)
Produção com SLA
Output multimodal (imagem, áudio)
Modelo customizado (fine-tuning)

O padrão híbrido: a resposta certa

Na maioria dos cenários reais, a melhor arquitetura combina as duas:

class HybridAI {
  constructor(cloudApiKey) {
    this.cloudApiKey = cloudApiKey;
    this.localSession = null;
    this.localAvailable = false;
  }

  async init() {
    if ('LanguageModel' in window) {
      const status = await LanguageModel.availability();
      if (status === 'available') {
        this.localSession = await LanguageModel.create();
        this.localAvailable = true;
        console.log('🏠 Usando IA local (Prompt API)');
        return;
      }
    }
    console.log('☁️ Usando IA cloud (fallback)');
  }

  async classify(text, schema) {
    if (this.localAvailable) {
      try {
        const result = await this.localSession.prompt(
          `Classify: "${text}"`,
          { responseConstraint: schema }
        );
        return { source: 'local', data: JSON.parse(result) };
      } catch (e) {
        console.warn('Local falhou, indo pro cloud:', e.message);
      }
    }

    // Fallback: OpenAI API
    const response = await fetch('https://api.openai.com/v1/chat/completions', {
      method: 'POST',
      headers: {
        'Content-Type': 'application/json',
        'Authorization': `Bearer ${this.cloudApiKey}`
      },
      body: JSON.stringify({
        model: 'gpt-4o-mini',
        messages: [{ role: 'user', content: `Classify: "${text}"` }],
        response_format: {
          type: 'json_schema',
          json_schema: { name: 'classification', schema }
        }
      })
    });

    const data = await response.json();
    return {
      source: 'cloud',
      data: JSON.parse(data.choices[0].message.content)
    };
  }

  destroy() {
    if (this.localSession) this.localSession.destroy();
  }
}

Quality gate: quando local não basta

Uma variação mais sofisticada — usa local, mas verifica a confiança do resultado:

async function classifyWithQualityGate(text, session, cloudApiKey) {
  const localResult = await session.prompt(
    `Classify sentiment and confidence (0-1): "${text}"`,
    {
      responseConstraint: {
        type: "object",
        properties: {
          sentiment: { type: "string", enum: ["positive", "negative", "neutral"] },
          confidence: { type: "number" }
        },
        required: ["sentiment", "confidence"]
      }
    }
  );

  const parsed = JSON.parse(localResult);

  // Confidence alta? Aceita local.
  if (parsed.confidence >= 0.8) {
    return { ...parsed, source: 'local' };
  }

  // Confidence baixa? Manda pro cloud confirmar.
  console.log(`⚠️ Confidence ${parsed.confidence}, verificando com cloud...`);
  const cloudResult = await callOpenAI(text, cloudApiKey);
  return { ...cloudResult, source: 'cloud (quality gate)' };
}

Benchmarks de cenários reais

Cenário	Prompt API	OpenAI 4o-mini	Recomendação
Filtro de spam (binário)	89% acc, 80ms	97% acc, 450ms	Local (velocidade compensa)
Resumo de artigo (EN)	Adequado, 1.2s	Excelente, 1.8s	Local (qualidade ok)
Resumo de artigo (PT)	Fraco	Excelente	Cloud (idioma)
Extração de email	92% acc	99% acc	Local com fallback
Geração de código	Fraco	Excelente	Cloud (sempre)
Alt text para imagem	Bom, 800ms	Excelente, 1.5s	Local (privacidade)
Chatbot de suporte	Limitado	Excelente	Cloud (qualidade)

Fluxograma de decisão rápida

1. Precisa funcionar offline?
   → SIM: Prompt API (ou WebGPU/WASM custom)
   → NÃO: continue

2. Dados sensíveis/PII?
   → SIM: Prompt API preferencial
   → NÃO: continue

3. Precisa de português?
   → SIM: Cloud API
   → NÃO: continue

4. Tarefa simples (classificação, extração, filtro)?
   → SIM: Prompt API (custo zero, latência baixa)
   → NÃO: Cloud API (qualidade superior)

5. Público 100% Chrome desktop?
   → SIM: Prompt API como primary
   → NÃO: Cloud primary, Prompt API como enhancement

Conclusão

A Prompt API e a OpenAI API não são concorrentes. São complementares. Uma faz bem o que a outra faz mal — e vice-versa.

A Prompt API brilha em tarefas simples, privacidade e offline. Cloud APIs brilham em qualidade, multilingual e alcance universal. A arquitetura que faz sentido em 2026 junta as duas: Prompt API como edge layer rápida para classificação e extração, cloud para o trabalho pesado de geração e raciocínio, com um quality gate no meio decidindo quem responde cada request.

Para código funcionando, veja os 5 demos práticos. Para o contexto político de tudo isso, leia sobre a controvérsia Google vs. Mozilla.

Leia também:

O que é a Chrome Prompt API — visão geral completa
Como testar a Prompt API hoje — tutorial prático

FAQ

A Prompt API pode substituir a OpenAI API completamente?

Não. O Gemini Nano é um modelo de ~4 GB otimizado para tarefas simples. Não compete com GPT-4o em raciocínio, geração criativa, código ou multilingual. Use cada uma para o que faz bem.

Qual é mais barata para alto volume?

A Prompt API é gratuita — zero custo por token. Para 1 milhão de classificações por mês, economizaria ~$450 vs. GPT-4o-mini. O trade-off: qualidade inferior e limitação a Chrome desktop.

Posso usar as duas ao mesmo tempo?

Sim, e é o padrão recomendado. O exemplo HybridAI neste artigo demonstra: usa local quando disponível, cloud como fallback. Melhor dos dois mundos.

Qual tem melhor suporte a português?

OpenAI API, sem comparação. GPT-4o tem suporte excelente a PT-BR. O Gemini Nano lista apenas inglês, espanhol, japonês, alemão e francês oficialmente.

E se eu já uso a Vercel AI SDK ou LangChain?

A Prompt API tem interface diferente (browser-native, não HTTP). Mas o polyfill oficial permite usar um provider local compatível. Você pode criar uma camada de abstração que escolhe o provider baseado em disponibilidade.