prompt api vs openaiia on-device vs cloudgemini nano vs gpt

Prompt API vs. OpenAI API: quando usar cada uma

Prompt API Brasil

Prompt API vs. OpenAI API: quando usar cada uma

A Prompt API (Chrome, on-device, Gemini Nano) e a OpenAI API (cloud, GPT-4o/GPT-5.4) são duas filosofias completamente diferentes de colocar IA numa aplicação web. Uma roda no navegador do usuário. A outra, em servidores lá fora. Parece simples, mas os trade-offs são reais — e nenhuma das duas ganha em tudo.

TL;DR

  • Prompt API: latência 2-8x menor, gratuita, privacidade total — mas só Chrome desktop e qualidade inferior
  • OpenAI API: multilingual, cross-platform, qualidade superior — mas custo por token e dados saem do device
  • O padrão híbrido (on-device + cloud fallback) é a arquitetura certa para a maioria dos casos reais

Eu comparo as duas em sete dimensões aqui. E no final, mostro o padrão híbrido que — adianto logo — é provavelmente o que você vai querer implementar.

Diagrama comparativo entre inferência local no notebook e inferência remota em servidor cloud.

Comparativo geral

DimensãoPrompt API (On-Device)OpenAI API (Cloud)
ModeloGemini Nano (~4,27 GB)GPT-4o, GPT-4o-mini, GPT-5.4
LocalizaçãoLocal no dispositivoServidores OpenAI
Latência (TTFT)~50-200ms300-2000ms
Custo por tokenGratuito$0,15-60/milhão tokens
PrivacidadeDados nunca saem do deviceDados enviados à OpenAI
Qualidade (geral)Boa para tarefas simplesSuperior em tarefas complexas
Idiomas5 (en, es, ja, de, fr)90+ idiomas
Context window~4.096 tokens128K-1M tokens
Multimodal inputTexto, imagem, áudioTexto, imagem, áudio, vídeo
Multimodal outputSó textoTexto, imagem, áudio
Offline✅ Funciona❌ Requer internet
InteroperabilidadeSó Chrome 148+Qualquer plataforma
HardwareGPU >4GB VRAM ou 16GB RAMQualquer com internet
Structured outputJSON SchemaJSON Schema (Structured Outputs)
Rate limitsSem limitesTier-based (TPM, RPM)

A tabela já conta a história, mas os detalhes importam. Vamos por dimensão.

1. Latência

Esse é o argumento mais forte para a Prompt API:

MétricaPrompt APIOpenAI APIDiferença
Time to First Token50-200ms300-800ms2-8x mais rápido
Throughput (tokens/seg)15-30 tok/s50-150 tok/sCloud gera mais rápido
Latência total (prompt curto)100-500ms500-2000ms2-5x mais rápido
VariabilidadeBaixa (hardware fixo)Alta (load do servidor)On-device é previsível

Para respostas curtas (classificação, extração), a Prompt API vence. Para geração longa, o throughput superior do cloud compensa a latência inicial.

O detalhe que importa na prática: o Time to First Token local é consistente. Não depende de rede. O usuário vê feedback imediato. Com APIs cloud, em horários de pico, você pode ter spikes de 3-5 segundos. Já perdi usuários por causa disso.

2. Custo

CenárioPrompt APIOpenAI GPT-4o-miniOpenAI GPT-4o
1.000 classificações/dia$0~$0,03~$0,30
10.000 resumos/dia$0~$1,50~$15,00
100.000 extrações/mês$0~$45~$450
1M prompts/mês$0~$450~$4.500

Zero é zero. Para aplicações de alto volume com tarefas simples, eliminar custos de inferência é significativo.

O custo oculto: funciona só no Chrome, exclui mobile, qualidade inferior pode significar mais iterações ou necessidade de fallbacks. Grátis não é grátis se metade dos seus usuários não consegue usar.

3. Privacidade

AspectoPrompt APIOpenAI API
Dados saem do device?NuncaSempre
GDPR/LGPD complianceFacilitada (dados locais)Requer DPA e configuração
PII em promptsSem risco de vazamentoRisco de exposição
Opt-out de treinamentoN/A (local)API data não usada para treino

Para dados sensíveis (saúde, finanças, dados pessoais), a Prompt API é a escolha óbvia. Dados nunca saem do dispositivo do usuário — sem brechas, sem trust necessário, sem DPA para negociar.

Cenários onde isso é decisivo: análise de sentimento em mensagens privadas, classificação de documentos confidenciais, autocomplete em campos sensíveis, qualquer coisa regulada por LGPD ou GDPR.

4. Qualidade

Aqui a diferença entre 4 GB e centenas de bilhões de parâmetros fica evidente:

TarefaPrompt APIGPT-4o-miniGPT-4o
Classificação binária⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐
Classificação multi-class⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐
Resumo simples⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐
Extração de dados⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐
Raciocínio complexo⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐
Geração criativa longa⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐
Código/programação⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐
Português (PT-BR)⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐
Alucinações~6% falha~2% falha<1% falha

Resumindo: Gemini Nano dá conta de classificação, extração e resumo simples. Para raciocínio, criatividade, código ou multilingual, cloud é incomparavelmente melhor.

5. Disponibilidade

AspectoPrompt APIOpenAI API
Browsers suportadosSó Chrome 148+ desktopQualquer (HTTP API)
Mobile
Hardware necessárioGPU >4GB ou 16GB RAMInternet
% de usuários cobertos~30-40%~99%
Primeiro usoEspera download 4,27 GBImediato

A OpenAI API alcança virtualmente todo mundo. A Prompt API atinge uma fração — Chrome desktop com hardware adequado. Para produtos que precisam funcionar para todos, cloud é a única opção como funcionalidade primária.

6. Interoperabilidade

Ironicamente, apesar de ser uma “API web”, a Prompt API é menos interoperável que APIs HTTP cloud. A OpenAI API funciona em qualquer lugar que faz HTTP requests. A Prompt API funciona em um browser.

Mais: a interface OpenAI virou meio que um padrão de facto. Anthropic, Google, Groq — todos oferecem APIs compatíveis. Se amanhã você quer trocar de provider, troca. Com a Prompt API, você está preso ao Google e ao Gemini Nano.

7. Offline

CenárioPrompt APIOpenAI API
Sem internet✅ Funciona❌ Falha
Conexão instável✅ Sem impacto⚠️ Timeouts
Avião/metrô✅ Funciona

Esse é o diferencial mais absoluto. Se sua feature precisa funcionar offline, não tem alternativa cloud que resolva. Ponto.

Quando usar cada uma

Use a Prompt API quando:

  • Privacidade é requisito inegociável
  • Precisa funcionar offline
  • Tarefas simples e repetitivas (classificação, extração, filtragem)
  • Alto volume sem budget para APIs
  • Latência mínima é prioridade
  • Público é Chrome desktop
  • IA é progressive enhancement, não core

Use a OpenAI API quando:

  • Qualidade é prioridade
  • Precisa de português ou multilingual
  • Todos os dispositivos e browsers
  • Context window grande (documentos longos)
  • Produção com SLA
  • Output multimodal (imagem, áudio)
  • Modelo customizado (fine-tuning)

O padrão híbrido: a resposta certa

Na maioria dos cenários reais, a melhor arquitetura combina as duas:

class HybridAI {
  constructor(cloudApiKey) {
    this.cloudApiKey = cloudApiKey;
    this.localSession = null;
    this.localAvailable = false;
  }

  async init() {
    if ('LanguageModel' in window) {
      const status = await LanguageModel.availability();
      if (status === 'available') {
        this.localSession = await LanguageModel.create();
        this.localAvailable = true;
        console.log('🏠 Usando IA local (Prompt API)');
        return;
      }
    }
    console.log('☁️ Usando IA cloud (fallback)');
  }

  async classify(text, schema) {
    if (this.localAvailable) {
      try {
        const result = await this.localSession.prompt(
          `Classify: "${text}"`,
          { responseConstraint: schema }
        );
        return { source: 'local', data: JSON.parse(result) };
      } catch (e) {
        console.warn('Local falhou, indo pro cloud:', e.message);
      }
    }

    // Fallback: OpenAI API
    const response = await fetch('https://api.openai.com/v1/chat/completions', {
      method: 'POST',
      headers: {
        'Content-Type': 'application/json',
        'Authorization': `Bearer ${this.cloudApiKey}`
      },
      body: JSON.stringify({
        model: 'gpt-4o-mini',
        messages: [{ role: 'user', content: `Classify: "${text}"` }],
        response_format: {
          type: 'json_schema',
          json_schema: { name: 'classification', schema }
        }
      })
    });

    const data = await response.json();
    return {
      source: 'cloud',
      data: JSON.parse(data.choices[0].message.content)
    };
  }

  destroy() {
    if (this.localSession) this.localSession.destroy();
  }
}

Quality gate: quando local não basta

Uma variação mais sofisticada — usa local, mas verifica a confiança do resultado:

async function classifyWithQualityGate(text, session, cloudApiKey) {
  const localResult = await session.prompt(
    `Classify sentiment and confidence (0-1): "${text}"`,
    {
      responseConstraint: {
        type: "object",
        properties: {
          sentiment: { type: "string", enum: ["positive", "negative", "neutral"] },
          confidence: { type: "number" }
        },
        required: ["sentiment", "confidence"]
      }
    }
  );

  const parsed = JSON.parse(localResult);

  // Confidence alta? Aceita local.
  if (parsed.confidence >= 0.8) {
    return { ...parsed, source: 'local' };
  }

  // Confidence baixa? Manda pro cloud confirmar.
  console.log(`⚠️ Confidence ${parsed.confidence}, verificando com cloud...`);
  const cloudResult = await callOpenAI(text, cloudApiKey);
  return { ...cloudResult, source: 'cloud (quality gate)' };
}

Benchmarks de cenários reais

CenárioPrompt APIOpenAI 4o-miniRecomendação
Filtro de spam (binário)89% acc, 80ms97% acc, 450msLocal (velocidade compensa)
Resumo de artigo (EN)Adequado, 1.2sExcelente, 1.8sLocal (qualidade ok)
Resumo de artigo (PT)FracoExcelenteCloud (idioma)
Extração de email92% acc99% accLocal com fallback
Geração de códigoFracoExcelenteCloud (sempre)
Alt text para imagemBom, 800msExcelente, 1.5sLocal (privacidade)
Chatbot de suporteLimitadoExcelenteCloud (qualidade)

Fluxograma de decisão rápida

1. Precisa funcionar offline?
   → SIM: Prompt API (ou WebGPU/WASM custom)
   → NÃO: continue

2. Dados sensíveis/PII?
   → SIM: Prompt API preferencial
   → NÃO: continue

3. Precisa de português?
   → SIM: Cloud API
   → NÃO: continue

4. Tarefa simples (classificação, extração, filtro)?
   → SIM: Prompt API (custo zero, latência baixa)
   → NÃO: Cloud API (qualidade superior)

5. Público 100% Chrome desktop?
   → SIM: Prompt API como primary
   → NÃO: Cloud primary, Prompt API como enhancement

Conclusão

A Prompt API e a OpenAI API não são concorrentes. São complementares. Uma faz bem o que a outra faz mal — e vice-versa.

A Prompt API brilha em tarefas simples, privacidade e offline. Cloud APIs brilham em qualidade, multilingual e alcance universal. A arquitetura que faz sentido em 2026 junta as duas: Prompt API como edge layer rápida para classificação e extração, cloud para o trabalho pesado de geração e raciocínio, com um quality gate no meio decidindo quem responde cada request.

Para código funcionando, veja os 5 demos práticos. Para o contexto político de tudo isso, leia sobre a controvérsia Google vs. Mozilla.

Leia também:


FAQ

A Prompt API pode substituir a OpenAI API completamente?

Não. O Gemini Nano é um modelo de ~4 GB otimizado para tarefas simples. Não compete com GPT-4o em raciocínio, geração criativa, código ou multilingual. Use cada uma para o que faz bem.

Qual é mais barata para alto volume?

A Prompt API é gratuita — zero custo por token. Para 1 milhão de classificações por mês, economizaria ~$450 vs. GPT-4o-mini. O trade-off: qualidade inferior e limitação a Chrome desktop.

Posso usar as duas ao mesmo tempo?

Sim, e é o padrão recomendado. O exemplo HybridAI neste artigo demonstra: usa local quando disponível, cloud como fallback. Melhor dos dois mundos.

Qual tem melhor suporte a português?

OpenAI API, sem comparação. GPT-4o tem suporte excelente a PT-BR. O Gemini Nano lista apenas inglês, espanhol, japonês, alemão e francês oficialmente.

E se eu já uso a Vercel AI SDK ou LangChain?

A Prompt API tem interface diferente (browser-native, não HTTP). Mas o polyfill oficial permite usar um provider local compatível. Você pode criar uma camada de abstração que escolhe o provider baseado em disponibilidade.

Referências