Comparativo: Prompt API vs. OpenAI, Ollama e WebLLM

Escolher onde rodar inferência de IA é uma decisão arquitetural que impacta custo, privacidade e experiência do usuário. Este comparativo coloca a Prompt API (on-device via Chrome) contra quatro alternativas: OpenAI API, Google Gemini Cloud, Ollama (local) e WebLLM (browser via WebGPU). Cada opção tem seus trade-offs — e a melhor escolha depende do seu cenário específico.

Tabela comparativa geral

CritérioPrompt APIOpenAI APIGemini CloudOllamaWebLLM
CustoGrátis$0.15–$10/1M tokens$0.50–$2/1M tokensGrátis (hardware)Grátis (hardware)
Latência (1º token)~50-200ms~200-500ms~100-400ms~50-300ms~100-500ms
PrivacidadeMáxima (on-device)Baixa (cloud)Baixa (cloud)Máxima (local)Máxima (browser)
Qualidade do modeloBásica (~3B params)Excelente (GPT-4o)Excelente (Gemini Pro)Variável (escolha)Variável (escolha)
Funciona offline✅ Sim❌ Não❌ Não✅ Sim✅ Sim
InteroperabilidadeChrome/Edge apenasUniversalUniversalDesktop apenasBrowsers com WebGPU
SetupZero (built-in)API keyAPI keyInstalação localImport npm
ModeloGemini Nano (fixo)GPT-4o, o1, etc.Gemini Pro, FlashLlama, Mistral, etc.Llama, Phi, etc.
MultimodalTexto+Imagem+ÁudioTexto+Imagem+ÁudioTexto+Imagem+Áudio+VídeoDepende do modeloDepende do modelo
Structured outputJSON Schema + RegexJSON SchemaJSON SchemaDepende da libLimitado
Context windowLimitada (~4K)128K+ (GPT-4o)1M+ (Gemini Pro)Depende do modeloLimitada por RAM
Fine-tuning❌ Não✅ Sim✅ Sim✅ Sim (LoRA)❌ Não

Detalhamento por solução

Prompt API (Chrome Built-in)

O que é: API nativa do Chrome que expõe o Gemini Nano (~4,27 GB) para inferência on-device.

AspectoDetalhe
ModeloGemini Nano (~3B parâmetros)
Download~4,27 GB (uma vez, compartilhado entre origens)
Custo operacional$0 (sem custos por token)
Latência50-200ms até primeiro token
Hardware mínimoGPU >4GB ou 16GB RAM + 4 cores
BrowsersChrome 148+, Edge
SOWindows, macOS, Linux, ChromeOS
IdiomasEN, ES, JA, DE, FR

Pontos fortes: Zero custo, máxima privacidade, zero setup, funciona offline. Pontos fracos: Qualidade limitada, apenas Chrome/Edge, sem fine-tuning, poucos idiomas.

OpenAI API

O que é: API cloud para acessar modelos GPT-4o, GPT-4o-mini, o1 e outros via REST.

AspectoDetalhe
ModelosGPT-4o, GPT-4o-mini, o1, o1-mini
Custo (GPT-4o-mini)$0.15/1M input, $0.60/1M output
Custo (GPT-4o)$2.50/1M input, $10/1M output
Context window128K tokens (GPT-4o)
Latência200-500ms (varia com carga)
Fine-tuning✅ Disponível
InteroperabilidadeQualquer linguagem/plataforma

Pontos fortes: Melhor qualidade de geração, context window enorme, fine-tuning, universal. Pontos fracos: Custo por token, latência de rede, dados enviados para cloud, requer internet.

Google Gemini Cloud API

O que é: API cloud para modelos Gemini (Flash, Pro) via Google AI Studio ou Vertex AI.

AspectoDetalhe
ModelosGemini 3.5 Flash, Gemini 3 Pro, Gemini Flash Lite
Custo (Flash Lite)Free tier disponível; pago: ~$0.50/1M input
Custo (3.5 Flash)$1.50/1M input, $9/1M output
Custo (3 Pro)$2/1M input, $12/1M output
Context window1M+ tokens (Gemini Pro)
Latência100-400ms
Fine-tuning✅ Disponível
Free tier15 RPM, modelos selecionados

Pontos fortes: Context window massiva (1M+), free tier generoso, multimodal avançado (vídeo), integração Google. Pontos fracos: Dados enviados para cloud, custo em escala, dependência do ecossistema Google.

Ollama (Local)

O que é: Runtime local para executar LLMs open-source no desktop (macOS, Linux, Windows).

AspectoDetalhe
ModelosLlama 3.1, Mistral, Qwen 2.5, Phi, Gemma, CodeLlama, 100+
Custo$0 (apenas hardware)
Hardware mínimo8GB RAM (7B), 16GB RAM (13B), GPU opcional
Context windowVariável (4K-128K dependendo do modelo)
Latência50-300ms (GPU), 500ms-2s (CPU)
Instalaçãocurl -fsSL https://ollama.ai/install.sh | sh
APIREST compatível com OpenAI

Pontos fortes: Escolha de modelo, privacidade total, modelos grandes disponíveis, API compatível OpenAI, fine-tuning com LoRA. Pontos fracos: Requer instalação, hardware potente para bons modelos, não roda no browser, setup por conta do usuário.

WebLLM (Browser via WebGPU)

O que é: Engine de inferência que roda LLMs no browser usando WebGPU e WebAssembly.

AspectoDetalhe
ModelosLlama 3, Phi 3, Gemma, Mistral, Qwen, RedPajama
Custo$0 (apenas hardware do usuário)
HardwareWebGPU necessário (Chrome, Edge, Firefox Windows)
Download por origem500MB-4GB (não compartilhado entre sites)
APIOpenAI-compatible
Instalaçãonpm install @mlc-ai/web-llm
Latência100-500ms primeiro token

Pontos fortes: Roda no browser, privacidade total, escolha de modelo, API OpenAI-compatible, cross-browser (com WebGPU). Pontos fracos: Download pesado por site, performance inferior ao nativo, dependente de WebGPU, modelos limitados por VRAM do browser.

Comparativo de custos (1M requisições/mês)

Estimativa para 1 milhão de requisições com prompts médios de ~500 tokens input e ~200 tokens output:

SoluçãoCusto mensal estimadoNotas
Prompt API$0Grátis, sem limites
OpenAI GPT-4o-mini~$195$0.15/1M input + $0.60/1M output × volume
OpenAI GPT-4o~$3.250Para quando qualidade importa
Gemini Flash Lite~$0 (free tier) a $350Free tier cobre volume baixo
Gemini 3.5 Flash~$2.550High quality
Ollama$0 (+ custo de hardware)GPU ~$500-2000 (one-time)
WebLLM$0Hardware do usuário

Comparativo de privacidade

SoluçãoDados saem do dispositivo?Logs mantidos pelo provedor?Conformidade LGPD
Prompt API❌ Não❌ Não✅ Total
OpenAI API✅ SimConfigurável (opt-out disponível)⚠️ Requer DPA
Gemini Cloud✅ SimConfigurável⚠️ Requer DPA
Ollama❌ Não❌ Não✅ Total
WebLLM❌ Não❌ Não✅ Total

Comparativo de qualidade por tarefa

TarefaPrompt APIOpenAIGemini CloudOllama (Llama 3.1 70B)WebLLM
Classificação simples⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐
Geração de texto longo⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐
Raciocínio multi-step⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐
Extração de dados⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐
Código/programação⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐
Análise de imagem⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐
Resumo⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐

Recomendações por caso de uso

”Quero IA grátis e privada para funcionalidades simples”

Prompt API + polyfill como fallback

Ideal para: classificação de conteúdo, autocompletar, extração de entidades, análise de sentimento.

”Preciso da melhor qualidade possível”

OpenAI API (GPT-4o) ou Gemini Pro

Ideal para: geração de conteúdo, raciocínio complexo, assistentes conversacionais sofisticados.

”Tenho volume alto e quero economizar”

Prompt API (on-device) + Gemini Flash Lite (fallback cloud com free tier)

Ideal para: produtos freemium, ferramentas de produtividade, apps com milhões de usuários.

”Privacidade é obrigatória e preciso de qualidade”

Ollama (backend) ou Prompt API + polyfill local

Ideal para: dados sensíveis (saúde, finanças), compliance LGPD/GDPR, ambientes corporativos.

”Quero IA no browser sem depender do Chrome”

WebLLM

Ideal para: demos, POCs cross-browser, apps que precisam funcionar em Firefox/Safari com IA local.

”Quero a melhor experiência possível com cobertura universal”

Prompt API (nativa quando disponível) + Gemini Cloud (fallback) via Firebase AI Logic

Ideal para: apps de produção que precisam funcionar para todos os usuários com a melhor UX possível.

Árvore de decisão

Preciso de IA na minha aplicação web
├── Privacidade é o fator principal?
│   ├── SIM → Precisa funcionar em todos os browsers?
│   │   ├── SIM → WebLLM
│   │   └── NÃO → Prompt API (Chrome/Edge suficiente?)
│   │       ├── SIM → Prompt API
│   │       └── NÃO → Prompt API + polyfill local
│   └── NÃO → Qualidade é crítica?
│       ├── SIM → Orçamento disponível?
│       │   ├── SIM → OpenAI GPT-4o ou Gemini Pro
│       │   └── NÃO → Gemini Flash Lite (free tier)
│       └── NÃO → Volume é alto?
│           ├── SIM → Prompt API + fallback cloud barato
│           └── NÃO → OpenAI GPT-4o-mini ($0.15/1M tokens)

Combinações recomendadas

Na prática, a melhor abordagem é combinar soluções:

Padrão “Progressive AI”

async function criarSessaoIA() {
  // Tier 1: On-device (grátis, privado, rápido)
  if ('LanguageModel' in window) {
    const status = await LanguageModel.availability({
      expectedInputs: [{ type: 'text', languages: ['en'] }],
      expectedOutputs: [{ type: 'text', languages: ['en'] }]
    });
    if (status !== 'unavailable') {
      return { session: await LanguageModel.create(), tier: 'on-device' };
    }
  }

  // Tier 2: Cloud barato (cobertura universal)
  return {
    session: await criarSessaoCloud('gemini-flash-lite'),
    tier: 'cloud'
  };
}

Padrão “Quality Routing”

async function prompt(texto, complexidade) {
  // Tarefas simples → on-device
  if (complexidade === 'simple') {
    return await sessaoLocal.prompt(texto);
  }

  // Tarefas complexas → cloud
  return await sessaoCloud.prompt(texto);
}

Perguntas frequentes

Qual a alternativa mais barata para alta qualidade?

Gemini Flash Lite com free tier (15 RPM) ou GPT-4o-mini ($0.15/1M tokens). Para volume zero de custo com qualidade básica, a Prompt API é imbatível.

Posso migrar de OpenAI para Prompt API sem mudar código?

Não diretamente — as APIs têm interfaces diferentes. Porém, o WebLLM oferece API compatível com OpenAI e roda no browser. O polyfill da Prompt API também padroniza a interface.

Qual tem melhor latência?

Para primeiro token: Prompt API e Ollama (local, sem rede). Para throughput total: depende do hardware. GPUs modernas com Ollama podem superar o Gemini Nano em tokens/segundo.

Vale a pena usar Prompt API se meu público usa muito Firefox/Safari?

Sozinha, não. Mas com o polyfill (cloud ou local) como fallback, sim. A Prompt API oferece a melhor experiência para os ~60% de usuários Chrome/Edge, enquanto o polyfill cobre o restante.

Ollama é melhor que Prompt API?

Depende. Ollama oferece modelos maiores e melhores (Llama 3.1 70B > Gemini Nano), mas requer instalação no desktop do usuário. A Prompt API é zero-setup para o usuário — está no browser. Para apps web servindo usuários finais, a Prompt API vence em acessibilidade. Para desenvolvimento e apps internas, Ollama vence em qualidade.


Referências