Comparativo: Prompt API vs. OpenAI, Ollama e WebLLM

Escolher onde rodar inferência de IA é uma decisão arquitetural que impacta custo, privacidade e experiência do usuário. Este comparativo coloca a Prompt API (on-device via Chrome) contra quatro alternativas: OpenAI API, Google Gemini Cloud, Ollama (local) e WebLLM (browser via WebGPU). Cada opção tem seus trade-offs — e a melhor escolha depende do seu cenário específico.

Tabela comparativa geral

Critério	Prompt API	OpenAI API	Gemini Cloud	Ollama	WebLLM
Custo	Grátis	$0.15–$10/1M tokens	$0.50–$2/1M tokens	Grátis (hardware)	Grátis (hardware)
Latência (1º token)	~50-200ms	~200-500ms	~100-400ms	~50-300ms	~100-500ms
Privacidade	Máxima (on-device)	Baixa (cloud)	Baixa (cloud)	Máxima (local)	Máxima (browser)
Qualidade do modelo	Básica (~3B params)	Excelente (GPT-4o)	Excelente (Gemini Pro)	Variável (escolha)	Variável (escolha)
Funciona offline	✅ Sim	❌ Não	❌ Não	✅ Sim	✅ Sim
Interoperabilidade	Chrome/Edge apenas	Universal	Universal	Desktop apenas	Browsers com WebGPU
Setup	Zero (built-in)	API key	API key	Instalação local	Import npm
Modelo	Gemini Nano (fixo)	GPT-4o, o1, etc.	Gemini Pro, Flash	Llama, Mistral, etc.	Llama, Phi, etc.
Multimodal	Texto+Imagem+Áudio	Texto+Imagem+Áudio	Texto+Imagem+Áudio+Vídeo	Depende do modelo	Depende do modelo
Structured output	JSON Schema + Regex	JSON Schema	JSON Schema	Depende da lib	Limitado
Context window	Limitada (~4K)	128K+ (GPT-4o)	1M+ (Gemini Pro)	Depende do modelo	Limitada por RAM
Fine-tuning	❌ Não	✅ Sim	✅ Sim	✅ Sim (LoRA)	❌ Não

Detalhamento por solução

Prompt API (Chrome Built-in)

O que é: API nativa do Chrome que expõe o Gemini Nano (~4,27 GB) para inferência on-device.

Aspecto	Detalhe
Modelo	Gemini Nano (~3B parâmetros)
Download	~4,27 GB (uma vez, compartilhado entre origens)
Custo operacional	$0 (sem custos por token)
Latência	50-200ms até primeiro token
Hardware mínimo	GPU >4GB ou 16GB RAM + 4 cores
Browsers	Chrome 148+, Edge
SO	Windows, macOS, Linux, ChromeOS
Idiomas	EN, ES, JA, DE, FR

Pontos fortes: Zero custo, máxima privacidade, zero setup, funciona offline. Pontos fracos: Qualidade limitada, apenas Chrome/Edge, sem fine-tuning, poucos idiomas.

OpenAI API

O que é: API cloud para acessar modelos GPT-4o, GPT-4o-mini, o1 e outros via REST.

Aspecto	Detalhe
Modelos	GPT-4o, GPT-4o-mini, o1, o1-mini
Custo (GPT-4o-mini)	$0.15/1M input, $0.60/1M output
Custo (GPT-4o)	$2.50/1M input, $10/1M output
Context window	128K tokens (GPT-4o)
Latência	200-500ms (varia com carga)
Fine-tuning	✅ Disponível
Interoperabilidade	Qualquer linguagem/plataforma

Pontos fortes: Melhor qualidade de geração, context window enorme, fine-tuning, universal. Pontos fracos: Custo por token, latência de rede, dados enviados para cloud, requer internet.

Google Gemini Cloud API

O que é: API cloud para modelos Gemini (Flash, Pro) via Google AI Studio ou Vertex AI.

Aspecto	Detalhe
Modelos	Gemini 3.5 Flash, Gemini 3 Pro, Gemini Flash Lite
Custo (Flash Lite)	Free tier disponível; pago: ~$0.50/1M input
Custo (3.5 Flash)	$1.50/1M input, $9/1M output
Custo (3 Pro)	$2/1M input, $12/1M output
Context window	1M+ tokens (Gemini Pro)
Latência	100-400ms
Fine-tuning	✅ Disponível
Free tier	15 RPM, modelos selecionados

Pontos fortes: Context window massiva (1M+), free tier generoso, multimodal avançado (vídeo), integração Google. Pontos fracos: Dados enviados para cloud, custo em escala, dependência do ecossistema Google.

Ollama (Local)

O que é: Runtime local para executar LLMs open-source no desktop (macOS, Linux, Windows).

Aspecto	Detalhe
Modelos	Llama 3.1, Mistral, Qwen 2.5, Phi, Gemma, CodeLlama, 100+
Custo	$0 (apenas hardware)
Hardware mínimo	8GB RAM (7B), 16GB RAM (13B), GPU opcional
Context window	Variável (4K-128K dependendo do modelo)
Latência	50-300ms (GPU), 500ms-2s (CPU)
Instalação	`curl -fsSL https://ollama.ai/install.sh \| sh`
API	REST compatível com OpenAI

Pontos fortes: Escolha de modelo, privacidade total, modelos grandes disponíveis, API compatível OpenAI, fine-tuning com LoRA. Pontos fracos: Requer instalação, hardware potente para bons modelos, não roda no browser, setup por conta do usuário.

WebLLM (Browser via WebGPU)

O que é: Engine de inferência que roda LLMs no browser usando WebGPU e WebAssembly.

Aspecto	Detalhe
Modelos	Llama 3, Phi 3, Gemma, Mistral, Qwen, RedPajama
Custo	$0 (apenas hardware do usuário)
Hardware	WebGPU necessário (Chrome, Edge, Firefox Windows)
Download por origem	500MB-4GB (não compartilhado entre sites)
API	OpenAI-compatible
Instalação	`npm install @mlc-ai/web-llm`
Latência	100-500ms primeiro token

Pontos fortes: Roda no browser, privacidade total, escolha de modelo, API OpenAI-compatible, cross-browser (com WebGPU). Pontos fracos: Download pesado por site, performance inferior ao nativo, dependente de WebGPU, modelos limitados por VRAM do browser.

Comparativo de custos (1M requisições/mês)

Estimativa para 1 milhão de requisições com prompts médios de ~500 tokens input e ~200 tokens output:

Solução	Custo mensal estimado	Notas
Prompt API	$0	Grátis, sem limites
OpenAI GPT-4o-mini	~$195	$0.15/1M input + $0.60/1M output × volume
OpenAI GPT-4o	~$3.250	Para quando qualidade importa
Gemini Flash Lite	~$0 (free tier) a $350	Free tier cobre volume baixo
Gemini 3.5 Flash	~$2.550	High quality
Ollama	$0 (+ custo de hardware)	GPU ~$500-2000 (one-time)
WebLLM	$0	Hardware do usuário

Comparativo de privacidade

Solução	Dados saem do dispositivo?	Logs mantidos pelo provedor?	Conformidade LGPD
Prompt API	❌ Não	❌ Não	✅ Total
OpenAI API	✅ Sim	Configurável (opt-out disponível)	⚠️ Requer DPA
Gemini Cloud	✅ Sim	Configurável	⚠️ Requer DPA
Ollama	❌ Não	❌ Não	✅ Total
WebLLM	❌ Não	❌ Não	✅ Total

Comparativo de qualidade por tarefa

Tarefa	Prompt API	OpenAI	Gemini Cloud	Ollama (Llama 3.1 70B)	WebLLM
Classificação simples	⭐⭐⭐⭐	⭐⭐⭐⭐⭐	⭐⭐⭐⭐⭐	⭐⭐⭐⭐⭐	⭐⭐⭐⭐
Geração de texto longo	⭐⭐	⭐⭐⭐⭐⭐	⭐⭐⭐⭐⭐	⭐⭐⭐⭐	⭐⭐⭐
Raciocínio multi-step	⭐⭐	⭐⭐⭐⭐⭐	⭐⭐⭐⭐⭐	⭐⭐⭐⭐	⭐⭐⭐
Extração de dados	⭐⭐⭐⭐	⭐⭐⭐⭐⭐	⭐⭐⭐⭐⭐	⭐⭐⭐⭐	⭐⭐⭐
Código/programação	⭐⭐	⭐⭐⭐⭐⭐	⭐⭐⭐⭐	⭐⭐⭐⭐	⭐⭐⭐
Análise de imagem	⭐⭐⭐	⭐⭐⭐⭐⭐	⭐⭐⭐⭐⭐	⭐⭐⭐	⭐⭐
Resumo	⭐⭐⭐	⭐⭐⭐⭐⭐	⭐⭐⭐⭐⭐	⭐⭐⭐⭐	⭐⭐⭐

Recomendações por caso de uso

”Quero IA grátis e privada para funcionalidades simples”

→ Prompt API + polyfill como fallback

Ideal para: classificação de conteúdo, autocompletar, extração de entidades, análise de sentimento.

”Preciso da melhor qualidade possível”

→ OpenAI API (GPT-4o) ou Gemini Pro

Ideal para: geração de conteúdo, raciocínio complexo, assistentes conversacionais sofisticados.

”Tenho volume alto e quero economizar”

→ Prompt API (on-device) + Gemini Flash Lite (fallback cloud com free tier)

Ideal para: produtos freemium, ferramentas de produtividade, apps com milhões de usuários.

”Privacidade é obrigatória e preciso de qualidade”

→ Ollama (backend) ou Prompt API + polyfill local

Ideal para: dados sensíveis (saúde, finanças), compliance LGPD/GDPR, ambientes corporativos.

”Quero IA no browser sem depender do Chrome”

→ WebLLM

Ideal para: demos, POCs cross-browser, apps que precisam funcionar em Firefox/Safari com IA local.

”Quero a melhor experiência possível com cobertura universal”

→ Prompt API (nativa quando disponível) + Gemini Cloud (fallback) via Firebase AI Logic

Ideal para: apps de produção que precisam funcionar para todos os usuários com a melhor UX possível.

Árvore de decisão

Preciso de IA na minha aplicação web
├── Privacidade é o fator principal?
│   ├── SIM → Precisa funcionar em todos os browsers?
│   │   ├── SIM → WebLLM
│   │   └── NÃO → Prompt API (Chrome/Edge suficiente?)
│   │       ├── SIM → Prompt API
│   │       └── NÃO → Prompt API + polyfill local
│   └── NÃO → Qualidade é crítica?
│       ├── SIM → Orçamento disponível?
│       │   ├── SIM → OpenAI GPT-4o ou Gemini Pro
│       │   └── NÃO → Gemini Flash Lite (free tier)
│       └── NÃO → Volume é alto?
│           ├── SIM → Prompt API + fallback cloud barato
│           └── NÃO → OpenAI GPT-4o-mini ($0.15/1M tokens)

Combinações recomendadas

Na prática, a melhor abordagem é combinar soluções:

Padrão “Progressive AI”

async function criarSessaoIA() {
  // Tier 1: On-device (grátis, privado, rápido)
  if ('LanguageModel' in window) {
    const status = await LanguageModel.availability({
      expectedInputs: [{ type: 'text', languages: ['en'] }],
      expectedOutputs: [{ type: 'text', languages: ['en'] }]
    });
    if (status !== 'unavailable') {
      return { session: await LanguageModel.create(), tier: 'on-device' };
    }
  }

  // Tier 2: Cloud barato (cobertura universal)
  return {
    session: await criarSessaoCloud('gemini-flash-lite'),
    tier: 'cloud'
  };
}

Padrão “Quality Routing”

async function prompt(texto, complexidade) {
  // Tarefas simples → on-device
  if (complexidade === 'simple') {
    return await sessaoLocal.prompt(texto);
  }

  // Tarefas complexas → cloud
  return await sessaoCloud.prompt(texto);
}

Perguntas frequentes

Qual a alternativa mais barata para alta qualidade?

Gemini Flash Lite com free tier (15 RPM) ou GPT-4o-mini ($0.15/1M tokens). Para volume zero de custo com qualidade básica, a Prompt API é imbatível.

Posso migrar de OpenAI para Prompt API sem mudar código?

Não diretamente — as APIs têm interfaces diferentes. Porém, o WebLLM oferece API compatível com OpenAI e roda no browser. O polyfill da Prompt API também padroniza a interface.

Qual tem melhor latência?

Para primeiro token: Prompt API e Ollama (local, sem rede). Para throughput total: depende do hardware. GPUs modernas com Ollama podem superar o Gemini Nano em tokens/segundo.

Vale a pena usar Prompt API se meu público usa muito Firefox/Safari?

Sozinha, não. Mas com o polyfill (cloud ou local) como fallback, sim. A Prompt API oferece a melhor experiência para os ~60% de usuários Chrome/Edge, enquanto o polyfill cobre o restante.

Ollama é melhor que Prompt API?

Depende. Ollama oferece modelos maiores e melhores (Llama 3.1 70B > Gemini Nano), mas requer instalação no desktop do usuário. A Prompt API é zero-setup para o usuário — está no browser. Para apps web servindo usuários finais, a Prompt API vence em acessibilidade. Para desenvolvimento e apps internas, Ollama vence em qualidade.