Comparativo: Prompt API vs. OpenAI, Ollama e WebLLM
Escolher onde rodar inferência de IA é uma decisão arquitetural que impacta custo, privacidade e experiência do usuário. Este comparativo coloca a Prompt API (on-device via Chrome) contra quatro alternativas: OpenAI API, Google Gemini Cloud, Ollama (local) e WebLLM (browser via WebGPU). Cada opção tem seus trade-offs — e a melhor escolha depende do seu cenário específico.
Tabela comparativa geral
| Critério | Prompt API | OpenAI API | Gemini Cloud | Ollama | WebLLM |
|---|---|---|---|---|---|
| Custo | Grátis | $0.15–$10/1M tokens | $0.50–$2/1M tokens | Grátis (hardware) | Grátis (hardware) |
| Latência (1º token) | ~50-200ms | ~200-500ms | ~100-400ms | ~50-300ms | ~100-500ms |
| Privacidade | Máxima (on-device) | Baixa (cloud) | Baixa (cloud) | Máxima (local) | Máxima (browser) |
| Qualidade do modelo | Básica (~3B params) | Excelente (GPT-4o) | Excelente (Gemini Pro) | Variável (escolha) | Variável (escolha) |
| Funciona offline | ✅ Sim | ❌ Não | ❌ Não | ✅ Sim | ✅ Sim |
| Interoperabilidade | Chrome/Edge apenas | Universal | Universal | Desktop apenas | Browsers com WebGPU |
| Setup | Zero (built-in) | API key | API key | Instalação local | Import npm |
| Modelo | Gemini Nano (fixo) | GPT-4o, o1, etc. | Gemini Pro, Flash | Llama, Mistral, etc. | Llama, Phi, etc. |
| Multimodal | Texto+Imagem+Áudio | Texto+Imagem+Áudio | Texto+Imagem+Áudio+Vídeo | Depende do modelo | Depende do modelo |
| Structured output | JSON Schema + Regex | JSON Schema | JSON Schema | Depende da lib | Limitado |
| Context window | Limitada (~4K) | 128K+ (GPT-4o) | 1M+ (Gemini Pro) | Depende do modelo | Limitada por RAM |
| Fine-tuning | ❌ Não | ✅ Sim | ✅ Sim | ✅ Sim (LoRA) | ❌ Não |
Detalhamento por solução
Prompt API (Chrome Built-in)
O que é: API nativa do Chrome que expõe o Gemini Nano (~4,27 GB) para inferência on-device.
| Aspecto | Detalhe |
|---|---|
| Modelo | Gemini Nano (~3B parâmetros) |
| Download | ~4,27 GB (uma vez, compartilhado entre origens) |
| Custo operacional | $0 (sem custos por token) |
| Latência | 50-200ms até primeiro token |
| Hardware mínimo | GPU >4GB ou 16GB RAM + 4 cores |
| Browsers | Chrome 148+, Edge |
| SO | Windows, macOS, Linux, ChromeOS |
| Idiomas | EN, ES, JA, DE, FR |
Pontos fortes: Zero custo, máxima privacidade, zero setup, funciona offline. Pontos fracos: Qualidade limitada, apenas Chrome/Edge, sem fine-tuning, poucos idiomas.
OpenAI API
O que é: API cloud para acessar modelos GPT-4o, GPT-4o-mini, o1 e outros via REST.
| Aspecto | Detalhe |
|---|---|
| Modelos | GPT-4o, GPT-4o-mini, o1, o1-mini |
| Custo (GPT-4o-mini) | $0.15/1M input, $0.60/1M output |
| Custo (GPT-4o) | $2.50/1M input, $10/1M output |
| Context window | 128K tokens (GPT-4o) |
| Latência | 200-500ms (varia com carga) |
| Fine-tuning | ✅ Disponível |
| Interoperabilidade | Qualquer linguagem/plataforma |
Pontos fortes: Melhor qualidade de geração, context window enorme, fine-tuning, universal. Pontos fracos: Custo por token, latência de rede, dados enviados para cloud, requer internet.
Google Gemini Cloud API
O que é: API cloud para modelos Gemini (Flash, Pro) via Google AI Studio ou Vertex AI.
| Aspecto | Detalhe |
|---|---|
| Modelos | Gemini 3.5 Flash, Gemini 3 Pro, Gemini Flash Lite |
| Custo (Flash Lite) | Free tier disponível; pago: ~$0.50/1M input |
| Custo (3.5 Flash) | $1.50/1M input, $9/1M output |
| Custo (3 Pro) | $2/1M input, $12/1M output |
| Context window | 1M+ tokens (Gemini Pro) |
| Latência | 100-400ms |
| Fine-tuning | ✅ Disponível |
| Free tier | 15 RPM, modelos selecionados |
Pontos fortes: Context window massiva (1M+), free tier generoso, multimodal avançado (vídeo), integração Google. Pontos fracos: Dados enviados para cloud, custo em escala, dependência do ecossistema Google.
Ollama (Local)
O que é: Runtime local para executar LLMs open-source no desktop (macOS, Linux, Windows).
| Aspecto | Detalhe |
|---|---|
| Modelos | Llama 3.1, Mistral, Qwen 2.5, Phi, Gemma, CodeLlama, 100+ |
| Custo | $0 (apenas hardware) |
| Hardware mínimo | 8GB RAM (7B), 16GB RAM (13B), GPU opcional |
| Context window | Variável (4K-128K dependendo do modelo) |
| Latência | 50-300ms (GPU), 500ms-2s (CPU) |
| Instalação | curl -fsSL https://ollama.ai/install.sh | sh |
| API | REST compatível com OpenAI |
Pontos fortes: Escolha de modelo, privacidade total, modelos grandes disponíveis, API compatível OpenAI, fine-tuning com LoRA. Pontos fracos: Requer instalação, hardware potente para bons modelos, não roda no browser, setup por conta do usuário.
WebLLM (Browser via WebGPU)
O que é: Engine de inferência que roda LLMs no browser usando WebGPU e WebAssembly.
| Aspecto | Detalhe |
|---|---|
| Modelos | Llama 3, Phi 3, Gemma, Mistral, Qwen, RedPajama |
| Custo | $0 (apenas hardware do usuário) |
| Hardware | WebGPU necessário (Chrome, Edge, Firefox Windows) |
| Download por origem | 500MB-4GB (não compartilhado entre sites) |
| API | OpenAI-compatible |
| Instalação | npm install @mlc-ai/web-llm |
| Latência | 100-500ms primeiro token |
Pontos fortes: Roda no browser, privacidade total, escolha de modelo, API OpenAI-compatible, cross-browser (com WebGPU). Pontos fracos: Download pesado por site, performance inferior ao nativo, dependente de WebGPU, modelos limitados por VRAM do browser.
Comparativo de custos (1M requisições/mês)
Estimativa para 1 milhão de requisições com prompts médios de ~500 tokens input e ~200 tokens output:
| Solução | Custo mensal estimado | Notas |
|---|---|---|
| Prompt API | $0 | Grátis, sem limites |
| OpenAI GPT-4o-mini | ~$195 | $0.15/1M input + $0.60/1M output × volume |
| OpenAI GPT-4o | ~$3.250 | Para quando qualidade importa |
| Gemini Flash Lite | ~$0 (free tier) a $350 | Free tier cobre volume baixo |
| Gemini 3.5 Flash | ~$2.550 | High quality |
| Ollama | $0 (+ custo de hardware) | GPU ~$500-2000 (one-time) |
| WebLLM | $0 | Hardware do usuário |
Comparativo de privacidade
| Solução | Dados saem do dispositivo? | Logs mantidos pelo provedor? | Conformidade LGPD |
|---|---|---|---|
| Prompt API | ❌ Não | ❌ Não | ✅ Total |
| OpenAI API | ✅ Sim | Configurável (opt-out disponível) | ⚠️ Requer DPA |
| Gemini Cloud | ✅ Sim | Configurável | ⚠️ Requer DPA |
| Ollama | ❌ Não | ❌ Não | ✅ Total |
| WebLLM | ❌ Não | ❌ Não | ✅ Total |
Comparativo de qualidade por tarefa
| Tarefa | Prompt API | OpenAI | Gemini Cloud | Ollama (Llama 3.1 70B) | WebLLM |
|---|---|---|---|---|---|
| Classificação simples | ⭐⭐⭐⭐ | ⭐⭐⭐⭐⭐ | ⭐⭐⭐⭐⭐ | ⭐⭐⭐⭐⭐ | ⭐⭐⭐⭐ |
| Geração de texto longo | ⭐⭐ | ⭐⭐⭐⭐⭐ | ⭐⭐⭐⭐⭐ | ⭐⭐⭐⭐ | ⭐⭐⭐ |
| Raciocínio multi-step | ⭐⭐ | ⭐⭐⭐⭐⭐ | ⭐⭐⭐⭐⭐ | ⭐⭐⭐⭐ | ⭐⭐⭐ |
| Extração de dados | ⭐⭐⭐⭐ | ⭐⭐⭐⭐⭐ | ⭐⭐⭐⭐⭐ | ⭐⭐⭐⭐ | ⭐⭐⭐ |
| Código/programação | ⭐⭐ | ⭐⭐⭐⭐⭐ | ⭐⭐⭐⭐ | ⭐⭐⭐⭐ | ⭐⭐⭐ |
| Análise de imagem | ⭐⭐⭐ | ⭐⭐⭐⭐⭐ | ⭐⭐⭐⭐⭐ | ⭐⭐⭐ | ⭐⭐ |
| Resumo | ⭐⭐⭐ | ⭐⭐⭐⭐⭐ | ⭐⭐⭐⭐⭐ | ⭐⭐⭐⭐ | ⭐⭐⭐ |
Recomendações por caso de uso
”Quero IA grátis e privada para funcionalidades simples”
→ Prompt API + polyfill como fallback
Ideal para: classificação de conteúdo, autocompletar, extração de entidades, análise de sentimento.
”Preciso da melhor qualidade possível”
→ OpenAI API (GPT-4o) ou Gemini Pro
Ideal para: geração de conteúdo, raciocínio complexo, assistentes conversacionais sofisticados.
”Tenho volume alto e quero economizar”
→ Prompt API (on-device) + Gemini Flash Lite (fallback cloud com free tier)
Ideal para: produtos freemium, ferramentas de produtividade, apps com milhões de usuários.
”Privacidade é obrigatória e preciso de qualidade”
→ Ollama (backend) ou Prompt API + polyfill local
Ideal para: dados sensíveis (saúde, finanças), compliance LGPD/GDPR, ambientes corporativos.
”Quero IA no browser sem depender do Chrome”
→ WebLLM
Ideal para: demos, POCs cross-browser, apps que precisam funcionar em Firefox/Safari com IA local.
”Quero a melhor experiência possível com cobertura universal”
→ Prompt API (nativa quando disponível) + Gemini Cloud (fallback) via Firebase AI Logic
Ideal para: apps de produção que precisam funcionar para todos os usuários com a melhor UX possível.
Árvore de decisão
Preciso de IA na minha aplicação web
├── Privacidade é o fator principal?
│ ├── SIM → Precisa funcionar em todos os browsers?
│ │ ├── SIM → WebLLM
│ │ └── NÃO → Prompt API (Chrome/Edge suficiente?)
│ │ ├── SIM → Prompt API
│ │ └── NÃO → Prompt API + polyfill local
│ └── NÃO → Qualidade é crítica?
│ ├── SIM → Orçamento disponível?
│ │ ├── SIM → OpenAI GPT-4o ou Gemini Pro
│ │ └── NÃO → Gemini Flash Lite (free tier)
│ └── NÃO → Volume é alto?
│ ├── SIM → Prompt API + fallback cloud barato
│ └── NÃO → OpenAI GPT-4o-mini ($0.15/1M tokens)
Combinações recomendadas
Na prática, a melhor abordagem é combinar soluções:
Padrão “Progressive AI”
async function criarSessaoIA() {
// Tier 1: On-device (grátis, privado, rápido)
if ('LanguageModel' in window) {
const status = await LanguageModel.availability({
expectedInputs: [{ type: 'text', languages: ['en'] }],
expectedOutputs: [{ type: 'text', languages: ['en'] }]
});
if (status !== 'unavailable') {
return { session: await LanguageModel.create(), tier: 'on-device' };
}
}
// Tier 2: Cloud barato (cobertura universal)
return {
session: await criarSessaoCloud('gemini-flash-lite'),
tier: 'cloud'
};
}
Padrão “Quality Routing”
async function prompt(texto, complexidade) {
// Tarefas simples → on-device
if (complexidade === 'simple') {
return await sessaoLocal.prompt(texto);
}
// Tarefas complexas → cloud
return await sessaoCloud.prompt(texto);
}
Perguntas frequentes
Qual a alternativa mais barata para alta qualidade?
Gemini Flash Lite com free tier (15 RPM) ou GPT-4o-mini ($0.15/1M tokens). Para volume zero de custo com qualidade básica, a Prompt API é imbatível.
Posso migrar de OpenAI para Prompt API sem mudar código?
Não diretamente — as APIs têm interfaces diferentes. Porém, o WebLLM oferece API compatível com OpenAI e roda no browser. O polyfill da Prompt API também padroniza a interface.
Qual tem melhor latência?
Para primeiro token: Prompt API e Ollama (local, sem rede). Para throughput total: depende do hardware. GPUs modernas com Ollama podem superar o Gemini Nano em tokens/segundo.
Vale a pena usar Prompt API se meu público usa muito Firefox/Safari?
Sozinha, não. Mas com o polyfill (cloud ou local) como fallback, sim. A Prompt API oferece a melhor experiência para os ~60% de usuários Chrome/Edge, enquanto o polyfill cobre o restante.
Ollama é melhor que Prompt API?
Depende. Ollama oferece modelos maiores e melhores (Llama 3.1 70B > Gemini Nano), mas requer instalação no desktop do usuário. A Prompt API é zero-setup para o usuário — está no browser. Para apps web servindo usuários finais, a Prompt API vence em acessibilidade. Para desenvolvimento e apps internas, Ollama vence em qualidade.