O que é a Chrome Prompt API e por que ela importa

Duas linhas de JavaScript. Um modelo de 4 GB rodando na máquina do visitante. Sem servidor, sem API key, sem conta de centavos por token no fim do mês. A Chrome Prompt API é isso: uma interface nativa do browser que deixa qualquer página web mandar instruções em linguagem natural para um LLM local.

TL;DR

A Prompt API executa IA localmente no Chrome via Gemini Nano (~4.27GB), sem servidor e sem custo por token
Suporta texto, imagem e áudio como entrada, com output estruturado via JSON Schema
Disponível no Chrome 148+ (desktop) desde maio de 2026 — não funciona em mobile

Chegou no Chrome 148, maio de 2026. Expõe o Gemini Nano (~4,27 GB) do Google DeepMind via window.LanguageModel, aceita texto, imagem e áudio na entrada. Parece ficção científica de dois anos atrás, mas tá rodando em stable.

Diagrama arquitetural da Prompt API com navegador, chip de IA local e trecho de JavaScript.

Contexto: o projeto Built-in AI do Chrome

Essa API não brotou do nada. Faz parte de um plano maior — Built-in AI — que o Google vem costurando desde 2024. Começaram pelo caminho seguro: APIs de propósito específico. Summarizer, Writer, Rewriter, Translator, Language Detector. Cada uma com escopo fechado, comportamento previsível, coisa de engenheiro cauteloso.

A Prompt API é o contrário disso. É a interface de propósito geral. As outras são wrappers com defaults pré-cozidos; essa aqui te entrega o modelo cru. Manda qualquer instrução em linguagem natural. Igual ChatGPT ou a Gemini API na nuvem — só que roda no browser do cara.

Eu achei ambicioso demais quando li a proposta. Um LLM de 4 GB no navegador de quem mal sabe limpar cache? Tinha cara de slide bonito que morre no paper. Aí o Chrome 148 saiu. Funciona.

Linha do tempo

Data	Marco
2024 Q3	Primeiros experimentos com Built-in AI no Chrome Canary
2025 Q1	Origin Trial da Prompt API (Chrome 131+)
2025 Q2	Chrome 138 estabiliza API para Extensions
2025 Q3	Origin Trial com suporte multimodal (imagem + áudio)
2026 Maio	Chrome 148 lança Prompt API para web pages em stable
2026 Junho	Polyfill oficial publicado pelo Chrome DevRel

A decisão de mandar no stable foi briga. Mozilla se opôs. Apple WebKit se opôs. W3C TAG se opôs. Microsoft se opôs. O Google foi assim mesmo. Argumento deles: experimentação prática gera dados melhores que debate teórico em comitê. Certo ou errado, a API está na rua.

Como funciona: Gemini Nano on-device

O motor por trás é o Gemini Nano — modelo compacto (v3Nano) do Google DeepMind feito pra rodar local. São ~4,27 GB que o Chrome baixa sozinho quando a máquina dá conta.

Arquitetura de execução

┌─────────────────────────────────────────────┐
│           Página Web (JavaScript)           │
│                                             │
│  const session = await LanguageModel.create()│
│  const resp = await session.prompt("...")    │
└──────────────────────┬──────────────────────┘
                       │ API call (síncrono local)
┌──────────────────────▼──────────────────────┐
│          Chrome Browser Process             │
│  ┌─────────────────────────────────────┐    │
│  │    Gemini Nano (on-device, GPU/CPU) │    │
│  │    ~4.27 GB, inferência local       │    │
│  └─────────────────────────────────────┘    │
└─────────────────────────────────────────────┘
         ❌ Sem rede  ❌ Sem API key  ❌ Sem custo

O que importa entender aqui:

Passou o download inicial, toda inferência é local. Zero rede.
Modelo é compartilhado — baixou uma vez, qualquer site usa.
Usa WebGPU por baixo pra inferência mais rápida.
Dados não saem do dispositivo. Privacidade vem de fábrica, não é checkbox.

O namespace `window.LanguageModel`

Tudo acontece pelo objeto global LanguageModel:

// Verificar disponibilidade
const status = await LanguageModel.availability();
// Retorna: 'available' | 'downloading' | 'downloadable' | 'unavailable'

// Criar sessão
const session = await LanguageModel.create({
  expectedInputs: [{ type: 'text', languages: ['en'] }],
  expectedOutputs: [{ type: 'text', languages: ['en'] }]
});

// Enviar prompt
const resposta = await session.prompt('Resuma este texto em 2 frases: ...');

Isso. Três chamadas e você tem IA rodando client-side. Na prática funciona bem — desde que você calibre expectativas. Não é GPT-4. Mas pra tarefa curta e focada, resolve.

Capacidades da API

O que me surpreendeu foi quanto cabe num modelo on-device desse tamanho:

Entradas suportadas (input)

Tipo	Formatos aceitos	Exemplo de uso
Texto	String simples	Classificação, resumo, extração
Imagem	Blob, HTMLImageElement, HTMLCanvasElement, ImageBitmap	Alt text, busca visual, comparação
Áudio	AudioBuffer, Blob, ArrayBuffer	Transcrição, classificação de som

Saídas suportadas (output)

Tipo	Descrição
Texto	Resposta em linguagem natural
Structured output	JSON Schema ou Regex via `responseConstraint`

Idiomas suportados

Hoje: inglês (en), espanhol (es), japonês (ja), alemão (de) e francês (fr). Português tá “em desenvolvimento” — sem data. Na prática, prompts em PT às vezes funcionam (o modelo viu português no treinamento), mas a qualidade vai e vem. Não dá pra confiar.

Funcionalidades que valem destaque

Streaming: session.promptStreaming() retorna um ReadableStream para respostas incrementais
Structured output: JSON Schema em responseConstraint garante formato da resposta
Prefix mode: pré-preencher resposta do assistente para guiar formato
Multimodal: processar imagens e áudio junto com texto
Session management: contexto conversacional com contextUsage/contextWindow
Clone/Destroy: gerenciar ciclo de vida de sessões

Casos de uso práticos

Onde essa API brilha: cenários em que latência baixa, privacidade e custo zero importam mais que qualidade máxima. Vou ser concreto.

1. Busca inteligente em conteúdo

Responder perguntas com base no que está na página. Sem mandar nada pra servidor nenhum. O dado fica onde nasceu.

2. Classificação e filtragem

Categorizar artigos, comentários, produtos — em tempo real, direto no browser. O tipo de feature que antes exigia um backend inteiro só pra classificar string.

3. Extração de dados estruturados

Pegar informação de texto bagunçado (nomes, endereços, eventos) e devolver JSON limpo via Schema. Funciona bem pra textos curtos em inglês. Surpreendentemente bem.

4. Geração de alt text

Analisar imagem e gerar descrição acessível. Esse é o caso de uso que mais me anima — acessibilidade quase de graça, rodando no client. Sem desculpa pra não ter alt text.

5. Transcrição e classificação de áudio

Transcrever gravação de voz ou classificar som direto no browser. Precisa de GPU. Mas quando funciona, parece magia barata.

6. Assistente contextual

Um chat que entende a página onde está, sem vazar dado nenhum. FAQ inteligente 100% client-side. Sem GDPR pra resolver.

Grid com seis ícones de casos de uso da Prompt API: busca, classificação, extração, acessibilidade, áudio e assistente.

Requisitos de hardware

Aqui a brincadeira fica cara. A Prompt API não roda em qualquer máquina:

Requisito	Especificação
Sistema operacional	Windows 10/11, macOS 13+, Linux, ChromeOS (Chromebook Plus)
Armazenamento	Mínimo 22 GB livres no volume do perfil Chrome
GPU	>4 GB de VRAM
CPU (fallback)	16 GB RAM + 4 cores (sem GPU)
Áudio	Requer GPU obrigatoriamente
Rede	Conexão não-medida para download inicial
Mobile	❌ Não suportado (Android, iOS)

Se o espaço cair abaixo de 10 GB depois do download, o Chrome apaga o modelo. Volta quando tiver espaço de novo.

E aí mora o problema sério: mobile fica de fora. A maioria da web brasileira é mobile. Quem acessa pelo celular — que é quase todo mundo aqui — simplesmente não tem acesso. É uma limitação que pesa antes de apostar ficha.

Comparação rápida: Prompt API vs. APIs cloud

Aspecto	Prompt API (on-device)	APIs Cloud (OpenAI, Gemini)
Latência	~50-200ms (local)	300-2000ms (rede)
Custo	Gratuito	$0,15-60/milhão tokens
Privacidade	Dados nunca saem do device	Dados vão ao servidor
Qualidade	Boa para tarefas simples	Superior (modelos maiores)
Offline	✅ Funciona sem internet	❌ Requer conexão
Interoperabilidade	Só Chrome (148+)	Qualquer navegador/plataforma
Multilingual	5 idiomas	Dezenas de idiomas
Multimodal output	Só texto	Texto, imagem, áudio, vídeo

Não substitui cloud. Complementa. O padrão mais inteligente: on-device pras tarefas rápidas e privadas, fallback pra cloud quando precisa de qualidade maior ou suporte multilingual de verdade.

Limitações atuais

Vou ser direto no que não funciona — ou funciona mal:

Qualidade inferior a modelos cloud: Gemini Nano dá conta de classificação e extração, mas não briga com GPT-4o ou Gemini 1.5 Pro em tarefa complexa
Só Chrome: nenhum outro browser implementou em stable — Edge mantém preview com Phi-4-mini
Sem mobile: Android e iOS ficam de fora
Download silencioso: o modelo é baixado sem o usuário saber (controvérsia legítima)
Português não suportado: só EN, ES, JA, DE, FR por enquanto
Não-determinístico: mesmo prompt pode dar resposta diferente entre sessões

A controvérsia política

Esse lançamento não é só técnico. É político. O Google decidiu sozinho baixar 4,27 GB na máquina do usuário sem pedir, expor uma API amarrada à Generative AI Prohibited Uses Policy, e passar por cima da oposição formal de Mozilla, Apple, W3C TAG e Microsoft.

Quem tem ~65% do mercado de browsers pode fazer o que quiser? Pode. Deveria? Aí é outra história.

Pra análise completa, leia o artigo Google vs. Mozilla: a controvérsia por trás da IA no browser.

Conclusão

A Chrome Prompt API é mudança real. Primeira vez que qualquer site pode rodar inferência de IA localmente, sem depender de nuvem. Privacidade, custo, performance — tudo melhora quando o dado não viaja.

Mas não é paraíso. Só Chrome desktop. Sem mobile. Sem português. Modelo bom, não ótimo. Pra quem desenvolve no Brasil, o momento é de experimentar, entender os limites, e ficar de olho — pra quando (se) PT-BR chegar, já estar pronto.

Próximos passos:

Como testar a Prompt API no seu Chrome hoje — tutorial passo a passo
5 demos práticos que você pode copiar — código funcional
Prompt API vs. OpenAI: quando usar cada uma — comparativo detalhado

FAQ

O que é a Chrome Prompt API?

É uma interface JavaScript nativa do Chrome 148+ que permite enviar instruções em linguagem natural ao modelo Gemini Nano, executado localmente no dispositivo do usuário. Não requer API key, servidor ou custo por token.

A Prompt API funciona offline?

Sim. Após o download inicial do modelo Gemini Nano (~4,27 GB), toda inferência é local e funciona sem conexão à internet.

Quais navegadores suportam a Prompt API?

Atualmente apenas o Google Chrome 148+ em desktop (Windows, macOS, Linux, ChromeOS). Microsoft Edge mantém uma implementação como developer preview com modelo Phi-4-mini. Mozilla Firefox e Apple Safari não implementaram e se opõem formalmente à API.

A Prompt API suporta português?

Não oficialmente. A versão atual suporta inglês, espanhol, japonês, alemão e francês. Suporte a idiomas adicionais está em desenvolvimento, mas sem data.

Preciso de GPU para usar a Prompt API?

Não obrigatoriamente para texto — é possível usar com CPU (16 GB RAM + 4 cores). Porém, funcionalidades com áudio exigem GPU, e a performance é bem melhor com GPU >4 GB VRAM.