Tarefas de browser na prática
Como descrever uma tarefa web ao agente, quando o mandar parar e como verificar o que voltou.
Esta página começa por explicar para que serve realmente o ego lite e depois acompanha-o numa tarefa de ponta a ponta, para que veja exatamente o que acontece entre um prompt em linguagem natural e um resultado estruturado.
O ego lite é onde o agente faz as coisas por si na web. Tudo o que esteja atrás de um login — CRM, caixa de e-mails, ATS, contabilidade, social, reservas, admin interno — o agente leva de uma ponta à outra. Lê o seu prompt em linguagem natural, escreve um heredoc ego-browser nodejs, executa-o num Space e deixa em paz os separadores que está a usar.
As demos gravadas vivem em lite.ego.app/use-cases. A reserva Expedia no fim desta página é a que vamos detalhar passo a passo.
Antes de começar
-
Confirme que o ego lite está instalado — ver Início rápido.
-
Pelo menos uma Agent CLI com a skill
ego-browserregistada: Claude Code, OpenAI Codex, Cursor, Gemini CLI, Opencode. -
Na Agent CLI, escreva:
/ego-browser <descreva a tarefa em linguagem natural>O agente carrega o contexto da skill
ego-browsere escreve sozinho o heredoc. A sua tarefa é só descrever o que quer.
O que pode fazer com o ego lite
Tudo o que sabe fazer num browser em que já tem sessão iniciada, o agente também pode fazer por si, num ou em vários Spaces.
-
Redes sociais. Responder a tweets, fazer quote-tweet com citações das suas notas, redigir e agendar posts, puxar dados de engagement, monitorizar menções, extrair atividade de contas. X, LinkedIn, Threads, Reddit, Instagram, Facebook funcionam. Tudo o que exige sessão iniciada e que a API pública não dá, o ego lite preenche.
-
Procura de emprego e recrutamento. Pesquisar no LinkedIn, Wellfound, YC startup jobs. Filtrar, carregar em Apply para entrar em ATS (AshbyHQ, Greenhouse, Lever, Workday), fazer upload do CV, preencher respostas-modelo, parar antes do Submit e esperar pela sua confirmação.
-
Imobiliário, finanças, compras. Filtrar Redfin, Zillow, Apartments.com pelos seus próprios critérios, correr os simuladores de crédito e affordability, despejar dados estruturados em markdown local. Comparar preços na Amazon, encomendas a granel na Costco, back-offices de corretoras com API trancada — o mesmo manual.
-
Reservas. Voos, hóteis, restaurantes, o fluxo completo com dados fictícios de passageiro ou cliente, até ao ecrã anterior ao pagamento. O walkthrough Expedia abaixo é o exemplo completo.
-
Back-offices SaaS. HubSpot, Salesforce, Notion, Airtable, Linear, Stripe dashboard, GA4, Search Console, Mixpanel. Puxar relatórios, atualizar dashboards, edição em massa de campos, agendar envios. Sempre que a API pública é limitada, incompleta ou paga, o ego lite preenche.
-
Ferramentas internas. O seu back-office de admin, staging, fluxos de QA. Tudo o que está atrás de SSO e fora do alcance de frameworks de automatização — o ego lite herda as sessões reais do seu browser do dia a dia, por isso simplesmente passa.
O walkthrough abaixo leva uma tarefa do prompt ao resultado para que veja o que a máquina faz por baixo.
Reserva Expedia só ida: walkthrough completo
Uma tarefa real no Expedia US: procurar voos só ida JFK→MIA na próxima sexta-feira, filtrar diretos, ordenar por preço crescente, escolher o mais barato operado pela Delta ou pela American Airlines, preencher o formulário de passageiro com dados fictícios, parar antes da página de pagamento, e devolver número de voo, hora de partida e total com impostos. Do prompt ao resultado: 14 ações no browser.
Veja o vídeo e depois leia as duas secções seguintes — por que é que esta tarefa é difícil e como é que o ego lite aguenta.
Prompt:
Search Expedia for a one-way flight next Friday from New York (JFK) to Miami (MIA). Apply the "Nonstop" filter and sort results by "Price (Lowest to Highest)." Choose the cheapest flight operated by either Delta Air Lines or American Airlines, then proceed to the passenger information page. Use the following mock data to fill out the passenger form:
- Name: Alex Morgan
- Date of Birth: 1992-10-12
- Gender: Male
- Email: alex.m@example.com
Stop before the payment page. Then provide:
- Flight number
- Departure time
- Total price including taxes and fees.
Vídeo:
O agente traduz o prompt num único heredoc ego-browser nodejs, corre-o num Space que não toca nos seus separadores em primeiro plano e devolve um cliLog estruturado: American Airlines AA 655, 5:35am, $188.40 — a um passo do pagamento.
O que torna esta tarefa difícil
Escolhemos o Expedia porque junta as dores típicas de uma página web moderna num único fluxo de 14 passos. As mesmas armadilhas aparecem em CRM, ATS, back-office interno ou qualquer SaaS que tenha aberto no dia a dia. Aqui empilham-se cinco coisas:
- Um date picker em que cada célula de data não tem
aria-labelnem atributosdata— apenas o número visível. - Um filtro "Nonstop" cujo
aria-labeltraz a contagem de voos em tempo real e o preço mais baixo atual ("12 Nonstop flights from $189"). Qualquer seletor com string fixa morre na próxima alteração de preços do Expedia. - Uma dropdown de ordenação que se fecha se acontecer qualquer click JS ao nível do DOM entre a abertura e o clique na opção.
- Uma modal de upsell "Bundle & Save" cuja link "No thanks" não tem ref de acessibilidade estável e só aparece em certos tipos de tarifa.
- Entre o Trip Summary e o Checkout, uma modal de escolha forçada "Continue without choosing seats?" que bloqueia em silêncio o fluxo todo se não for tratada.
Nada disto é raro. Notion, Linear, Airbnb, Salesforce, LinkedIn, Stripe dashboard — quase todas as ferramentas que abre numa terça de manhã têm a mesma sopa por baixo: React, controlled inputs, fluxos guiados por modais, layouts em A/B test contínuo. Pegue numa tarefa um bocadinho mais complexa em qualquer uma delas e o agente vai bater em pelo menos uns quantos destes obstáculos.
O Expedia é especial só porque empacota os cinco num único fluxo gravável de 14 passos. Por isso foi escolhido. Se o ego lite aguenta no Expedia, aguenta na maior parte do que tem na lista.
Como o ego lite lida com cada um
Cinco dores, cinco escolhas concretas de arquitetura:
- Células de data sem semântica. O snapshot do
ego-browseré produzido na camada de kernel do motor Chromium personalizado, por isso até elementos semanticamente pobres trazem umloc=estável e a estrutura pai-filho correta. Quando o snapshot não basta, o agente entra emjs(String.raw\...`)dentro do mesmo heredoc e interroga o DOM diretamente (.uitk-month-double-left+td.innerText === '5'`) para encontrar a célula certa. Duas camadas num único script, sem idas e voltas. - Aria-labels que mudam de valor. Os seletores suportam correspondência parcial (
input[aria-label*="Nonstop flights"]), por isso o script não depende de uma string exata que só funciona até à próxima atualização de preços. - Uma dropdown que se fecha com click JS.
click('@N')envia coordenadas reais de rato via CDP, e não um click event do DOM, por isso o estado aberto da dropdown não é interrompido entre dois cliques. Um heredoc, dois cliques@N: abrir, escolher. - Uma modal sem ref estável. Quando as refs não chegam, o agente calcula o
getBoundingClientRect()da link dentro dejs()e chamaclick([x, y])por coordenadas. O mesmo helperclick()aceita seletores CSS, refs, coordenadas do viewport e offsets relativos a um elemento. - Uma modal de escolha forçada. O snapshot ao nível do kernel vê de forma estável overlays
[role="dialog"][aria-modal="true"], incluindo modais montados por React portals fora da árvore principal. O script percebe que a modal está aberta, encontra o botão "Continue to Checkout" lá dentro, e carrega.
Por baixo destas cinco respostas vive a mesma escolha de fundo: code base, e não CLI base. O agente escreve um script completo, executa-o de uma vez, e dentro do mesmo heredoc troca livremente entre refs semânticas, JavaScript da página e CDP em bruto. Não cai no ciclo "lanço um comando, vejo o output, lanço outro", que transformaria uma tarefa de 14 passos numa luta de 14 rondas com o modelo.
A esta escolha juntam-se mais umas coisas:
- Sessão real do Chrome. Bookmarks, cookies, extensões, sessões iniciadas e Profile do seu Chrome do dia a dia entram com um clique no primeiro arranque. Não começa de um Chromium headless em branco, não tem de "fechar o Chrome primeiro" e não cai no controlo anti-bot mais agressivo que o headless costuma despertar.
- Um Space isolado. Nos 14 passos no Expedia, os seus separadores em primeiro plano não se mexem. Sem pop-ups a roubar foco, sem separadores a saltar para uma janela nova, sem cliques a aterrar no texto que estava a selecionar.
- O seu próprio agente. Claude Code, OpenAI Codex, Cursor, Gemini CLI, Opencode — todos guiam o ego lite pela mesma skill
ego-browser. Não fica preso a um modelo nem a uma UX de assistente.
O walkthrough do Expedia é só uma tarefa. A mesma arquitetura, da mesma forma, cobre todas as categorias do topo da página.
Experimente com algo que tem mesmo de fazer hoje
A maneira mais rápida de saber se o ego lite serve para si é pegar numa coisa da lista de hoje e tentar.
Se ainda não instalou
Escolha o que lhe der mais jeito.
Ou, no terminal de qualquer Agent CLI:
curl -fsSL https://lite.ego.app/install.sh | sh
Qualquer das opções instala o browser ego lite, o helper ego-browser e regista a skill em todas as Agent CLI da sua máquina. No primeiro arranque vai aparecer uma pergunta: importar dados do navegador? Depois selecione o navegador correspondente para confirmar, e sessões, cookies, extensões e Profile vêm consigo num clique.
Se já instalou
Abra a sua Agent CLI, escreva /ego-browser, e a seguir o que quer pedir.
Sem ideias para começar? Escolha um destes cinco e cole:
Redes sociais
/ego-browser Pull every mention of my X account from the last 24 hours, sort by engagement, and draft a reply to each. Queue the drafts, don't post anything.
Procura de emprego
/ego-browser Search LinkedIn for remote "product manager" jobs posted in the last week. For the top 10, pull company, title, and salary range into a markdown table.
Imobiliário e compras
/ego-browser Search Zillow for 2-bedroom rentals in Seattle under $3000/month that allow pets. List address, rent, square footage, and link as a table.
Reservas
/ego-browser Search Expedia for hotels near Miami Beach next Saturday night, 4 stars and up, under $200. Sort by rating, list the top 5, and stop before booking.
Back-office SaaS
/ego-browser Log into my Salesforce, group this quarter's pipeline by stage, and export the total amount and deal count per stage to markdown.
Cole, enter, abra o painel Space no ego lite e veja o agente a trabalhar.