ego (lite) is just a browser, ego is your personal agent across devices.
Join waitlist
हिन्दी

Agent web tasks का अभ्यास

Agent को web task कैसे बताएँ, उसे कब रोकें, और task पूरा होने पर कैसे जाँचें।

llms.txt

यह पृष्ठ पहले स्पष्ट करता है कि ego lite असल में किस काम का है, फिर एक task को आद्यंत चलाकर दिखाता है—कि natural language prompt से structured result तक के बीच क्या होता है।

ego lite वह जगह है जहाँ agent web पर आपके बजाय काम करता है। ऐसी कोई भी जगह जिसमें login चाहिए—CRM, inbox, ATS, accounting tool, सामाजिक accounts, booking, internal admin panel—agent शुरू से अंत तक चला सकता है। वह आपका natural language prompt पढ़ता है, एक ego-browser nodejs heredoc लिखता है, Space में चलाता है, और आपकी मौजूदा tabs को नहीं छेड़ता।

Recorded demo videos lite.ego.app/use-cases पर हैं। इस पृष्ठ के नीचे Expedia booking task को हम चरण-दर-चरण देखेंगे।

शुरू करने से पहले

  1. ध्यान दें कि ego lite install है—देखें त्वरित आरंभ

  2. कम से कम एक Agent CLI जिसमें ego-browser skill registered हो: Claude Code, OpenAI Codex, Cursor, Gemini CLI, Opencode।

  3. Agent CLI में type करें:

    /ego-browser <task को सामान्य भाषा में बताएँ>
    

    Agent ego-browser skill का context load करता है और अपने आप संबंधित heredoc लिख देता है। आपका काम केवल यह बताना है कि आप क्या चाहते हैं।

ego lite से क्या-क्या कर सकते हैं

जो काम आप पहले से logged-in browser में करते हैं, agent वही काम एक या कई Spaces में आपके बजाय कर सकता है।

  • Social media। Tweets के जवाब देना, अपनी notes से quote-tweet तैयार करना, posts ड्राफ्ट और शेड्यूल करना, engagement data खींचना, mentions पर नज़र रखना, account activity scrape करना। X, LinkedIn, Threads, Reddit, Instagram, Facebook—सब काम करते हैं। जहाँ login ज़रूरी है और public API नहीं देता, वहाँ ego lite भर देता है।

  • Job search और recruiting। LinkedIn, Wellfound, YC startup jobs पर खोज। Results फ़िल्टर करना, Apply से ATS (AshbyHQ, Greenhouse, Lever, Workday) में जाना, resume upload करना, mock जवाब भरना, Submit से पहले रुककर आपकी मंज़ूरी का इंतज़ार करना।

  • रियल एस्टेट, फ़ाइनेंस, ख़रीदारी। Redfin, Zillow, Apartments.com पर अपने criteria से filter, उनके mortgage और affordability calculators चलाना, संरचित data local markdown में डालना। Amazon पर तुलना, Costco पर bulk order, API बंद कर चुके brokerage back-offices—यही तरीक़ा।

  • Booking। Flight, hotel, restaurant—पूरा flow, मक नल मेहमान / यात्री data के साथ, payment से ठीक पहले रोकना। नीचे का Expedia walkthrough इसी तरह की पूरी मिसाल है।

  • SaaS back-office। HubSpot, Salesforce, Notion, Airtable, Linear, Stripe dashboard, GA4, Search Console, Mixpanel। Report निकालना, dashboards refresh करना, fields का bulk update, schedule send। जहाँ public API सीमित, अधूरा या paid है, ego lite भर देता है।

  • Internal tools। आपका internal admin, staging environment, QA flows। जो SSO के पीछे है और automation frameworks नहीं पहुँच पाते—वहाँ ego lite आपके रोज़मर्रा के browser की असली login स्थिति विरासत में लेता है, इसलिए सीधे चल जाता है।

नीचे का walkthrough एक task को prompt से result तक लेकर जाएगा, ताकि आप अंदर का तंत्र देख सकें।


Expedia one-way booking: पूरा walkthrough

Expedia US पर एक असली task: अगले शुक्रवार के JFK→MIA one-way flights खोजना, nonstop filter लगाना, क़ीमत के बढ़ते क्रम में sort करना, Delta या American Airlines द्वारा संचालित सबसे सस्ती उड़ान चुनना, mock passenger data से form भरना, payment page से ठीक पहले रुकना, और flight number, departure time, taxes सहित total return करना। Prompt से result तक 14 browser actions।

पहले video देखें, फिर अगले दो अनुभाग पढ़ें—यह task कठिन क्यों है और ego lite कैसे संभालता है।

Prompt:

Search Expedia for a one-way flight next Friday from New York (JFK) to Miami (MIA). Apply the "Nonstop" filter and sort results by "Price (Lowest to Highest)." Choose the cheapest flight operated by either Delta Air Lines or American Airlines, then proceed to the passenger information page. Use the following mock data to fill out the passenger form:

Stop before the payment page. Then provide:

  • Flight number
  • Departure time
  • Total price including taxes and fees.

Recorded video:

Agent इस prompt को एक ही ego-browser nodejs heredoc में अनुवाद करता है, ऐसे Space में चलाता है जो आपकी foreground tabs को नहीं छूता, और अंत में एक structured cliLog लौटाता है: American Airlines AA 655, 5:35am, $188.40—payment से एक क़दम पहले।

यह task आख़िर कठिन क्यों है

हमने Expedia इसलिए चुना क्योंकि वह आधुनिक web की आम कठिनाइयों को एक ही 14-step flow में पैक कर देता है। यही फंदे CRM, ATS, internal admin panel, या आपके दैनिक SaaS में मिलेंगे। यहाँ 5 बातें एक साथ आती हैं:

  1. एक date picker, जहाँ हर date cell में न aria-label है, न data attributes—केवल दिख रहा संख्या।
  2. एक "Nonstop" filter जिसके aria-label में real-time flight count और मौजूदा सबसे सस्ती क़ीमत है ("12 Nonstop flights from $189")। कोई भी हार्डकोडेड string selector Expedia के अगले price change पर मर जाता है।
  3. एक sort dropdown जो खुलने और option click के बीच DOM-स्तर का JS click होते ही बंद हो जाता है।
  4. "Bundle & Save" upsell modal। उसके अंदर "No thanks" link की कोई stable accessibility ref नहीं है, और कुछ fare types पर ही दिखती है।
  5. Trip Summary और Checkout के बीच एक "Continue without choosing seats?" मजबूरन चुनाव वाला modal। न संभालो तो पूरा flow चुपचाप अटक जाता है।

ये अनूठे झंझट नहीं हैं। Notion, Linear, Airbnb, Salesforce, LinkedIn, Stripe dashboard—जिन उपकरणों को आप मंगलवार सुबह खोलते हैं उनमें अंदर एक ही गिराई है: React, controlled inputs, modal-driven flows, हर हफ़्ते A/B टेस्ट होने वाले layouts। उनमें से किसी पर थोड़ा भी जटिल task लें, agent इन 5 में से कुछ से ज़रूर टकराएगा।

Expedia ख़ास इसलिए है कि वह सभी पाँच को एक 14-step recordable flow में डाल देता है। इसलिए चुना। अगर ego lite Expedia पर टिक जाता है, तो आपकी रोज़ की सूची की अधिकांश चीज़ें भी संभाल लेगा।

ego lite किस तरह से प्रत्येक से निपटता है

पाँच दर्द, पाँच ठोस आर्किटेक्चरल चुनाव:

  1. Semantic markers के बिना date cells। ego-browser का snapshot custom Chromium engine के kernel layer पर बनता है, इसलिए semantically कमज़ोर elements के लिए भी stable loc= paths और सही parent-child structure मिलती है। जब snapshot काफ़ी न हो, agent उसी heredoc में js(String.raw\...`) में जाकर सीधे DOM से query करता है (.uitk-month-double-left+td.innerText === '5'`) और सही cell ढूँढता है। एक script में दो layers, बिना किसी round trip के।
  2. बदलने वाले aria-label। Selectors partial match (input[aria-label*="Nonstop flights"]) support करते हैं, इसलिए script को Expedia के सही दाम पर निर्भर सटीक string की ज़रूरत नहीं।
  3. JS click से बंद होने वाला dropdown। click('@N') CDP के ज़रिए असली mouse coordinates भेजता है, DOM-स्तरीय click event नहीं, इसलिए dropdown की खुली स्थिति दो clicks के बीच टूटती नहीं। एक heredoc, दो @N clicks: पहले खोलो, फिर चुनो।
  4. बिना stable ref के modal। Ref से काम न चले तो agent js() में link का getBoundingClientRect() निकालता है और click([x, y]) से coordinates पर click करता है। यही click() helper CSS selector, ref, viewport coordinates, और element-relative offset—सब लेता है।
  5. मजबूरन चुनाव वाला modal। Kernel-स्तरीय snapshot [role="dialog"][aria-modal="true"] जैसे overlays को स्थिरता से देख पाता है, चाहे वे React portal से main tree के बाहर माउंट हों। Script देखता है कि modal खुला है, अंदर "Continue to Checkout" बटन ढूँढता है, और click कर देता है।

इन पाँच उत्तरों के पीछे एक ही मूल चुनाव है: Code base, CLI base नहीं। Agent एक ही बार में पूरा script लिखता है, एक ही बार में चलाता है, और उसी heredoc में semantic ref, page-side JavaScript और raw CDP—तीनों परतों के बीच आज़ादी से स्विच करता है। "एक command चलाओ, output देखो, अगला चलाओ" वाले चक्र में नहीं फँसता, जो 14-step task को 14-round model-दौड़ में बदल देता।

इस चुनाव को कई और बातें मज़बूती देती हैं:

  • असली Chrome login state। आपके दैनिक Chrome के bookmarks, cookies, extensions, login और Profile पहली बार खुलने पर एक click में आ जाते हैं। ख़ाली headless Chromium से शुरू नहीं करना, "पहले Chrome बंद करो" वाली बात नहीं, और न उस ज़्यादा सख़्त anti-bot path में पड़ना जो headless होने मात्र से तेज़ हो जाता है।
  • अलग Space। Expedia पर 14 steps के दौरान आपकी foreground tabs एक बार भी नहीं हिलतीं। न focus छीनने वाला popup, न नई window में जाने वाली tab, न ही उस text पर click जो आपने अभी highlight किया है।
  • अपना agent। Claude Code, OpenAI Codex, Cursor, Gemini CLI, Opencode—सब एक ही ego-browser skill से ego lite चलाते हैं। आप किसी एक model या किसी एक assistant UX में बंधे नहीं रह जाते।

Expedia walkthrough बस एक task है। वही architecture उसी तरह से इस पृष्ठ के ऊपर लिखी सभी श्रेणियों को कवर कर सकता है।


आज की list में से एक काम लेकर आज़माएँ

यह तय करने का सबसे तेज़ तरीक़ा कि ego lite आपके लिए उपयुक्त है या नहीं—आज की list में से कोई एक काम लीजिए और चलाकर देखिए।

अगर अभी install नहीं किया

जो तरीक़ा सुविधाजनक लगे, वही चुनें।

या किसी भी Agent CLI के terminal में:

curl -fsSL https://lite.ego.app/install.sh | sh

दोनों ही तरीक़े ego lite browser, ego-browser helper install करेंगे और machine के सभी Agent CLI में skill register कर देंगे। पहले launch पर एक ही सवाल पूछा जाएगा: browser data import करें? फिर संबंधित browser चुनकर पुष्टि करें, और logins, cookies, extensions, Profile एक click में आ जाएँगे।

अगर पहले से install है

अपनी Agent CLI खोलिए, /ego-browser टाइप कीजिए, और उसके बाद जो काम कराना है वह लिखिए।

पहले क्या आज़माएँ नहीं जानते? नीचे के पाँच में से कोई एक चुनिए और सीधे paste कीजिए:

Social media

/ego-browser Pull every mention of my X account from the last 24 hours, sort by engagement, and draft a reply to each. Queue the drafts, don't post anything.

Job search और recruiting

/ego-browser Search LinkedIn for remote "product manager" jobs posted in the last week. For the top 10, pull company, title, and salary range into a markdown table.

रियल एस्टेट और ख़रीदारी

/ego-browser Search Zillow for 2-bedroom rentals in Seattle under $3000/month that allow pets. List address, rent, square footage, and link as a table.

Booking

/ego-browser Search Expedia for hotels near Miami Beach next Saturday night, 4 stars and up, under $200. Sort by rating, list the top 5, and stop before booking.

SaaS back-office

/ego-browser Log into my Salesforce, group this quarter's pipeline by stage, and export the total amount and deal count per stage to markdown.

Paste करके Enter दबाइए, फिर ego lite का Space panel खोलकर agent को काम करते देखिए।