agent-browser

von inferen-sh

agent-browser ermöglicht es KI-Agenten, einen Playwright-basierten Browser über inference.sh zu steuern. Öffne Seiten, nutze @e-Element-Refs zum Klicken, Tippen, Draggen, Hochladen von Dateien, Scrapen von Inhalten sowie zum Erstellen von Screenshots oder Videoaufnahmen. Ideal für Web-Automatisierung, Datenextraktion und agentengesteuerte Browsing-Workflows.

Stars0

Favoriten0

Kommentare0

KategorieBrowser Automation

Installationsbefehl

npx skills add https://github.com/inferen-sh/skills --skill agent-browser

Agent Browser Playwright Bash Automation JavaScript Developer Audience Cli

Überblick

Was ist agent-browser?

agent-browser ist ein Browser-Automatisierungs-Skill für KI-Agenten, die auf der inference.sh Plattform laufen. Unter der Haube verwendet er Playwright und stellt eine einfache, JSON-basierte Schnittstelle bereit, über die Agenten:

Webseiten in einem echten Browser öffnen und navigieren
Mit Elementen über stabile @e Referenzen interagieren
Klicken, tippen, drag-and-drop ausführen und Dateien hochladen
Strukturierte Daten für Scraping und Recherche extrahieren
Screenshots erstellen und Videoaufnahmen von Sessions aufzeichnen

Statt Playwright-Code per Hand zu schreiben, rufst du agent-browser über die infsh CLI auf (oder über einen Agenten, der Bash-Kommandos ausführen kann). Der Skill koordiniert die Browser-Session, liefert maschinenlesbare Beschreibungen der Seite zurück und ermöglicht deinem Agenten, die Interaktion Schritt für Schritt zu steuern.

Für wen ist agent-browser gedacht?

agent-browser richtet sich an:

Entwickler, die KI-Agenten mit realen Websites verbinden
Automatisierungsingenieure, die wiederholbare Browser-Workflows benötigen
Daten- und Research-Teams, die gezieltes Web-Scraping oder UI-basierte Recherche durchführen
Workflow-Builder, die inference.sh als Orchestrierungsschicht nutzen

Der Skill passt am besten, wenn du inference.sh bereits verwendest – oder verwenden möchtest – und der Browser als kontrollierbares, für Agenten zugängliches Werkzeug dienen soll.

Welche Probleme löst agent-browser?

agent-browser hilft dir bei typischen Aufgaben der Browser-Automatisierung:

Logins, Navigation und Formular-Workflows automatisieren
Strukturierte Inhalte scrapen, die Interaktion erfordern (Suchformulare, Filter, Pagination)
Agentengesteuerte, testähnliche Flows auf Live-Websites ausführen
Videoaufnahmen einer automatisierten Browsing-Session zu Review-Zwecken erstellen

Der Skill abstrahiert direktes Playwright-Scripting weg und stellt dem Agenten einen höherwertigen Satz an Aktionen über @e Element-Referenzen zur Verfügung, wodurch Interaktionen über mehrere Schritte hinweg stabiler bleiben.

Wann ist agent-browser die richtige Wahl?

Nutze agent-browser, wenn:

Du Agenten über inference.sh betreibst und diese im Web browsen lassen möchtest
Du Playwright-Zuverlässigkeit willst, ohne Playwright-Code zu schreiben
Deine Flows aus Seitenaufrufen, Element-Interaktionen und dem Auslesen von Ergebnissen bestehen

Er ist nicht ideal, wenn:

Du die infsh CLI oder Bash-ähnliche Tools nicht verwenden kannst
Du äußerst spezifische Playwright-Features brauchst, die der Skill nicht bereitstellt
Dein Use Case rein API-basiert ist und keinen echten Browser erfordert

Wenn du sehr feingranulare Kontrolle über Browser-Interna oder Frameworks brauchst, die über den Skill hinausgehen, sind direkte Playwright-Skripte möglicherweise geeigneter. Für typische agentengesteuerte Automatisierung bietet agent-browser jedoch eine einfachere, höher abstrahierte Schnittstelle.

Nutzung

Voraussetzungen

Bevor du agent-browser verwendest, stelle sicher, dass du Folgendes hast:

Eine Umgebung, in der du Bash-Kommandos ausführen kannst
Die inference.sh CLI (infsh) installiert
Ein inference.sh Konto, bei dem du dich über die CLI anmelden kannst

Der Quick Start des Skills erfordert explizit die infsh CLI. Du kannst die offiziellen Installationsanweisungen für die CLI aus dem Repository befolgen:

CLI-Installationsdokumentation: https://raw.githubusercontent.com/inference-sh/skills/refs/heads/main/cli-install.md

Sobald infsh installiert und konfiguriert ist, kannst du den agent-browser Skill aus deinem Terminal oder aus beliebigen Agent-Tools aufrufen, die infsh Kommandos ausführen können.

Installation und Aktivierung des Skills

agent-browser wird als Teil des inferen-sh/skills Repositorys ausgeliefert. In den meisten inference.sh-basierten Umgebungen musst du kein separates npm-Paket installieren; du stellst stattdessen sicher, dass der Skill verfügbar ist und rufst ihn dann über infsh auf.

Typische Setup-Schritte:

inference.sh CLI installieren
- Folge cli-install.md aus dem Repo.
Authentifizieren
- Führe aus:
```
infsh login
```
- Folge den Prompts, um dich bei inference.sh zu authentifizieren.
Verfügbarkeit des Skills prüfen
- Stelle sicher, dass deine inference.sh Umgebung Zugriff auf die agent-browser App/den Skill unter tools/utilities/agent-browser im inferen-sh/skills Repository hat.

Wenn du in ein breiteres „Skills“-Ökosystem integrierst, das npx skills add unterstützt, kannst du dieses Repository auch als Quelle einbinden. Der kanonische Weg zur Nutzung von agent-browser ist jedoch infsh app run.

Kern-Workflow der Browser-Automatisierung

Die Skill-Dokumentation beschreibt ein konsistentes 4-Schritte-Muster:

Open – Eine Browser-Session starten und zu einer URL navigieren.
Interact – Zurückgegebene @e Element-Referenzen nutzen, um zu klicken, zu tippen, zu draggen oder Dateien hochzuladen.
Re-snapshot – Ein aktualisiertes Snapshot anfordern, um nach Navigation oder DOM-Änderungen neue @e Refs zu erhalten.
Close – Die Session beenden; optional eine Videoaufzeichnung abrufen, falls aktiviert.

Dieses Muster ermöglicht es deinem Agenten, ein mentales Modell des Seitenzustands aufrechtzuerhalten. Jeder Aufruf erhält JSON als Input und liefert strukturiertes JSON als Output, das du in den Reasoning-Loop deines Agenten einspeist.

Quick-Start-Beispiel

Um agent-browser in einem einfachen Einseiten-Aufruf in Aktion zu sehen, folge dem Quick-Start-Muster aus dem Repo:

infsh login

# Seite öffnen und interaktive Elemente abrufen
infsh app run agent-browser --function open --input '{"url": "https://example.com"}' --session new

Was hier passiert:

--function open weist agent-browser an, eine neue Browser-Seite mit der angegebenen URL zu öffnen.
--session new erstellt eine neue Session, sodass spätere Aktionen denselben Browserzustand wiederverwenden können.
Der Skill gibt JSON zurück, das typischerweise Elementbeschreibungen und @e Referenzen enthält, die dein Agent in nachfolgenden interact Aufrufen verwenden kann.

Arbeiten mit @e Element-Referenzen

Ein zentrales Feature von agent-browser ist der Einsatz von @e Refs. Anstatt CSS-Selektoren oder XPath zu verlangen, liefert der Skill Handles wie @e:button-1 (das genaue Format hängt von der Implementierung ab) zusammen mit menschenlesbaren Beschreibungen.

Dein Agent:

Liest die Liste verfügbarer Elemente und ihrer Beschreibungen.
Wählt die passende @e Ref (z. B. den Button mit der Beschriftung „Search“).
Ruft eine Interaktionsfunktion (z. B. click oder fill) mit dieser @e Ref auf.

Dieses Design ist für KI-Agenten optimiert, da sie auf Basis von Beschreibungen statt auf Basis niedriger DOM-Details schließen können. Gleichzeitig bleiben Interaktionen robuster, selbst wenn sich zugrunde liegende Selektoren ändern, solange die Beschreibungen verständlich bleiben.

Beispiel: open, click und re-snapshot

Ein typischer Multi-Step-Flow kann so aussehen (nur Muster; passe es an deine konkreten Funktionen an):

# 1. Session starten und eine Seite öffnen
OPEN_RESULT=$(infsh app run agent-browser \
  --function open \
  --session new \
  --input '{"url": "https://example.com"}')

# 2. OPEN_RESULT in deiner Agent-Logik nutzen, um eine @e Ref auszuwählen (z. B. @e:search-button)
# 3. Mit diesem Element interagieren
INTERACT_RESULT=$(infsh app run agent-browser \
  --function interact \
  --session "$INF_SH_SESSION" \
  --input '{"action": "click", "element": "@e:search-button"}')

# 4. Nach dem Klick ein neues Snapshot abrufen, um aktualisierte Elemente zu erhalten
SNAPSHOT_RESULT=$(infsh app run agent-browser \
  --function snapshot \
  --session "$INF_SH_SESSION" \
  --input '{}')

Die Namen der Funktionen jenseits von open können variieren. Prüfe daher immer das aktuelle SKILL.md und die zugehörige Dokumentation unter tools/utilities/agent-browser, um die exakten Funktionssignaturen und Input-Schemata zu kennen.

Screenshots und Videoaufzeichnung

agent-browser kann visuelle Artefakte der Browsing-Session erfassen:

Screenshots – Nützlich zum Debuggen des Agentenverhaltens oder zur Ablage visueller Bestätigungen.
Video – Wenn du die Session mit aktivierter Aufzeichnung schließt, kann der Skill eine Videodatei des gesamten automatisierten Flows zurückgeben oder verlinken.

Diese Funktionen werden über die Input-Optionen des Skills konfiguriert. Details zum Aktivieren der Aufzeichnung und zum Zugriff auf die Outputs findest du in der SKILL.md Definition und in weiterer Dokumentation unter tools/utilities/agent-browser im Repo.

Integrationstipps für Agenten und Workflows

Damit du agent-browser optimal in Automatisierungs- oder Research-Workflows einsetzen kannst:

--session IDs persistent halten: Sorge dafür, dass dein Agent die Session-ID zwischen Aufrufen speichert, damit mehrere Aktionen im selben Browser stattfinden.
JSON-Output sorgfältig parsen: Verwende robustes JSON-Parsing in der Runtime deines Agenten; Listen von Elementen und Metadaten können umfangreich sein.
Interaktionen bei Bedarf drosseln: Wenn eine Seite langsam oder sehr dynamisch ist, sollte dein Agent entsprechende Wartezeiten einplanen und – sofern der Skill dies unterstützt – warten, bis Elemente zwischen den Schritten verfügbar sind.
Wichtige Aktionen loggen: Führe ein Log über open, interact und close Aufrufe, wenn du das Browsing-Verhalten deines Agenten auditieren oder debuggen musst.

FAQ

Wie hängen agent-browser, inference.sh und Playwright zusammen?

agent-browser ist ein Skill, der im inference.sh Ökosystem läuft. Wenn du ihn über infsh app run aufrufst, verwendet er Playwright als zugrunde liegende Browser-Automatisierungs-Engine. Du sprichst Playwright nicht direkt an, sondern arbeitest mit den höherwertigen Skill-Funktionen und @e Element-Referenzen.

Wie installiere ich agent-browser?

Du installierst agent-browser nicht als eigenständiges Binary oder npm-Paket. Stattdessen:

Installiere die inference.sh CLI (infsh) anhand der offiziellen Anleitung in cli-install.md.
Melde dich mit infsh login an.
Stelle sicher, dass deine Umgebung Zugriff auf den agent-browser Skill aus dem inferen-sh/skills Repository hat (unter tools/utilities/agent-browser).

Danach kannst du den Skill direkt über infsh app run agent-browser aufrufen.

Brauche ich Programmierkenntnisse, um agent-browser zu nutzen?

Grundlegende Erfahrung mit der Kommandozeile und JSON wird dringend empfohlen. Du musst keine Playwright-Skripte schreiben, solltest dich aber wohlfühlen mit:

Dem Ausführen von infsh Kommandos
Dem Übergeben von JSON als --input
Dem Parsen von JSON-Output in deinem Agenten oder deinen Skripten

Für fortgeschrittenere Workflows (Bedingungen, Schleifen, Fehlerbehandlung) sind allgemeine Scripting- oder Programmierkenntnisse hilfreich.

Kann ich agent-browser außerhalb von inference.sh einsetzen?

Der Skill ist speziell für die Nutzung mit inference.sh gebaut und wird als „Browser automation for AI agents via inference.sh“ beschrieben. Die unterstützte und dokumentierte Art der Nutzung erfolgt über die infsh CLI. Wenn du eine eigenständige Bibliothek benötigst, ist es meist sinnvoller, Playwright direkt in der Sprache deiner Wahl zu verwenden.

Eignet sich agent-browser für groß angelegtes Web-Scraping?

agent-browser kann für gezieltes Scraping genutzt werden, insbesondere wenn Seiten Interaktion oder JavaScript-Rendering erfordern. Für sehr großvolumiges Scraping im großen Stil solltest du jedoch Folgendes berücksichtigen:

Limits und Pricing deines inference.sh Kontos
Einhaltung der Nutzungsbedingungen und robots.txt der Zielseiten
Performance, Parallelität und Rate Limiting

Für kleinere, workflow-spezifische Scraping-Aufgaben, die in einen Agenten eingebettet sind, ist agent-browser sehr gut geeignet. Für massives Crawling über viele Sites ist ein dedizierter Scraping-Stack möglicherweise die bessere Wahl.

Wie funktioniert das Session-Management?

Das Session-Management wird über den --session Flag beim Aufruf von infsh app run gesteuert. Ein typisches Muster ist:

--session new, wenn du open zum ersten Mal aufrufst
Wiederverwendung dieser Session-ID für nachfolgende interact und snapshot Aufrufe
Aufruf der passenden close-Funktion, um die Session zu beenden und optional ein Video abzurufen

Prüfe stets das aktuelle SKILL.md, um die exakten Optionen und Outputs rund um das Session-Management zu kennen.

Wo finde ich die vollständige Spezifikation von Funktionen und Inputs?

Die maßgebliche Referenz für agent-browser befindet sich im Repository:

SKILL.md im Root des inferen-sh/skills Repos
Das Verzeichnis tools/utilities/agent-browser für Implementierungsdetails, Beispiele und weitere Dokumentation

Öffne diese Dateien, um die aktuelle Funktionsliste, die erwarteten JSON-Inputs und Output-Formate zu sehen und richte deinen Agenten oder deine Skripte an diesen Definitionen aus.

Bewertungen & Rezensionen

Noch keine Bewertungen

Teile deine Rezension

Melde dich an, um für diesen Skill eine Bewertung und einen Kommentar zu hinterlassen.

0/10000

Neueste Rezensionen

Wird gespeichert...

Mehr Skills in dieser Kategorie

agent-tools

by inferen-sh

agent-tools bindet die inference.sh CLI direkt in deinen Agenten ein, sodass du über eine zentrale Schnittstelle mehr als 150 KI-Apps ausführen kannst: Bildgenerierung, Videoproduktion, LLMs, Suche, 3D und Twitter-Automatisierung. Ideal, wenn du einen einheitlichen Workflow-Runner für FLUX, Veo, Gemini, Grok, Claude, Seedance, OmniHuman, Tavily, Exa, OpenRouter und viele weitere brauchst, ohne selbst GPUs oder komplexe Integrationen zu managen.

Workflow Automation

Favorites 0GitHub 0

slack

by vercel-labs

Automatisiere Slack über die Kommandozeile mit Browser-Automatisierung. Der slack Skill verbindet sich über agent-browser mit einer bestehenden Slack Web-Session, sodass du ungelesene Channels prüfen, DMs scannen, Konversationen durchsuchen, Daten extrahieren und strukturierte Reports als Teil größerer Workflows erzeugen kannst.

Workflow Automation

Favorites 0GitHub 25.189

dogfood

by vercel-labs

Automatisiere exploratives QA‑Testing beliebiger Webanwendungen mit strukturierten Bug-Reports, Screenshots und Videos. dogfood steuert den agent-browser Client, um eine Zielseite zu erkunden, visuelle, funktionale, UX-, Performance-, Console- und Accessibility-Probleme zu finden und einen sofort teilbaren QA‑Report mit klaren Repro-Schritten zu erzeugen.

Test Automation

Favorites 0GitHub 25.189

agent-browser

by vercel-labs

agent-browser ist ein Chrome/Chromium-Automatisierungs-CLI für KI-Agenten und Shell-Skripte. Damit kannst du Seiten öffnen, navigieren, klicken, Formulare ausfüllen, Snapshots erstellen, Screenshots machen, Videos aufzeichnen, Performance profilieren, Sessions verwalten, Authentifizierung handhaben und komplette End-to-End-Browser-Workflows automatisieren.

Browser Automation

Favorites 0GitHub 0

vercel-sandbox

by vercel-labs

Führen Sie agent-browser mit headless Chrome in Vercel Sandbox microVMs aus, damit auf Vercel deployte Apps sichere, skalierbare Browser-Automatisierung, Screenshots und Seiteninteraktionen ausführen können.

Browser Automation

Favorites 0GitHub 25.189

electron

by vercel-labs

Automatisiere bestehende Electron-Desktop-Apps wie VS Code, Slack, Discord, Figma, Notion und Spotify über agent-browser und das Chrome DevTools Protocol (CDP). Dieses Skill hilft dir, dich mit einer laufenden Electron-App zu verbinden, Snapshots zu erstellen und mit der UI zu interagieren – als Teil einer End-to-End-Automatisierung für Desktop und Workflows.

Desktop Automation

Favorites 0GitHub 25.189

writing-skills

by obra

Verwenden Sie diese Skill beim Erstellen, Schärfen und Härtetest von Agent-Skills, damit sie vor dem Rollout präzise, regelkonform und testgetrieben sind.

Skill Authoring

Favorites 0GitHub 0

vercel-composition-patterns

by vercel-labs

Installiere und nutze `vercel-composition-patterns`, um skalierbare React-Kompositionsmuster einzusetzen – darunter Compound Components, ausgelagerten State, explizite Varianten und React-19-freundliche APIs.

Frontend Development

Favorites 0GitHub 0