browser-use

von browser-use

browser-use ist ein Skill für Browser-Automatisierung: Seiten öffnen, Status prüfen, indizierte Elemente anklicken, in Felder tippen, Screenshots erstellen und eine persistente Browser-Sitzung weiterverwenden. Geeignet für zuverlässiges Ausfüllen von Formularen, Navigation und eingeloggte Workflows mit der browser-use CLI.

Stars84.9k

Favoriten0

Kommentare0

Hinzugefügt29. März 2026

KategorieBrowser Automation

Installationsbefehl

npx skills add browser-use/browser-use --skill browser-use

Kurationswert

Dieser Skill erreicht 82/100 und ist damit ein überzeugender Kandidat für das Verzeichnis: Er lässt sich leicht für Aufgaben der Browser-Automatisierung auslösen, bietet einen konkreten CLI-zentrierten Workflow und verschafft Agents mehr operative Hebel als ein allgemeiner Prompt allein. Nutzer des Verzeichnisses können die Eignung für Web-Navigation, Formularausfüllung, Screenshots und Extraktion gut einschätzen, sollten aber damit rechnen, für Teile des Setups außerhalb des Skills nachzusehen.

82/100

Stärken

Hohe Auslösbarkeit: Die Beschreibung zielt klar auf Anwendungsfälle wie Web-Navigation, Formularausfüllung, Screenshots und Datenextraktion.
Operativ konkret: Der Skill definiert einen wiederholbaren Workflow aus open → state → click/input → verify → close inklusive Befehlsbeispielen.
Nützlicher Hebel für Agents: Persistente Browser-Sitzungen und die Interaktion mit indizierten Elementen verringern das Rätselraten im Vergleich zu ad hoc formulierten Browser-Prompts.

Hinweise

Die Installation ist nicht in sich abgeschlossen: Der Skill fordert Nutzer auf, `browser-use doctor` auszuführen, und verweist für Setup-Details an andere Stellen, enthält in SKILL.md aber keinen Installationsbefehl.
Das Begleitmaterial ist knapp: Es gibt keine mitgelieferten Skripte, Referenzen, Regeln oder Ressourcendateien für Sonderfälle oder komplexere Automatisierungsmuster.

Automation Cli Chrome Agent Browser Chrome Devtools Protocol Scraping Python

Überblick

Überblick über die browser-use-Skill

Was browser-use macht

browser-use ist eine Browser-Automatisierungs-Skill rund um die browser-use-CLI. Sie ermöglicht es einem Agenten, eine Seite zu öffnen, den aktuellen Browserzustand zu prüfen, auf indexierte Elemente zu klicken, Text in Felder einzugeben, Screenshots aufzunehmen und dieselbe Browser-Sitzung über mehrere Befehle hinweg aktiv zu halten. Der praktische Vorteil ist die Geschwindigkeit: Statt den Browser für jeden Schritt neu zu starten, nutzt browser-use einen persistenten Daemon, sodass mehrstufige Abläufe deutlich schneller wirken.

Für wen sich die browser-use-Skill lohnt

Diese browser-use-Skill passt am besten zu Nutzern, die wiederholbare Web-Aktionen über einen KI-Assistenten ausführen wollen, insbesondere:

Formularausfüllung
Website-Navigation
Screenshot-Erstellung
leichtgewichtige Datenextraktion
eingeloggte Browser-Workflows mit einem bestehenden Chrome-Profil

Wenn Ihre Aufgaben davon abhängen, den aktuellen Seitenzustand zu sehen und Schritt für Schritt zu handeln, ist browser-use die bessere Wahl als ein allgemeiner Prompt wie „im Web browsen“.

Welches Problem browser-use in der Praxis löst

Die meisten Nutzer wollen nicht einfach nur „Browser-Automatisierung“. Sie wollen einen Agenten, der zuverlässig:

die richtige Website öffnet
prüft, was aktuell tatsächlich auf der Seite zu sehen ist
gezielt mit bestimmten Elementen interagiert
das Ergebnis verifiziert, bevor es weitergeht

Genau diese Schleife aus Prüfen, Handeln und Verifizieren ist der Kern, warum man browser-use für Browser Automation einsetzt.

Was browser-use von anderen Lösungen unterscheidet

Die wichtigsten Unterschiede sind sehr praxisnah:

persistente Browser-Sitzung über mehrere Befehle hinweg
explizite Zustandsprüfung vor Klicks oder Eingaben
Element-Indizes für gezielte Interaktionen
Unterstützung für Headless-, Headed-, Chrome-Profil- und CDP-Verbindungsmodi

Dadurch ist browser-use kontrollierbarer als vages Browsing in natürlicher Sprache, besonders auf dynamischen Seiten.

Gute und schlechte Einsatzfälle

Gut geeignet für:

mehrstufige interne Tools
login-pflichtige Websites bei Nutzung eines echten Chrome-Profils
deterministische UI-Workflows
agentengestützte Screenshot- und Extraktionsaufgaben

Weniger geeignet für:

Aufgaben, die vollständige Test-Suite-Abstraktionen brauchen
groß angelegte Scraping-Pipelines als alleinige Lösung
Websites mit starker Anti-Bot-Abwehr
Workflows, bei denen der Nutzer weder Ziel-URL noch gewünschte Aktion oder Erfolgskriterien angeben kann

So verwenden Sie die browser-use-Skill

browser-use-Skill in Ihren Agent-Workflow installieren

Fügen Sie die Skill Ihrer skills-fähigen Umgebung hinzu mit:

npx skills add https://github.com/browser-use/browser-use --skill browser-use

Prüfen Sie danach, ob die zugrunde liegende CLI verfügbar ist:

browser-use doctor

Die Skill setzt voraus, dass der Befehl browser-use installiert ist und funktioniert. Wenn doctor fehlschlägt, beheben Sie zuerst das lokale CLI-Setup, bevor Sie Prompts debuggen.

Diese Datei sollten Sie im Repository zuerst lesen

Starten Sie mit:

skills/browser-use/SKILL.md

Da dieser Repository-Pfad klein und klar fokussiert ist, ist SKILL.md die maßgebliche Quelle. Für Details zur Umgebungseinrichtung folgen Sie der verlinkten CLI-Setup-Dokumentation, auf die diese Datei verweist.

Das grundlegende browser-use-Befehlsmuster verstehen

Das Nutzungsmodell von browser-use ist einfach und sollte möglichst genau eingehalten werden:

browser-use open <url>
browser-use state
mithilfe der zurückgegebenen Indizes interagieren
mit browser-use state oder browser-use screenshot verifizieren
browser-use close, wenn Sie fertig sind

Diese Reihenfolge ist wichtig. Viele Fehler entstehen, weil Nutzer klicken oder Eingaben machen, bevor sie den aktuellen Seitenzustand geprüft haben.

Den richtigen Browser-Modus für browser-use wählen

Nutzen Sie den Modus, der zu Ihrer Aufgabe passt:

browser-use open https://example.com
browser-use --headed open https://example.com
browser-use --profile "Default" open https://example.com
browser-use --connect open https://example.com

Praktische Orientierung:

Standard-Headless-Modus: am schnellsten für Routine-Automatisierung
--headed: am besten, wenn Sie sehen möchten, was passiert
--profile: ideal für Websites, die bestehende Cookies oder ein vorhandenes Login benötigen
--connect oder eine CDP-URL: sinnvoll, wenn Chrome bereits läuft und der Agent sich daran anhängen soll

Für viele reale browser-use-Installationsentscheidungen ist die Profil-Unterstützung das entscheidende Feature.

Welche Eingaben die Skill von Ihnen braucht

Die browser-use-Skill arbeitet deutlich besser, wenn Ihre Anfrage Folgendes enthält:

exakte URL oder Startseite
Ziel in einem Satz
ob ein Login bereits verfügbar ist
ob Headless oder sichtbar ausgeführt werden soll
woran Erfolg gemessen wird
welche Felder oder Labels gesucht werden sollen

Schwache Eingabe:

„Geh auf die Website und hol die Daten.“

Starke Eingabe:

„Verwende browser-use, um https://app.example.com/reports zu öffnen, nutze mein Chrome-Profil Default, klicke auf den Bericht ‚Monthly Summary‘, exportiere ihn, falls möglich, und speichere einen Screenshot der finalen Seite mit dem ausgewählten Datumsbereich.“

Aus einer vagen Anfrage einen starken browser-use-Prompt machen

Eine gute browser-use-Anweisung für Prompts enthält Seitenabsicht, Interaktionshinweise und Verifikation.

Beispiel:

Use browser-use for Browser Automation.
Open https://example.com/contact in headed mode.
Inspect state before every interaction.
Find the name, email, and message fields, enter the provided values, but do not submit until you confirm the submit button text and page state.
Take a screenshot before submission.

Warum das funktioniert:

das Tool wird klar benannt
die Zustandsprüfung wird erzwungen
blinde Klicks werden vermieden
eine klare Stopp-Bedingung ist definiert

Mit der Schleife aus Prüfen, Handeln und Verifizieren arbeiten

Der beste Workflow ist nicht „alles auf einmal erledigen“. Sondern:

Seite öffnen
Zustand prüfen
ein oder zwei klare Elemente bearbeiten
erneut prüfen
Ergebnis verifizieren
fortfahren

So bleibt der Agent an der tatsächlichen Seitenstruktur orientiert, statt Selektoren oder Button-Positionen zu erraten.

Die wichtigsten browser-use-Befehle in der Praxis

Das sind die besonders relevanten Befehle, die in der Skill bereitgestellt werden:

browser-use open <url>
browser-use state
browser-use click <index>
browser-use input <index> "text"
browser-use screenshot
browser-use close

Verwenden Sie state häufig. Genau dieser Befehl macht spätere Klicks und Eingaben zuverlässig.

So handhaben Sie eingeloggte Websites sicher

Für authentifizierte Workflows ist ein lokales Chrome-Profil meist die beste Wahl:

browser-use --profile "Default" open https://app.example.com

Das ist oft einfacher, als Login-Abläufe innerhalb eines Prompts nachzubauen. Besonders nützlich ist das bei Dashboards, Admin-Tools und internen SaaS-Seiten, bei denen Sitzungs-Cookies bereits im normalen Browser vorhanden sind.

Häufige Hürden beim ersten Start

Bevor Sie die Qualität einer browser-use-Installation bewerten, prüfen Sie diese typischen Blocker:

die CLI ist nicht installiert oder nicht auf PATH
browser-use doctor meldet Setup-Probleme
Sie haben versucht zu interagieren, bevor state aufgerufen wurde
die Aufgabe braucht eigentlich einen sichtbaren Browser, lief aber weiter Headless
die Seite setzt ein bestehendes Login voraus, aber Sie haben weder --profile noch --connect verwendet

Ein realistischer Start-Workflow für browser-use

Eine aussagekräftige erste Aufgabe für den browser-use-Einsatz ist:

browser-use --headed open https://example.com
browser-use state
browser-use click 5
browser-use state
browser-use input 3 "test value"
browser-use screenshot
browser-use close

Damit sehen Sie schnell, ob Umgebung, Seiten-Rendering, Zustandsprüfung und indexierte Interaktion auf Ihrem System sauber funktionieren.

browser-use-Skill FAQ

Ist browser-use besser als ein normaler Web-Browsing-Prompt?

Für schrittweise UI-Automatisierung: ja. browser-use gibt dem Agenten ein konkretes Befehlsmodell und eine persistente Sitzung an die Hand. Das ist deutlich zuverlässiger, als einen Assistenten abstrakt zu bitten, „eine Website zu navigieren“.

Ist browser-use für Einsteiger geeignet?

Ja, sofern Sie CLI-Schritte nachvollziehen können. Das zentrale mentale Modell ist einfach: öffnen, prüfen, interagieren, verifizieren. Einsteiger kommen meist schneller zum Ziel, wenn sie zunächst im --headed-Modus arbeiten.

Wann sollte ich die browser-use-Skill nicht verwenden?

Verzichten Sie auf browser-use, wenn Sie Folgendes brauchen:

ein vollständiges End-to-End-Test-Framework
massive Scraping-Infrastruktur
rein per API zugängliche Daten ohne Browserbedarf
einmalige Browsing-Antworten ohne Interaktion

Wenn es für die Aufgabe eine stabile API gibt, sollten Sie diese statt Browser-Automatisierung verwenden.

Funktioniert browser-use mit eingeloggten Apps?

Ja, das ist sogar einer der stärksten Anwendungsfälle, besonders mit --profile "Default" oder über die Verbindung zu einer bereits laufenden Chrome-Sitzung.

Muss ich Selektoren oder DOM-Details kennen?

In der Regel nicht. Der Workflow basiert auf browser-use state, das klickbare Elemente samt Indizes zurückgibt. Das senkt die Einstiegshürde im Vergleich zu rohen Automatisierungs-Frameworks deutlich.

Was ist die größte Einschränkung, mit der ich rechnen sollte?

Die Skill beseitigt die üblichen Unsicherheiten moderner Websites nicht. Dynamische UIs, Popups, Auth-Walls und Anti-Bot-Verhalten können Abläufe weiterhin stören. Der Agent arbeitet am besten, wenn Sie ein enges Ziel vorgeben und Zustandsprüfungen zwischen den Aktionen verlangen.

So verbessern Sie die browser-use-Skill

browser-use engere Ziele geben

Der schnellste Weg zu besseren browser-use-Ergebnissen ist weniger Mehrdeutigkeit. Statt:

„Benutze die Seite und hol, was ich brauche“

sagen Sie:

„Öffne diese URL, finde diesen Bericht, klicke auf diesen Tab, falls vorhanden, und stoppe nach einem Screenshot des finalen Ergebnisses“

Eng gefasste Ziele reduzieren Fehlklicks und unnötige Erkundung.

Dem Agenten sagen, wann er den Zustand prüfen soll

Bitten Sie ausdrücklich um browser-use state vor wichtigen Aktionen:

nach dem Laden der Seite
nach Navigationen
vor dem Absenden eines Formulars
nach einem Klick, der Inhalte verändert

Schon diese eine Anweisung verbessert die Qualität des browser-use-Einsatzes spürbar.

Modus, Sitzung und Stopp-Bedingung angeben

Nennen Sie alle drei Punkte, wenn sie relevant sind:

Modus: headless oder headed
Sitzungsquelle: frischer Browser, Profil oder verbundenes Chrome
Stopp-Bedingung: Screenshot, extrahierter Wert oder bestätigter Seitentext

Beispiel:

Use browser-use in headed mode with my Default Chrome profile. Open the billing page, inspect state before each click, and stop once you capture a screenshot showing the current invoice total.

Typische Fehlerbilder gezielt abfangen

Wenn der erste Durchlauf fehlschlägt:

erneut im --headed-Modus ausführen
nach jeder Seitenänderung wieder state verwenden
ein echtes Profil für login-abhängige Websites anhängen
einen großen Prompt in kleinere Zwischenziele aufteilen
den Agenten bitten, zuerst den aktuellen Seitenzustand zu melden, bevor er die nächste Aktion festlegt

Diese Anpassungen beheben in der Regel mehr Probleme, als einfach noch mehr natürlichsprachige Details hinzuzufügen.

Extraktionsaufgaben mit Verifikation verbessern

Bei Datenextraktion sollten Sie sowohl den extrahierten Wert als auch Nachweise anfordern:

den verwendeten Seitenabschnitt
einen Screenshot
den Zustand nach der Navigation

So wird browser-use für Browser Automation besser nachvollziehbar und leichter erneut ausführbar, wenn Ergebnisse fragwürdig wirken.

Nach dem ersten Ergebnis iterieren

Verbessern Sie Ihren Prompt nach einem ersten Durchlauf anhand dessen, was die Seite tatsächlich gezeigt hat:

nennen Sie den korrekten Button-Text
erwähnen Sie die Feldbezeichnungen, die der Agent gefunden hat
präzisieren Sie, welche Ergebnisseite das Ziel ist
entfernen Sie unnötige Aktionen

browser-use wird besser, wenn der zweite Prompt die beobachtete UI-Struktur widerspiegelt und nicht nur Ihre ursprüngliche Annahme.

browser-use dort einsetzen, wo Persistenz zählt

Wenn Ihr Workflow mehrere Aktionen auf derselben Website umfasst, nutzen Sie das persistente Daemon-Modell bewusst, statt jedes Mal von vorn zu beginnen. Die Wiederverwendung der offenen Sitzung ist einer der größten praktischen Vorteile von browser-use bei Installation und täglicher Nutzung.

Bewertungen & Rezensionen

Noch keine Bewertungen

Teile deine Rezension

Melde dich an, um für diesen Skill eine Bewertung und einen Kommentar zu hinterlassen.

0/10000

Neueste Rezensionen

Wird gespeichert...

Mehr Skills in dieser Kategorie

playwright-interactive

von openai

playwright-interactive ist eine Browser-Automatisierungs-Skill für dauerhafte Playwright-Sitzungen in lokalen Web- und Electron-Apps. Damit kannst du den UI-Zustand prüfen, Interaktionen erneut versuchen und funktionale oder visuelle QA durchführen, ohne die Toolchain neu zu starten. Ideal, wenn du einen praxisnahen Leitfaden für iteratives Debugging mit playwright-interactive suchst.

Browser Automation

Favoriten 0GitHub 0

playwright-skill

von testdino-hq

playwright-skill ist ein Playwright-spezifischer Leitfaden für zuverlässige Browser-Automatisierung. Er hilft Teams dabei, Tests für E2E-Flows, API-Prüfungen, Komponententests, visuelle Regressionen, Barrierefreiheit, Authentifizierung, CI/CD und die Migration von Cypress oder Selenium zu schreiben, zu debuggen und zu skalieren. Verwenden Sie die playwright-skill Skill, wenn Sie praxisnahe Muster statt allgemeiner Testberatung suchen.

Test Automation

Favoriten 0GitHub 0

data-scraper-agent

von affaan-m

data-scraper-agent hilft beim Aufbau einer wiederholbaren Public-Data-Pipeline für Web Scraping, Anreicherung und Speicherung. Es ist für das Monitoring von Jobs, Preisen, News, Repos, Sport und Listings nach Zeitplan mit GitHub Actions ausgelegt, mit Ausgaben nach Notion, Sheets oder Supabase. Am besten für laufendes Tracking, nicht für einmalige Extraktionen.

Web Scraping

Favoriten 0GitHub 156.1k

playwright-best-practices

von currents-dev

playwright-best-practices ist ein Playwright- + TypeScript-Skill für stabile Tests, weniger Flakiness, bessere Auth-Flows, die richtige Wahl zwischen Fixtures und Page Objects sowie den Umgang mit CI, Popups, Mobile, iframes, websockets und Multi-User-Szenarien – mit praxisnaher, repo-gestützter Anleitung.

Test Automation

Favoriten 0GitHub 174

x-twitter-scraper

von Xquik-dev

Verwende x-twitter-scraper, um X-(Twitter-)Daten und bestätigungspflichtige Aktionen über Xquik abzurufen. Unterstützt sind Tweet-Suche, Nutzerabfragen, Follower-Extraktion, Medien-Downloads, Monitore, Webhooks, MCP und Schreibaktionen. Am besten geeignet für Web-Scraping-artige Recherchen mit API-Schlüssel, nicht mit X-Login-Daten.

Web Scraping

Favoriten 0GitHub 71

composio

von ComposioHQ

Nutze Composio, um KI-Workflows über CLI oder SDK mit externen Apps zu verbinden. Dieses Composio-Skill ist auf Workflow-Automatisierung, App-Aktionen, Verbindungen pro Nutzer, Toolkit-Erkennung und einen praxisnahen Installations- und Nutzungsleitfaden ausgelegt, bevor du mit dem Aufbau beginnst.

Workflow Automation

Favoriten 0GitHub 48

playwright-skill

von lackeyjb

playwright-skill ist eine Skill für Browser-Automatisierung zum Testen von Seiten, Ausfüllen von Formularen, Prüfen von Links, Erstellen von Screenshots, Validieren responsiver Layouts und für Login- oder Checkout-Flows. Sie erkennt Dev-Server automatisch, nutzt einen universellen Executor und hilft dir, zuverlässige Playwright-Aufgaben mit weniger Setup und Rätselraten auszuführen.

Browser Automation

Favoriten 0GitHub 0

browser-testing-with-devtools

von addyosmani

browser-testing-with-devtools unterstützt Agents dabei, echtes Browserverhalten über Chrome DevTools MCP zu testen und zu debuggen. Damit lassen sich das DOM prüfen, Konsolenfehler erfassen, Netzwerkanfragen analysieren, die Performance profilieren und Korrekturen direkt im laufenden Browser verifizieren.

Test Automation

Favoriten 0GitHub 18.7k

baoyu-post-to-x

von JimLiu

baoyu-post-to-x automatisiert das Posten auf X mit echtem Chrome und CDP. Veröffentliche Text, Bilder, Videos, Quote Posts und Markdown-basierte X Articles mit bun-Skripten, Vorschaumodus und browserbasierter Ausführung.

Social Media

Favoriten 0GitHub 13.2k

use-my-browser

von xixu-me

use-my-browser ist ein Skill für Browser-Automatisierungsstrategien, mit dem sich die passende Web-Ebene wählen lässt: öffentliche Web-Tools, live Chrome, raw fetch oder Playwright für angemeldete, dynamische und DevTools-gesteuerte Aufgaben.

Browser Automation

Favoriten 0GitHub 6

playwright-cli

von VoltAgent

playwright-cli ist eine Browser-Automatisierungsskill für Playwright direkt über die Kommandozeile. Sie hilft beim Öffnen von Seiten, Prüfen von Elementen, Durchklicken von Abläufen, Ausfüllen von Formularen, Erstellen von Screenshots, Mocken von Requests und Generieren von Testcode aus echten Interaktionen. Nutze sie für wiederholbare Browser-Automatisierung und UI-Tests.

Browser Automation

Favoriten 0GitHub 8.5k

windows-vm

von obra

Nutze die windows-vm Skill, um eine headless Windows 11 VM in Docker mit KVM-Beschleunigung zu erstellen, zu verwalten und per SSH darauf zuzugreifen. Sie eignet sich für Desktop-Automation, das Einrichten von Windows-Apps und wiederholbare Agent-Workflows, wenn du eine echte Windows-Umgebung ohne manuelles RDP brauchst.

Desktop Automation

Favoriten 0GitHub 323

notebooklm

von PleasePrompto

Nutze die notebooklm-Skill, um Google NotebookLM-Notizbücher direkt aus Claude Code abzufragen und Antworten zu erhalten, die auf Quellen basieren und zitierfähig sind. Entwickelt für notebooklm-Einsätze in dokumentenzentrierten Workflows – mit Browser-Automatisierung, persistenter Authentifizierung und Notizbuchverwaltung für NotebookLM-Guide- und Workflow-Automation-Aufgaben.

Workflow Automation

Favoriten 0GitHub 0

playwright

von openai

Nutze die playwright-Skill, um einen echten Browser vom Terminal aus mit einem Wrapper-Skript und `playwright-cli` zu automatisieren. Sie eignet sich für Browserautomatisierungsaufgaben wie Navigation, Formularausfüllung, Screenshots, Snapshots, Extraktion und das Debuggen von UI-Abläufen. Prüfe `npx`, installiere die Skill, setze `PWCLI` und folge dann dem CLI-first-Workflow.

Browser Automation

Favoriten 0GitHub 0

canary-watch

von affaan-m

canary-watch ist ein Post-Deploy-Monitoring-Skill, mit dem sich eine Live-URL nach Releases, Merges oder Dependency-Updates auf Regressionen prüfen lässt – in Staging oder Production.

Monitoring

Favoriten 0GitHub 156.1k

webapp-testing

von anthropics

webapp-testing ist eine Skill zum Testen lokaler Webapps mit Python Playwright. Sie unterstützt Agents dabei, Server mit `scripts/with_server.py` zu starten, die gerenderte UI zu prüfen, Selektoren zu finden, Screenshots und Console-Logs zu erfassen und Frontend-Verhalten in einem Reconnaissance-first-Workflow zu validieren.

Test Automation

Favoriten 0GitHub 105.1k