data-scraper-agent

von affaan-m

data-scraper-agent hilft beim Aufbau einer wiederholbaren Public-Data-Pipeline für Web Scraping, Anreicherung und Speicherung. Es ist für das Monitoring von Jobs, Preisen, News, Repos, Sport und Listings nach Zeitplan mit GitHub Actions ausgelegt, mit Ausgaben nach Notion, Sheets oder Supabase. Am besten für laufendes Tracking, nicht für einmalige Extraktionen.

Stars156.1k

Favoriten0

Kommentare0

Hinzugefügt15. Apr. 2026

KategorieWeb Scraping

Installationsbefehl

npx skills add affaan-m/everything-claude-code --skill data-scraper-agent

Kurationswert

Dieses Skill erreicht 84/100 und ist damit ein solider Kandidat für das Verzeichnis: Nutzer erhalten einen klar auslösbaren Data-Scraping-Workflow, genügend operative Details, um Stack und Zweck schnell zu verstehen, und echte Orientierung statt eines generischen Prompts. Es sollte Agents dabei helfen, Public-Data-Monitoring-Aufgaben mit weniger Rätselraten auszuführen, auch wenn Nutzer die Passung für ihre konkrete Zielseite und Speicherumgebung weiterhin prüfen sollten.

84/100

Stärken

Die explizite Aktivierungsanleitung deckt typische Public-Data-Monitoring-Anfragen ab, etwa Scraping, Tracking und geplante Sammlung.
Die starke Workflow-Gliederung zeigt die komplette COLLECT → ENRICH → STORE-Pipeline und hilft Agents so, mit weniger Unschärfe zu arbeiten.
Substanzieller Inhalt ohne Platzhalter sowie konkrete Stack-Bezüge (Python, Gemini Flash, GitHub Actions, Notion/Sheets/Supabase).

Hinweise

Es gibt keinen Installationsbefehl und keine Support-Dateien, daher kann die Einrichtung und Integration eine manuelle Ableitung allein aus der SKILL.md erfordern.
Das Skill ist bewusst breit angelegt, daher werden Sonderfälle wie site-spezifische Anti-Bot-Maßnahmen oder ungewöhnliche Datenquellen im Auszug nicht tief operationalisiert.

Python Google Notion Supabase Playwright Github Actions

Überblick

Überblick über den `data-scraper-agent` Skill

Was `data-scraper-agent` macht

Der data-scraper-agent Skill hilft dir, eine automatisierte Pipeline aufzubauen, die öffentliche Daten sammelt, sie mit einem LLM anreichert und die Ergebnisse für das laufende Tracking speichert. Er eignet sich besonders für data-scraper-agent for Web Scraping-Aufgaben, bei denen es nicht um einen einmaligen Scrape geht, sondern um einen wiederholbaren Agenten, der Quellen wie Jobbörsen, Preis-Seiten, News-Feeds, GitHub-Repos, Sportergebnisse und Listings regelmäßig überprüft.

Wer ihn installieren sollte

Installiere den data-scraper-agent Skill, wenn du öffentliche Quellen günstig nach einem festen Zeitplan überwachen willst, ohne deinen eigenen Server zu betreiben. Er passt gut zu Nutzerinnen und Nutzern, die Benachrichtigungen, strukturierte Datensätze oder Trendanalysen brauchen, statt nur ad hoc zu scrapen. Weniger sinnvoll ist er, wenn du nur eine einzelne manuelle Extraktion brauchst oder wenn die Zielseite privat, login-geschützt oder stark gegen Bots abgesichert ist.

Warum er sich unterscheidet

Der eigentliche Mehrwert des data-scraper-agent skill liegt im Workflow, nicht nur im Scraper. Im Mittelpunkt steht eine Dreier-Schleife: sammeln, anreichern, speichern. So lässt sich rohes Seitenmaterial leichter in nutzbare Daten verwandeln, Ergebnisse klassifizieren und das System über GitHub Actions weiter betreiben. Der praktische Kompromiss ist: Die Qualität hängt davon ab, dass die Quelle öffentlich zugänglich ist und du dem Agenten klare Schema- und Filterregeln mitgibst.

So verwendest du den `data-scraper-agent` Skill

Skill installieren und prüfen

Nutze den Befehl data-scraper-agent install in deinem Claude Code-Workflow:
npx skills add affaan-m/everything-claude-code --skill data-scraper-agent

Lies nach der Installation zuerst SKILL.md und prüfe dann – falls vorhanden – den restlichen Skill-Kontext im Repo. Auch wenn dieser Skill in sich geschlossen ist, nutzt du data-scraper-agent usage am besten, indem du vorab den Ausführungspfad, das Ausgabeformat und mögliche Annahmen überprüfst, bevor du ihn gegen ein reales Ziel arbeiten lässt.

Eine vage Anforderung in ein brauchbares Briefing verwandeln

Ein schwacher Prompt wie „scrape diese Site“ liefert nicht genug Struktur. Ein starker Prompt sagt dem Skill, welche Quelle er überwachen soll, welche Felder er erfassen muss, in welchem Rhythmus er laufen soll und wo die Ergebnisse landen sollen. Beispiel: „Baue einen data-scraper-agent für öffentliche Softwareentwicklungsjobs auf zwei Jobbörsen, erfasse Titel/Firma/Ort/Gehalt/Veröffentlichungsdatum, dedupliziere nach URL, reiche die Daten um die Senioritätsstufe der Rolle an und speichere die wöchentlichen Ergebnisse in Google Sheets.“

Was du für bessere Ergebnisse angeben solltest

Der Skill funktioniert am besten, wenn du die öffentliche Quelle, das gewünschte Schema und die Entscheidungslogik mitlieferst. Gib an, ob die Seite statisch ist oder per JavaScript gerendert wird, wie aktuell die Daten sein müssen und was als neuer oder geänderter Datensatz gilt. Wenn du diese Details weglässt, kann der Agent zu viel scrapen, wichtige Felder übersehen oder Datensätze erzeugen, die sich über die Zeit schlecht vergleichen lassen.

Welche Dateien und Konzepte du zuerst lesen solltest

Beginne mit SKILL.md und konzentriere dich auf die Abschnitte, die Aktivierung, die dreischichtige Architektur und den kostenlosen Stack erklären. Dort steht, wann der Skill wirklich passt und wie du die Pipeline verdrahtest. Wenn du ihn an ein neues Repo anpasst, suche vor dem Ändern von Prompts nach den konkreten Beispielen für Zeitplanung, Speicheroptionen und Anreicherungsregeln.

`data-scraper-agent` Skill FAQ

Ist das nur für Webseiten?

Nein. Der data-scraper-agent guide eignet sich für jede öffentliche Quelle, die der Agent erreichen kann, also auch für APIs, Feeds und Seiten, die Browser-Rendering benötigen. Für einfache HTML-Seiten reicht oft klassisches HTTP-Scraping. Bei dynamischen Seiten brauchst du unter Umständen einen Browser-basierten Ansatz, was die Einrichtung komplexer macht.

Brauche ich Programmiererfahrung?

Eine gewisse Sicherheit im Formulieren von Prompts hilft, aber der Skill ist trotzdem auf das Erstellen ausgerichtet. Einsteiger können ihn nutzen, wenn sie Quelle und gewünschte Ausgabe klar beschreiben können. Wenn du Felder, Zeitplan oder Zielsystem nicht sauber definieren kannst, wird das Ergebnis wahrscheinlich zu vage, um es zuverlässig einzusetzen.

Worin unterscheidet er sich von einem normalen Prompt?

Ein normaler Prompt erzeugt meist einen einmaligen Scraper oder eine Zusammenfassung. Der data-scraper-agent Skill ist dafür gedacht, ein wiederholbares System mit Sammlung, Anreicherung, Speicherung und geplanten Läufen zu erstellen. Das ist deutlich besser geeignet, wenn du Daten über längere Zeit pflegen willst und nicht nur einmal extrahieren möchtest.

Wann sollte ich ihn nicht verwenden?

Verwende data-scraper-agent nicht, wenn die Quelle einen Login erfordert, strenge Rate Limits hat, Automatisierung blockiert oder die Daten besonders sensibel sind. Er ist auch eine schlechte Wahl, wenn du nur einen schnellen manuellen Export brauchst oder wenn sich die Quelle so häufig ändert, dass ein einfacher Prompt leichter zu pflegen wäre als ein Agent.

So verbesserst du den `data-scraper-agent` Skill

Definiere die Quelle enger

Die besten Ergebnisse mit data-scraper-agent entstehen, wenn du genaue URLs, Muster und Scope-Grenzen nennst. Sage klar, welche Seiten relevant sind, welche nicht und was der Agent ignorieren soll. Zum Beispiel: „Überwache nur die Listing-Seiten für Remote-Backend-Rollen in den USA; schließe Praktika, gesponserte Beiträge und doppelte Wiederveröffentlichungen aus.“ So ein Briefing reduziert False Positives und hilft dem Agenten, stabil zu bleiben.

Lege die Regeln für Anreicherung und Speicherung fest

Wenn du brauchbare Ergebnisse willst, sag dem Skill, was das LLM ableiten darf und was wörtlich bleiben muss. Nutze die Anreicherung für Klassifizierung, Priorisierung oder kurze Zusammenfassungen, aber halte Quellfelder wie Preis, Titel und URL exakt. Leg außerdem das Zielformat von Anfang an fest: Notion für Review-Workflows, Sheets für leichte Analysen, Supabase für strukturierte Abfragen.

Prüfe den ersten Lauf auf Fehlerbilder

Die häufigsten Probleme sind doppelte Datensätze, fehlende Felder bei dynamischen Seiten und eine zu aggressive Anreicherung, die die Bedeutung der Quelle verändert. Prüfe nach dem ersten Lauf einige Datensätze und schärfe den Prompt bei Deduplizierung, Selektoren und erlaubten Quellfeldern nach. Wenn die Ausgabe unruhig oder unübersichtlich ist, reduziere zuerst den Scope, bevor du mehr Automatisierung hinzufügst.

Iteriere auf Basis dessen, was du wirklich trackst

Nutze die erste Version, um den Monitoring-Loop zu belegen, und verbessere data-scraper-agent danach anhand der Signale, die dir am wichtigsten sind: Aktualität, Vollständigkeit oder Qualität der Klassifizierung. Wenn Aktualität zählt, verfeinere den Zeitplan. Wenn Vollständigkeit zählt, passe die Extraktionsregeln an. Wenn Entscheidungsfindung zählt, verbessere den Enrichment-Prompt so, dass der Agent erklärt, warum jeder Eintrag aufgenommen wurde.

Bewertungen & Rezensionen

Noch keine Bewertungen

Teile deine Rezension

Melde dich an, um für diesen Skill eine Bewertung und einen Kommentar zu hinterlassen.

0/10000

Neueste Rezensionen

Wird gespeichert...

Mehr Skills in dieser Kategorie

huggingface-datasets

von huggingface

Nutze die Skill "huggingface-datasets" für Workflows mit der Hugging Face Dataset Viewer API, um Datensätze zu validieren, Splits aufzulösen, Zeilen vorzuschauen und zu paginieren, Text zu durchsuchen, Filter anzuwenden sowie Parquet-Links oder Statistiken abzurufen. Ein praktischer huggingface-datasets Leitfaden für die schreibgeschützte Erkundung von Datensätzen.

Web Scraping

Favoriten 0GitHub 10.4k

baoyu-url-to-markdown

von JimLiu

baoyu-url-to-markdown wandelt Live-URLs mit einer eingebundenen baoyu-fetch-CLI per Chrome CDP, Site-Adaptern und generischem Fallback in Markdown um. Prüfen Sie die Bun-Laufzeitvoraussetzungen, die einmalige Einrichtung von EXTEND.md und die Nutzung für X, YouTube, Hacker News sowie gerenderte Seiten.

Format Conversion

Favoriten 0GitHub 13.2k

x-twitter-scraper

von Xquik-dev

Verwende x-twitter-scraper, um X-(Twitter-)Daten und bestätigungspflichtige Aktionen über Xquik abzurufen. Unterstützt sind Tweet-Suche, Nutzerabfragen, Follower-Extraktion, Medien-Downloads, Monitore, Webhooks, MCP und Schreibaktionen. Am besten geeignet für Web-Scraping-artige Recherchen mit API-Schlüssel, nicht mit X-Login-Daten.

Web Scraping

Favoriten 0GitHub 71

exa-search

von K-Dense-AI

exa-search ist eine Web-Recherche-Skill auf Basis von Exa für das Finden aktueller Informationen und das Extrahieren von Inhalten aus URLs. Sie eignet sich für Suche, Quellenrecherche, Artikel- und PDF-Extraktion sowie technische oder wissenschaftliche Recherchen mit semantischer Suche, akademischer Filterung und klaren Hinweisen zu Installation und Nutzung.

Web Research

Favoriten 0GitHub 0

browser-use

von browser-use

browser-use ist ein Skill für Browser-Automatisierung: Seiten öffnen, Status prüfen, indizierte Elemente anklicken, in Felder tippen, Screenshots erstellen und eine persistente Browser-Sitzung weiterverwenden. Geeignet für zuverlässiges Ausfüllen von Formularen, Navigation und eingeloggte Workflows mit der browser-use CLI.

Browser Automation

Favoriten 0GitHub 84.9k

remote-browser

von browser-use

remote-browser unterstützt sandboxed Agents dabei, einen Headless-Browser für Browser-Automatisierung zu steuern. Damit lassen sich Seiten öffnen, Zustände prüfen, indexierte Elemente anklicken, Eingaben tippen, Screenshots erstellen und Verbindungen zu lokalen Apps oder CDP-basierten Browser-Sitzungen herstellen.

Browser Automation

Favoriten 0GitHub 84.9k

firecrawl

von firecrawl

firecrawl Skill zum Installieren, Authentifizieren und Nutzen der offiziellen Firecrawl CLI für Web-Scraping, Suche, Crawling und Seiteninteraktion. Erfahren Sie, wie Einrichtung, `firecrawl --status`, Login, sichere Dateiausgabe nach `.firecrawl/` und praxisnahe Nutzungsmuster laut Repository funktionieren.

Web Scraping

Favoriten 0GitHub 234

firecrawl-search

von firecrawl

firecrawl-search ist eine Skill für Webrecherche, um Quellen zu finden, strukturierte Suchen auszuführen und optional vollständige Seiteninhalte mit Firecrawl CLI als JSON zu extrahieren.

Web Research

Favoriten 0GitHub 234

parallel-web

von K-Dense-AI

parallel-web ist ein Skill für Web-Recherche und Extraktion, der auf parallel-cli basiert. Er hilft dir beim Web-Suchen, beim Extrahieren von URL-Inhalten, beim Anreichern von Daten aus Quellen und bei tiefergehender Recherche, wobei wissenschaftliche und akademische Quellen priorisiert werden. Verwende ihn für die Nutzung von parallel-web, Web-Recherche, Zitate und evidenzbasierte Workflows.

Web Research

Favoriten 0GitHub 0

geomaster

von K-Dense-AI

geomaster ist eine Geowissenschafts-Skill für GIS, Fernerkundung, räumliche Analyse und Earth-Observation-Workflows. Nutzen Sie sie für Data-Analysis-Aufgaben wie Raster- und Vektoroperationen, die Verarbeitung von Satellitenbildern, räumliche Kennzahlen und die Planung von Workflows. Der geomaster-Guide hilft Ihnen, die Skill zu installieren, zu prüfen und mit weniger Rätselraten einzusetzen.

Data Analysis

Favoriten 0GitHub 0

asc-aso-audit

von rudrankriyam

asc-aso-audit hilft dir, ein Offline-ASO-Audit für kanonische App-Store-Metadaten in `./metadata` durchzuführen und anschließend mit Astro MCP Keyword-Lücken aufzudecken. Verwende die asc-aso-audit Skill nach `asc metadata pull`, um `subtitle`, `keywords`, `description` und `whatsNew` mit weniger Rätselraten zu prüfen.

Data Analysis

Favoriten 0GitHub 0

ffuf-web-fuzzing

von jthack

ffuf-web-fuzzing ist ein praxisnaher Skill zum Aufspüren versteckter Webinhalte, zum Testen von Routen und Parametern sowie zum Fuzzing authentifizierter Ziele mit Raw Requests, Auto-Kalibrierung und Ergebnisanalyse. Er eignet sich für Security-Tester, die einen wiederholbaren ffuf-web-fuzzing-Leitfaden für Penetrationstests und Security-Audit-Workflows benötigen.

Security Audit

Favoriten 0GitHub 0

web-to-markdown

von softaworks

web-to-markdown ist ein Skill für Formatkonvertierung, der Live-Webseiten über das lokale `web2md`-CLI in sauberes Markdown umwandelt. Für JS-gerenderte Seiten, interaktive Abläufe und die Batch-Konvertierung von URLs nutzt er einen Browser der Chromium-Familie. Er wird nur ausgeführt, wenn er ausdrücklich namentlich aufgerufen wird.

Format Conversion

Favoriten 0GitHub 1.3k

firecrawl-agent

von firecrawl

firecrawl-agent unterstützt bei der Extraktion von strukturiertem JSON aus komplexen Websites mit mehreren Seiten. Hier erfahren Sie, wann sich das Tool eignet, wie Sie den Firecrawl CLI-Agent ausführen, Schemas hinzufügen, Start-URLs festlegen und Ausgaben für Preise, Produkte und verzeichnisartige Datenextraktion speichern.

Web Scraping

Favoriten 0GitHub 234

firecrawl-map

von firecrawl

firecrawl-map hilft Agents dabei, URLs auf einer Website zu finden und aufzulisten – mit Optionen für Suchfilter, Limits, JSON-Ausgabe, Sitemap-Modi und die Steuerung von Subdomains, bevor tieferes Scraping oder Crawling startet.

Web Scraping

Favoriten 0GitHub 234

firecrawl-crawl

von firecrawl

firecrawl-crawl unterstützt Agenten dabei, Inhalte einer Website oder eines Docs-Bereichs in großem Umfang zu extrahieren – mit Pfadfiltern, Tiefenlimits, Seitenobergrenzen, Wait-Modus und Prüfungen des Job-Status.

Web Scraping

Favoriten 0GitHub 234

data-scraper-agent

Überblick über den data-scraper-agent Skill

Was data-scraper-agent macht

Wer ihn installieren sollte

Warum er sich unterscheidet

So verwendest du den data-scraper-agent Skill

Skill installieren und prüfen

Eine vage Anforderung in ein brauchbares Briefing verwandeln

Was du für bessere Ergebnisse angeben solltest

Welche Dateien und Konzepte du zuerst lesen solltest

data-scraper-agent Skill FAQ

Ist das nur für Webseiten?

Brauche ich Programmiererfahrung?

Worin unterscheidet er sich von einem normalen Prompt?

Wann sollte ich ihn nicht verwenden?

So verbesserst du den data-scraper-agent Skill

Definiere die Quelle enger

Lege die Regeln für Anreicherung und Speicherung fest

Prüfe den ersten Lauf auf Fehlerbilder

Iteriere auf Basis dessen, was du wirklich trackst

Bewertungen & Rezensionen

Überblick über den `data-scraper-agent` Skill

Was `data-scraper-agent` macht

So verwendest du den `data-scraper-agent` Skill

`data-scraper-agent` Skill FAQ

So verbesserst du den `data-scraper-agent` Skill