data-scraper-agent

작성자 affaan-m

data-scraper-agent는 웹 스크래핑, 데이터 보강, 저장을 위한 반복 가능한 공개 데이터 파이프라인 구축을 돕습니다. GitHub Actions를 사용해 일정에 맞춰 작업, 가격, 뉴스, 저장소, 스포츠, 목록을 모니터링하도록 설계되었으며, 결과는 Notion, Sheets, 또는 Supabase로 보낼 수 있습니다. 일회성 추출보다는 지속적인 추적에 가장 적합합니다.

Stars156.1k

즐겨찾기0

추가됨2026년 4월 15일

카테고리Web Scraping

설치 명령어

npx skills add affaan-m/everything-claude-code --skill data-scraper-agent

큐레이션 점수

이 스킬은 84/100점으로, 디렉터리 수록 후보로 충분히 탄탄합니다. 사용자가 명확하게 호출할 수 있는 데이터 스크래핑 워크플로를 제공하고, 스택과 목적을 빠르게 이해할 수 있을 만큼 운영 정보가 있으며, 단순한 프롬프트를 넘어 실질적인 안내를 담고 있습니다. 공개 데이터 모니터링 작업을 더 적은 추측으로 실행하는 데 도움이 되지만, 대상 사이트와 저장소 구성에 맞는지 여부는 여전히 확인하는 것이 좋습니다.

84/100

강점

명확한 활성화 안내가 스크래핑, 추적, 예약 수집 같은 일반적인 공개 데이터 모니터링 요청을 포괄합니다.
COLLECT → ENRICH → STORE 전체 파이프라인을 잘 보여주는 워크플로 구성이 있어, 모호함을 줄인 실행에 도움이 됩니다.
플레이스홀더 없이 내용이 충실하고, Python, Gemini Flash, GitHub Actions, Notion/Sheets/Supabase 같은 구체적인 스택 참조가 있습니다.

주의점

설치 명령이나 지원 파일이 없어, 설정과 통합은 SKILL.md만 보고 수동으로 해석해야 할 수 있습니다.
이 스킬은 의도적으로 범용적이어서, 사이트별 안티봇 대응이나 특이한 데이터 소스 같은 엣지 케이스는 발췌본에서 깊게 다뤄지지 않습니다.

Python Google Notion Supabase Playwright Github Actions

개요

data-scraper-agent 스킬 개요

data-scraper-agent가 하는 일

data-scraper-agent 스킬은 공개 데이터를 수집하고, LLM으로 보강한 뒤, 지속적인 추적을 위해 결과를 저장하는 자동화 파이프라인을 만드는 데 도움을 줍니다. 이 스킬은 data-scraper-agent for Web Scraping 작업, 즉 한 번만 긁어오는 작업이 아니라 구인 공고, 가격 페이지, 뉴스 피드, GitHub repo, 스포츠 결과, 리스팅 같은 소스를 반복적으로 확인하는 에이전트가 필요할 때 가장 적합합니다.

누가 설치하면 좋은가

정기적으로 공개 소스를 모니터링하되 직접 서버를 운영하고 싶지 않다면 data-scraper-agent 스킬을 설치하세요. 이 스킬은 즉흥적인 스크래핑보다 알림, 구조화된 기록, 추세 추적이 필요한 사용자에게 잘 맞습니다. 반대로 단 한 번의 수동 추출만 필요하거나 대상 사이트가 비공개이거나 로그인 뒤에 있거나 봇 차단이 강한 경우에는 효용이 떨어집니다.

무엇이 다른가

이 data-scraper-agent skill의 핵심 가치는 단순한 스크래퍼가 아니라 워크플로에 있습니다. 수집, 보강, 저장의 3단계 루프를 강조해 원시 페이지를 활용 가능한 데이터로 바꾸고, 결과를 분류하고, GitHub Actions로 시스템을 계속 돌리기 쉽게 만듭니다. 실무상 트레이드오프는 소스가 공개되어 있어야 하고, 에이전트에 명확한 스키마와 필터링 규칙을 줘야 품질이 나온다는 점입니다.

data-scraper-agent 스킬 사용 방법

스킬을 설치하고 살펴보기

Claude Code 워크플로에서 data-scraper-agent install 명령을 사용하세요:
npx skills add affaan-m/everything-claude-code --skill data-scraper-agent

설치한 뒤에는 먼저 SKILL.md를 읽고, 저장소에 있다면 나머지 스킬 컨텍스트도 확인하세요. 이 스킬은 자체 완결형이지만, 실제 data-scraper-agent usage를 잘 활용하는 가장 좋은 방법은 실제 대상에 맞춰 빌드하기 전에 실행 경로, 출력 형식, 전제 조건을 먼저 확인하는 것입니다.

모호한 요청을 쓸 수 있는 브리프로 바꾸기

“이 사이트를 스크랩해줘” 같은 약한 프롬프트는 구조가 부족합니다. 강한 프롬프트는 스킬이 어떤 소스를 모니터링해야 하는지, 어떤 필드를 수집해야 하는지, 얼마나 자주 실행할지, 결과를 어디에 저장할지를 알려줍니다. 예를 들면: “두 개의 보드에서 공개 소프트웨어 엔지니어링 채용 공고를 대상으로 data-scraper-agent를 만들어서 title/company/location/salary/posted date를 수집하고, URL 기준으로 중복 제거한 뒤, 직무 seniority를 보강하고, 주간 결과를 Google Sheets에 저장해줘.”

더 나은 결과를 위해 무엇을 지정할지

이 스킬은 공개 소스, 원하는 스키마, 의사결정 로직을 함께 줄 때 가장 잘 작동합니다. 사이트가 정적 HTML인지 JS 렌더링인지, 데이터 신선도가 얼마나 필요한지, 무엇을 새 기록 또는 변경 기록으로 볼지 포함하세요. 이런 세부 정보가 빠지면 에이전트가 너무 많이 긁거나, 중요한 필드를 놓치거나, 시간이 지나도 비교하기 어려운 레코드를 만들 수 있습니다.

먼저 읽어야 할 파일과 개념

먼저 SKILL.md를 열고, 활성화 방식, 3계층 아키텍처, 무료 스택을 설명하는 섹션에 집중하세요. 이 부분이 이 스킬이 정말 적합한지, 그리고 파이프라인을 어떻게 연결해야 하는지를 알려줍니다. 새 repo에 맞게 조정하는 경우에는 프롬프트를 수정하기 전에 스케줄 설정, 저장 방식, 보강 규칙의 구체적인 예시부터 확인하세요.

data-scraper-agent 스킬 FAQ

이것은 웹페이지에만 쓰는 건가요?

아닙니다. data-scraper-agent guide는 API, 피드, 브라우저 렌더링이 필요한 페이지를 포함해 에이전트가 접근할 수 있는 모든 공개 소스에 사용할 수 있습니다. 단순한 HTML 페이지라면 기본적인 HTTP 스크래핑만으로 충분한 경우가 많습니다. 하지만 동적 사이트라면 브라우저 기반 접근이 필요할 수 있고, 그만큼 설정 복잡도가 올라갑니다.

사용하려면 코딩 경험이 필요한가요?

프롬프트를 어느 정도 다룰 줄 알면 도움이 되지만, 이 스킬은 여전히 빌드 지향적입니다. 초보자도 소스와 원하는 결과를 명확히 설명할 수 있다면 사용할 수 있습니다. 필드, 스케줄, 저장 위치를 정의하지 못하면 결과가 너무 모호해서 안정적으로 배포하기 어렵습니다.

일반 프롬프트와는 어떻게 다른가요?

일반 프롬프트는 보통 일회성 스크래퍼나 요약을 만듭니다. data-scraper-agent 스킬은 수집, 보강, 저장, 예약 실행이 포함된 반복 가능한 시스템을 만드는 데 맞춰져 있습니다. 그래서 데이터를 한 번 뽑는 것보다 장기간 유지 관리가 중요한 경우에 더 적합합니다.

언제 쓰지 말아야 하나요?

소스가 로그인을 요구하거나, 엄격한 rate limit이 있거나, 자동화를 차단하거나, 데이터가 매우 민감하다면 data-scraper-agent를 쓰지 마세요. 또한 단순히 빠른 수동 내보내기만 필요하거나, 소스가 너무 자주 바뀌어서 에이전트를 유지하는 것보다 단순한 프롬프트가 더 쉬운 경우에도 잘 맞지 않습니다.

data-scraper-agent 스킬 개선 방법

소스 정의를 더 촘촘하게 주기

가장 좋은 data-scraper-agent 결과는 정확한 URL, 패턴, 범위 경계를 지정할 때 나옵니다. 어떤 페이지가 중요하고, 어떤 페이지는 제외할지, 그리고 에이전트가 무엇을 무시해야 하는지 분명히 말하세요. 예를 들면, “미국 원격 백엔드 역할의 리스팅 페이지만 모니터링하고, 인턴십, 스폰서 게시물, 중복 재게시물은 제외한다.” 같은 브리프는 오탐을 줄이고 에이전트의 안정성을 높입니다.

보강과 저장 규칙을 정하기

유용한 결과를 얻고 싶다면 LLM이 무엇을 추론해야 하고, 무엇은 원문 그대로 유지해야 하는지 알려주세요. 분류, 우선순위 점수화, 짧은 요약에는 보강을 쓰되, price, title, URL 같은 소스 필드는 정확히 유지하세요. 대상 저장 형식도 미리 정해야 합니다. 검토 워크플로에는 Notion, 가벼운 분석에는 Sheets, 구조화된 쿼리에는 Supabase가 잘 맞습니다.

첫 실행에서 실패 모드 확인하기

가장 흔한 문제는 중복 레코드, 동적 페이지에서 빠지는 필드, 그리고 소스의 의미를 바꿔버릴 정도로 과하게 보강하는 것입니다. 첫 실행 뒤에는 몇 개의 레코드를 직접 확인하고, 중복 제거, selector, 허용할 소스 필드를 중심으로 프롬프트를 더 조이세요. 결과가 너무 지저분하면 자동화를 더하기 전에 범위를 줄이는 편이 낫습니다.

실제로 추적하는 항목 기준으로 반복 개선하기

처음 버전은 모니터링 루프가 제대로 도는지 증명하는 용도로 쓰고, 그다음에는 자신이 가장 중요하게 보는 신호, 즉 최신성, 완전성, 분류 품질에 맞춰 data-scraper-agent를 개선하세요. 최신성이 중요하면 스케줄을 다듬고, 완전성이 중요하면 추출 규칙을 조정하고, 의사결정이 중요하면 보강 프롬프트를 개선해서 각 항목이 왜 포함됐는지 에이전트가 설명하도록 만드세요.

평점 및 리뷰

아직 평점이 없습니다

리뷰 남기기

이 스킬의 평점과 리뷰를 남기려면 로그인하세요.

0/10000

최신 리뷰

저장 중...

이 카테고리의 다른 스킬

huggingface-datasets

작성자 huggingface

Hugging Face Dataset Viewer API 작업에 이 huggingface-datasets 스킬을 사용해 데이터셋을 검증하고, split을 확인하며, 행을 미리 보고 페이지네이션하고, 텍스트를 검색하고, 필터를 적용하고, parquet 링크나 통계를 가져올 수 있습니다. 읽기 전용 데이터셋 탐색을 위한 실용적인 huggingface-datasets 가이드입니다.

Web Scraping

즐겨찾기 0GitHub 10.4k

baoyu-url-to-markdown

작성자 JimLiu

baoyu-url-to-markdown은 Chrome CDP, 사이트별 어댑터, 범용 폴백을 활용해 실시간 URL을 Markdown으로 변환합니다. vendored baoyu-fetch CLI 기반으로 동작하며, Bun 런타임 요구사항, 최초 EXTEND.md 설정, 그리고 X, YouTube, Hacker News, 렌더링 페이지에서의 사용 방식까지 검토할 수 있습니다.

Format Conversion

즐겨찾기 0GitHub 13.2k

x-twitter-scraper

작성자 Xquik-dev

x-twitter-scraper를 사용해 X(Twitter) 데이터와 확인이 필요한 작업을 Xquik으로 조회하세요. 트윗 검색, 사용자 조회, 팔로워 추출, 미디어 다운로드, 모니터링, 웹훅, MCP, 쓰기 작업을 지원합니다. X 로그인 비밀정보가 아닌 API 키를 사용하는 웹 스크래핑형 조사에 가장 적합합니다.

Web Scraping

즐겨찾기 0GitHub 71

exa-search

작성자 K-Dense-AI

exa-search는 Exa로 구동되는 웹 리서치 스킬로, 최신 정보를 찾고 URL에서 콘텐츠를 추출하는 데 사용합니다. 검색, 출처 탐색, 기사 및 PDF 추출, 그리고 의미 기반 검색과 학술 스타일 필터링, 명확한 설치·사용 안내가 필요한 기술·과학 리서치에 적합합니다.

Web Research

즐겨찾기 0GitHub 0

browser-use

작성자 browser-use

browser-use는 페이지 열기, 상태 확인, 인덱스된 요소 클릭, 입력 필드 타이핑, 스크린샷 촬영, 그리고 지속형 브라우저 세션 재사용을 지원하는 브라우저 자동화 스킬입니다. browser-use CLI를 활용해 안정적인 폼 입력, 페이지 이동, 로그인 기반 워크플로에 적합합니다.

Browser Automation

즐겨찾기 0GitHub 84.9k

remote-browser

작성자 browser-use

remote-browser는 샌드박스 환경의 에이전트가 Browser Automation을 위해 헤드리스 브라우저를 제어할 수 있게 해주는 스킬입니다. 페이지 열기, 상태 확인, 인덱스 기반 요소 클릭, 입력 타이핑, 스크린샷 촬영은 물론 로컬 앱이나 CDP 기반 브라우저 세션 연결에도 사용할 수 있습니다.

Browser Automation

즐겨찾기 0GitHub 84.9k

firecrawl

작성자 firecrawl

공식 Firecrawl CLI를 설치하고 인증한 뒤 웹 스크래핑, 검색, 크롤링, 페이지 상호작용에 활용하는 firecrawl 스킬입니다. 설정 방법, `firecrawl --status` 확인, 로그인, `.firecrawl/`로의 안전한 파일 출력, 그리고 repo 근거 기반의 실용적인 사용 패턴까지 익힐 수 있습니다.

Web Scraping

즐겨찾기 0GitHub 234

firecrawl-search

작성자 firecrawl

firecrawl-search는 웹 리서치용 스킬로, 출처를 찾고 구조화된 검색을 수행하며, 필요하면 Firecrawl CLI로 전체 페이지 콘텐츠를 JSON으로 스크래핑할 수 있습니다.

Web Research

즐겨찾기 0GitHub 234

parallel-web

작성자 K-Dense-AI

parallel-web은 parallel-cli로 구동되는 웹 리서치 및 추출 스킬입니다. 웹 검색, URL 콘텐츠 추출, 출처 기반 데이터 보강, 그리고 학술·과학 자료를 우선하는 심층 리서치를 지원합니다. parallel-web 사용법, 웹 리서치, 인용, 증거 우선 워크플로에 활용하기 좋습니다.

Web Research

즐겨찾기 0GitHub 0

geomaster

작성자 K-Dense-AI

geomaster는 GIS, 원격탐사, 공간 분석, 지구 관측 워크플로를 위한 지리공간 과학 스킬입니다. 래스터·벡터 연산, 위성 이미지 처리, 공간 지표 산출, 워크플로 계획 같은 Data Analysis 작업에 활용할 수 있습니다. geomaster 가이드는 이 스킬을 더 적은 시행착오로 설치, 점검, 적용할 수 있도록 도와줍니다.

Data Analysis

즐겨찾기 0GitHub 0

asc-aso-audit

작성자 rudrankriyam

asc-aso-audit는 `./metadata`에 있는 정규 App Store 메타데이터를 대상으로 오프라인 ASO 감사를 실행한 뒤, Astro MCP로 키워드 공백을 찾아내는 데 도움을 줍니다. `asc metadata pull` 이후 asc-aso-audit skill을 사용하면 `subtitle`, `keywords`, `description`, `whatsNew`를 더 적은 추측으로 검토할 수 있습니다.

Data Analysis

즐겨찾기 0GitHub 0

ffuf-web-fuzzing

작성자 jthack

ffuf-web-fuzzing은 숨겨진 웹 콘텐츠를 찾고, 경로와 파라미터를 테스트하며, 원시 요청, 자동 보정, 결과 분석으로 인증된 대상을 퍼징하는 실용적인 스킬입니다. 침투 테스트와 Security Audit 워크플로우에서 반복해서 쓸 수 있는 ffuf-web-fuzzing 가이드가 필요한 보안 테스터에게 잘 맞습니다.

Security Audit

즐겨찾기 0GitHub 0

web-to-markdown

작성자 softaworks

web-to-markdown은 Format Conversion용 skill로, 로컬 `web2md` CLI를 사용해 실제 웹페이지를 깔끔한 Markdown으로 변환합니다. JS 렌더링 페이지, 상호작용이 필요한 흐름, 여러 URL의 일괄 변환까지 Chromium 계열 브라우저를 통해 처리할 수 있으며, 이름으로 명시적으로 호출될 때만 실행됩니다.

Format Conversion

즐겨찾기 0GitHub 1.3k

firecrawl-agent

작성자 firecrawl

firecrawl-agent는 복잡한 다중 페이지 웹사이트에서 구조화된 JSON을 추출할 때 유용합니다. 어떤 상황에서 적합한지, Firecrawl CLI agent를 실행하는 방법, schema 추가, 시작 URL 설정, 그리고 가격 정보·상품 목록·디렉터리형 데이터 추출 결과를 저장하는 방법까지 빠르게 파악할 수 있습니다.

Web Scraping

즐겨찾기 0GitHub 234

firecrawl-map

작성자 firecrawl

firecrawl-map은 사이트의 URL을 찾아 목록화할 때 유용한 스킬로, 더 깊은 scraping이나 crawling에 들어가기 전에 검색 필터링, 개수 제한, JSON 출력, sitemap 모드, 서브도메인 제어 같은 옵션을 활용할 수 있습니다.

Web Scraping

즐겨찾기 0GitHub 234

firecrawl-crawl

작성자 firecrawl

firecrawl-crawl은 path 필터, depth 제한, 페이지 수 상한, wait 모드, 작업 상태 확인을 통해 웹사이트나 docs 섹션의 콘텐츠를 대량으로 추출할 수 있게 도와주는 스킬입니다.

Web Scraping

즐겨찾기 0GitHub 234