data-scraper-agent

bởi affaan-m

data-scraper-agent giúp xây dựng một pipeline dữ liệu công khai có thể lặp lại cho web scraping, làm giàu dữ liệu và lưu trữ. Skill này được thiết kế để theo dõi theo lịch các job, giá cả, tin tức, repo, thể thao và danh sách bằng GitHub Actions, với đầu ra đẩy tới Notion, Sheets hoặc Supabase. Phù hợp nhất cho việc theo dõi liên tục, không phải trích xuất một lần.

Stars156.1k

Yêu thích0

Bình luận0

Đã thêm15 thg 4, 2026

Danh mụcWeb Scraping

Lệnh cài đặt

npx skills add affaan-m/everything-claude-code --skill data-scraper-agent

Điểm tuyển chọn

Skill này đạt 84/100, tức là một ứng viên khá mạnh cho danh mục: người dùng có một workflow lấy dữ liệu công khai có thể kích hoạt rõ ràng, đủ chi tiết vận hành để nhanh chóng hiểu stack và mục đích, cùng hướng dẫn thực tế thay vì chỉ là một prompt chung chung. Nó sẽ giúp agent xử lý các tác vụ giám sát dữ liệu công khai ít phải đoán hơn, nhưng người dùng vẫn nên kiểm tra mức độ phù hợp với site mục tiêu và thiết lập lưu trữ cụ thể của mình.

84/100

Điểm mạnh

Hướng dẫn kích hoạt rõ ràng, bao quát các yêu cầu giám sát dữ liệu công khai thường gặp như scraping, theo dõi và thu thập theo lịch.
Khung workflow rất rõ ràng với toàn bộ pipeline COLLECT → ENRICH → STORE, giúp agent thực thi ít mơ hồ hơn.
Nội dung phần thân đủ sâu, không có marker placeholder, kèm các tham chiếu stack cụ thể (Python, Gemini Flash, GitHub Actions, Notion/Sheets/Supabase).

Điểm cần lưu ý

Không có lệnh cài đặt hay file hỗ trợ, nên việc thiết lập và tích hợp có thể phải tự suy luận thủ công từ SKILL.md.
Skill được thiết kế khá rộng, vì vậy các trường hợp đặc thù như cơ chế chống bot theo từng site hoặc nguồn dữ liệu bất thường chưa được triển khai chi tiết trong đoạn trích.

Python Google Notion Supabase Playwright Github Actions

Tổng quan

Tổng quan về kỹ năng data-scraper-agent

data-scraper-agent làm gì

Kỹ năng data-scraper-agent giúp bạn xây dựng một pipeline tự động thu thập dữ liệu công khai, làm giàu dữ liệu bằng LLM, rồi lưu kết quả để theo dõi lâu dài. Đây là lựa chọn phù hợp nhất cho các tác vụ data-scraper-agent for Web Scraping mà mục tiêu không phải là cào dữ liệu một lần, mà là tạo một agent lặp lại được, liên tục kiểm tra các nguồn như bảng tin tuyển dụng, trang giá, luồng tin tức, repo GitHub, kết quả thể thao và các trang listing.

Ai nên cài đặt

Hãy cài đặt kỹ năng data-scraper-agent nếu bạn cần một cách chi phí thấp để giám sát các nguồn công khai theo lịch, mà không phải tự duy trì server của riêng mình. Kỹ năng này hợp với người dùng muốn có cảnh báo, bản ghi có cấu trúc hoặc theo dõi xu hướng hơn là chỉ cào dữ liệu ngẫu hứng. Nó kém hữu ích nếu bạn chỉ cần trích xuất thủ công một lần, hoặc nếu trang đích là riêng tư, bị khóa đăng nhập, hay được bảo vệ chống bot rất mạnh.

Vì sao nó khác biệt

Giá trị chính của data-scraper-agent skill nằm ở workflow chứ không chỉ ở bộ cào dữ liệu. Nó nhấn mạnh vòng lặp ba bước: thu thập, làm giàu, lưu trữ. Nhờ đó, bạn dễ biến các trang thô thành dữ liệu dùng được, phân loại kết quả và duy trì hệ thống chạy qua GitHub Actions hơn. Đổi lại, chất lượng phụ thuộc vào việc nguồn có công khai hay không và bạn có cung cấp schema cùng quy tắc lọc đủ rõ cho agent hay không.

Cách dùng kỹ năng data-scraper-agent

Cài đặt và kiểm tra kỹ năng

Dùng lệnh data-scraper-agent install trong workflow Claude Code của bạn:
npx skills add affaan-m/everything-claude-code --skill data-scraper-agent

Sau khi cài đặt, hãy đọc SKILL.md trước, rồi kiểm tra phần ngữ cảnh còn lại của skill trong repo nếu có. Dù đây là một skill khá độc lập, cách dùng tốt nhất cho data-scraper-agent usage vẫn là xác nhận trước đường chạy thực thi, định dạng đầu ra và mọi giả định trước khi bạn yêu cầu nó xây dựng cho một mục tiêu thật.

Biến yêu cầu mơ hồ thành brief có thể dùng được

Một prompt yếu như “scrape this site” không đủ cấu trúc. Một prompt mạnh phải nói rõ skill cần theo dõi nguồn nào, thu thập những trường nào, chạy với tần suất ra sao và kết quả sẽ được lưu ở đâu. Ví dụ: “Build a data-scraper-agent for public software engineering jobs on two boards, collect title/company/location/salary/posted date, dedupe by URL, enrich with role seniority, and store weekly results in Google Sheets.”

Cần nêu gì để cho ra kết quả tốt hơn

Skill này hoạt động tốt nhất khi bạn cung cấp nguồn công khai, schema mong muốn và logic ra quyết định. Hãy cho biết site là tĩnh hay render bằng JavaScript, dữ liệu cần mới đến mức nào, và thế nào được xem là bản ghi mới hoặc đã thay đổi. Nếu bỏ sót các chi tiết đó, agent có thể cào quá nhiều, bỏ lỡ các trường quan trọng, hoặc tạo ra các bản ghi khó so sánh theo thời gian.

Các file và khái niệm nên đọc trước

Bắt đầu với SKILL.md và tập trung vào các phần giải thích cách kích hoạt, kiến trúc ba lớp và stack miễn phí. Những phần này cho bạn biết khi nào skill thực sự phù hợp và cách nối pipeline lại với nhau. Nếu bạn đang điều chỉnh nó cho một repo mới, hãy tìm các ví dụ cụ thể về cấu hình lịch chạy, lựa chọn lưu trữ và quy tắc làm giàu trước khi sửa prompt.

Câu hỏi thường gặp về kỹ năng data-scraper-agent

Đây chỉ dành cho trang web thôi à?

Không. data-scraper-agent guide dùng được cho bất kỳ nguồn công khai nào mà agent truy cập được, bao gồm API, feed và cả các trang có thể cần render bằng trình duyệt. Với trang HTML đơn giản, cào bằng HTTP cơ bản thường là đủ. Với site động, bạn có thể cần cách tiếp cận dựa trên trình duyệt, và điều đó làm độ phức tạp thiết lập tăng lên.

Tôi có cần biết lập trình để dùng không?

Chỉ cần thoải mái với việc viết prompt ở mức cơ bản là hữu ích, nhưng đây vẫn là một skill thiên về xây dựng. Người mới vẫn có thể dùng nếu mô tả rõ nguồn và đầu ra mong muốn. Nếu bạn không thể xác định các trường dữ liệu, lịch chạy hoặc đích lưu trữ, kết quả rất có thể sẽ quá mơ hồ để triển khai ổn định.

Nó khác gì một prompt bình thường?

Một prompt thông thường thường chỉ tạo ra một bộ cào dữ liệu hoặc bản tóm tắt dùng một lần. Kỹ năng data-scraper-agent được thiết kế để tạo ra một hệ thống lặp lại được với thu thập, làm giàu, lưu trữ và chạy theo lịch. Vì vậy nó phù hợp hơn khi bạn cần duy trì dữ liệu theo thời gian, chứ không chỉ trích xuất một lần rồi thôi.

Khi nào không nên dùng?

Không nên dùng data-scraper-agent nếu nguồn yêu cầu đăng nhập, có giới hạn tốc độ nghiêm ngặt, chặn tự động hóa, hoặc dữ liệu quá nhạy cảm. Nó cũng là lựa chọn kém phù hợp khi bạn chỉ cần xuất nhanh thủ công, hoặc khi nguồn thay đổi liên tục đến mức một prompt đơn giản còn dễ hơn việc duy trì một agent.

Cách cải thiện kỹ năng data-scraper-agent

Định nghĩa nguồn chặt hơn

Kết quả mạnh nhất của data-scraper-agent đến từ việc nêu đúng URL, pattern và phạm vi cụ thể. Hãy nói rõ trang nào quan trọng, trang nào không, và agent nên bỏ qua những gì. Ví dụ: “monitor only the listing pages for remote backend roles in the US; exclude internships, sponsored posts, and duplicate reposts.” Brief kiểu này giảm false positive và giúp agent ổn định hơn.

Xác định rõ quy tắc làm giàu và lưu trữ

Nếu muốn đầu ra hữu ích, hãy nói cho skill biết LLM nên suy luận điều gì và phần nào phải giữ nguyên theo nguồn. Dùng enrichment cho phân loại, chấm ưu tiên hoặc tóm tắt ngắn, nhưng giữ nguyên các trường nguồn như giá, tiêu đề và URL. Đồng thời, hãy chốt sẵn định dạng đích: Notion cho workflow rà soát, Sheets cho phân tích nhẹ, Supabase cho truy vấn có cấu trúc.

Rà soát lần chạy đầu để tìm lỗi

Những vấn đề thường gặp nhất là bản ghi bị trùng, thiếu trường từ trang động và enrichment quá tay làm lệch ý nghĩa của nguồn. Sau lần chạy đầu tiên, hãy xem kỹ vài bản ghi và siết lại prompt quanh dedupe, selector và các trường nguồn được chấp nhận. Nếu đầu ra quá nhiễu, hãy giảm phạm vi trước khi thêm nhiều tự động hóa hơn.

Tinh chỉnh theo thứ bạn thực sự theo dõi

Hãy dùng phiên bản đầu tiên để chứng minh vòng lặp giám sát, rồi cải thiện data-scraper-agent dựa trên tín hiệu quan trọng nhất với bạn: độ mới, độ đầy đủ hay chất lượng phân loại. Nếu độ mới quan trọng, hãy tinh chỉnh lịch chạy. Nếu độ đầy đủ quan trọng, hãy điều chỉnh quy tắc trích xuất. Nếu ra quyết định là mục tiêu chính, hãy cải thiện prompt enrichment để agent giải thích vì sao mỗi mục được đưa vào.

Đánh giá & nhận xét

Chưa có đánh giá nào

Chia sẻ nhận xét của bạn

Đăng nhập để chấm điểm và để lại nhận xét cho skill này.

0/10000

Nhận xét mới nhất

Đang lưu...

Thêm skill trong danh mục này

huggingface-datasets

bởi huggingface

Dùng skill huggingface-datasets cho các quy trình với Hugging Face Dataset Viewer API để xác thực dataset, xử lý split, xem trước và phân trang các hàng, tìm kiếm văn bản, áp dụng bộ lọc, và lấy liên kết parquet hoặc thống kê. Đây là hướng dẫn thực dụng về huggingface-datasets cho việc khám phá dataset chỉ đọc.

Web Scraping

Yêu thích 0GitHub 10.4k

baoyu-url-to-markdown

bởi JimLiu

baoyu-url-to-markdown chuyển URL đang hoạt động thành Markdown bằng CLI baoyu-fetch đi kèm, sử dụng Chrome CDP, adapter theo từng trang và cơ chế dự phòng chung. Tìm hiểu yêu cầu Bun runtime, thiết lập EXTEND.md cho lần dùng đầu, và cách dùng với X, YouTube, Hacker News cùng các trang đã render.

Format Conversion

Yêu thích 0GitHub 13.2k

x-twitter-scraper

bởi Xquik-dev

Dùng x-twitter-scraper để lấy dữ liệu X (Twitter) và các tác vụ có xác nhận qua Xquik. Skill này hỗ trợ tìm kiếm tweet, tra cứu người dùng, trích xuất follower, tải media, monitors, webhooks, MCP và các tác vụ ghi. Phù hợp nhất cho nghiên cứu kiểu web scraping với API key, không phải với thông tin đăng nhập X.

Web Scraping

Yêu thích 0GitHub 71

exa-search

bởi K-Dense-AI

exa-search là một skill nghiên cứu web được hỗ trợ bởi Exa, dùng để tìm thông tin mới nhất và trích xuất nội dung từ các URL. Hãy dùng nó cho tìm kiếm, khám phá nguồn, trích xuất bài viết và PDF, cũng như nghiên cứu kỹ thuật hoặc khoa học với truy xuất ngữ nghĩa, lọc kiểu học thuật và hướng dẫn cài đặt, sử dụng rõ ràng.

Web Research

Yêu thích 0GitHub 0

browser-use

bởi browser-use

browser-use là skill tự động hóa trình duyệt dùng để mở trang, kiểm tra trạng thái, nhấp vào các phần tử theo chỉ mục, nhập liệu vào trường, chụp màn hình và tái sử dụng phiên trình duyệt liên tục. Phù hợp cho điền biểu mẫu ổn định, điều hướng và các quy trình cần đăng nhập bằng browser-use CLI.

Browser Automation

Yêu thích 0GitHub 84.9k

remote-browser

bởi browser-use

remote-browser giúp các agent chạy trong môi trường sandbox điều khiển trình duyệt headless cho Browser Automation. Dùng để mở trang, kiểm tra trạng thái, nhấp vào phần tử theo chỉ mục, nhập liệu, chụp ảnh màn hình và kết nối với ứng dụng cục bộ hoặc các phiên trình duyệt dùng CDP.

Browser Automation

Yêu thích 0GitHub 84.9k

firecrawl

bởi firecrawl

Kỹ năng firecrawl để cài đặt, xác thực và sử dụng Firecrawl CLI chính thức cho web scraping, tìm kiếm, crawling và tương tác với trang. Tìm hiểu cách thiết lập, chạy `firecrawl --status`, đăng nhập, ghi file an toàn vào `.firecrawl/` và các cách dùng thực tế dựa trên repo.

Web Scraping

Yêu thích 0GitHub 234

firecrawl-search

bởi firecrawl

firecrawl-search là skill nghiên cứu web giúp tìm nguồn, chạy tìm kiếm có cấu trúc và tùy chọn trích xuất toàn bộ nội dung trang dưới dạng JSON bằng Firecrawl CLI.

Web Research

Yêu thích 0GitHub 234

parallel-web

bởi K-Dense-AI

parallel-web là một skill nghiên cứu và trích xuất nội dung web được hỗ trợ bởi parallel-cli. Skill này giúp bạn tìm kiếm web, trích xuất nội dung từ URL, làm giàu dữ liệu từ các nguồn, và thực hiện nghiên cứu chuyên sâu với ưu tiên cho nguồn học thuật và khoa học. Phù hợp khi bạn cần dùng parallel-web, nghiên cứu web, trích dẫn, và các quy trình làm việc ưu tiên bằng chứng.

Web Research

Yêu thích 0GitHub 0

geomaster

bởi K-Dense-AI

geomaster là một skill khoa học địa không gian dành cho GIS, viễn thám, phân tích không gian và các quy trình quan trắc Trái Đất. Hãy dùng nó cho các tác vụ Phân tích Dữ liệu như thao tác raster và vector, xử lý ảnh vệ tinh, chỉ số không gian và lập kế hoạch quy trình làm việc. Hướng dẫn geomaster giúp bạn cài đặt, xem xét và áp dụng skill này với ít phải đoán mò hơn.

Data Analysis

Yêu thích 0GitHub 0

asc-aso-audit

bởi rudrankriyam

asc-aso-audit giúp bạn thực hiện audit ASO ngoại tuyến trên metadata App Store chuẩn trong `./metadata`, rồi phát hiện khoảng trống từ khóa với Astro MCP. Hãy dùng kỹ năng asc-aso-audit sau `asc metadata pull` để rà soát `subtitle`, `keywords`, `description` và `whatsNew` với ít phải đoán mò hơn.

Data Analysis

Yêu thích 0GitHub 0

ffuf-web-fuzzing

bởi jthack

ffuf-web-fuzzing là một kỹ năng thực dụng để phát hiện nội dung web ẩn, kiểm tra route và tham số, đồng thời fuzz các mục tiêu đã xác thực bằng raw request, tự hiệu chuẩn và phân tích kết quả. Kỹ năng này phù hợp với người kiểm thử bảo mật cần một hướng dẫn ffuf-web-fuzzing có thể lặp lại cho kiểm thử xâm nhập và quy trình Security Audit.

Security Audit

Yêu thích 0GitHub 0

web-to-markdown

bởi softaworks

web-to-markdown là skill Format Conversion dùng để chuyển các trang web đang hoạt động thành Markdown sạch thông qua CLI `web2md` cục bộ, sử dụng trình duyệt họ Chromium cho các trang render bằng JS, luồng tương tác và chuyển đổi hàng loạt URL. Skill chỉ chạy khi được gọi đích danh.

Format Conversion

Yêu thích 0GitHub 1.3k

firecrawl-agent

bởi firecrawl

firecrawl-agent giúp trích xuất JSON có cấu trúc từ các website phức tạp, nhiều trang. Tìm hiểu khi nào nên dùng, cách chạy tác nhân Firecrawl CLI, thêm schema, đặt URL bắt đầu và lưu đầu ra để trích xuất dữ liệu về giá, sản phẩm và các danh mục dạng directory.

Web Scraping

Yêu thích 0GitHub 234

firecrawl-map

bởi firecrawl

firecrawl-map giúp agent khám phá và liệt kê URL trên một website, với các tùy chọn lọc tìm kiếm, giới hạn, xuất JSON, chế độ sitemap và kiểm soát subdomain trước khi scrape hoặc crawl sâu hơn.

Web Scraping

Yêu thích 0GitHub 234

firecrawl-crawl

bởi firecrawl

firecrawl-crawl giúp agent trích xuất nội dung hàng loạt từ một website hoặc mục tài liệu, với bộ lọc đường dẫn, giới hạn độ sâu, giới hạn số trang, chế độ chờ và kiểm tra trạng thái job.

Web Scraping

Yêu thích 0GitHub 234