Scraping

Kham pha Agent Skill gan the Scraping va so sanh workflow lien quan trong danh muc.

15 skills

browser-use

bởi browser-use

browser-use là skill tự động hóa trình duyệt dùng để mở trang, kiểm tra trạng thái, nhấp vào các phần tử theo chỉ mục, nhập liệu vào trường, chụp màn hình và tái sử dụng phiên trình duyệt liên tục. Phù hợp cho điền biểu mẫu ổn định, điều hướng và các quy trình cần đăng nhập bằng browser-use CLI.

Browser Automation

Yêu thích 0GitHub 84.9k

baoyu-url-to-markdown

bởi JimLiu

baoyu-url-to-markdown chuyển URL đang hoạt động thành Markdown bằng CLI baoyu-fetch đi kèm, sử dụng Chrome CDP, adapter theo từng trang và cơ chế dự phòng chung. Tìm hiểu yêu cầu Bun runtime, thiết lập EXTEND.md cho lần dùng đầu, và cách dùng với X, YouTube, Hacker News cùng các trang đã render.

Format Conversion

Yêu thích 0GitHub 13.2k

multi-search-engine

bởi openclaw

multi-search-engine là skill nghiên cứu web với 17 công cụ tìm kiếm, toán tử nâng cao, bộ lọc thời gian, tùy chọn ưu tiên quyền riêng tư và truy vấn WolframAlpha. Skill này giúp agent tạo và chạy URL tìm kiếm hiệu quả hơn mà không cần API key.

Web Research

Yêu thích 0GitHub 3.8k

web-to-markdown

bởi softaworks

web-to-markdown là skill Format Conversion dùng để chuyển các trang web đang hoạt động thành Markdown sạch thông qua CLI `web2md` cục bộ, sử dụng trình duyệt họ Chromium cho các trang render bằng JS, luồng tương tác và chuyển đổi hàng loạt URL. Skill chỉ chạy khi được gọi đích danh.

Format Conversion

Yêu thích 0GitHub 1.3k

firecrawl-agent

bởi firecrawl

firecrawl-agent giúp trích xuất JSON có cấu trúc từ các website phức tạp, nhiều trang. Tìm hiểu khi nào nên dùng, cách chạy tác nhân Firecrawl CLI, thêm schema, đặt URL bắt đầu và lưu đầu ra để trích xuất dữ liệu về giá, sản phẩm và các danh mục dạng directory.

Web Scraping

Yêu thích 0GitHub 234

firecrawl-browser

bởi firecrawl

firecrawl-browser là một skill Firecrawl cho tự động hóa web tương tác. Skill này đã bị ngừng dùng như một lệnh trình duyệt độc lập và hiện hướng người dùng sang cách dùng firecrawl scrape kết hợp firecrawl interact cho thao tác nhấp, điền biểu mẫu, quy trình đăng nhập, phân trang và các trang nặng JavaScript.

Browser Automation

Yêu thích 0GitHub 234

firecrawl

bởi firecrawl

Kỹ năng firecrawl để cài đặt, xác thực và sử dụng Firecrawl CLI chính thức cho web scraping, tìm kiếm, crawling và tương tác với trang. Tìm hiểu cách thiết lập, chạy `firecrawl --status`, đăng nhập, ghi file an toàn vào `.firecrawl/` và các cách dùng thực tế dựa trên repo.

Web Scraping

Yêu thích 0GitHub 234

firecrawl-crawl

bởi firecrawl

firecrawl-crawl giúp agent trích xuất nội dung hàng loạt từ một website hoặc mục tài liệu, với bộ lọc đường dẫn, giới hạn độ sâu, giới hạn số trang, chế độ chờ và kiểm tra trạng thái job.

Web Scraping

Yêu thích 0GitHub 234

firecrawl-download

bởi firecrawl

firecrawl-download giúp bạn tải toàn bộ website hoặc một phần tài liệu thành các tệp cục bộ được sắp xếp gọn trong `.firecrawl/`. Skill này kết hợp lập bản đồ website và thu thập nội dung, hỗ trợ markdown, liên kết và ảnh chụp màn hình, phù hợp để lưu bản sao tài liệu ngoại tuyến, thu thập hàng loạt trang và triển khai các quy trình Web Scraping thực tế.

Web Scraping

Yêu thích 0GitHub 234

firecrawl-search

bởi firecrawl

firecrawl-search là skill nghiên cứu web giúp tìm nguồn, chạy tìm kiếm có cấu trúc và tùy chọn trích xuất toàn bộ nội dung trang dưới dạng JSON bằng Firecrawl CLI.

Web Research

Yêu thích 0GitHub 234

firecrawl-map

bởi firecrawl

firecrawl-map giúp agent khám phá và liệt kê URL trên một website, với các tùy chọn lọc tìm kiếm, giới hạn, xuất JSON, chế độ sitemap và kiểm soát subdomain trước khi scrape hoặc crawl sâu hơn.

Web Scraping

Yêu thích 0GitHub 234

firecrawl-scrape

bởi firecrawl

firecrawl-scrape giúp trích xuất nội dung sạch, thân thiện với LLM từ các URL đã biết, כולל cả trang được render bằng JS. Dùng kỹ năng này để scrape markdown, liên kết hoặc lấy câu trả lời theo từng trang bằng Firecrawl CLI hoặc `npx firecrawl`.

Web Scraping

Yêu thích 0GitHub 234

x-twitter-scraper

bởi Xquik-dev

Dùng x-twitter-scraper để lấy dữ liệu X (Twitter) và các tác vụ có xác nhận qua Xquik. Skill này hỗ trợ tìm kiếm tweet, tra cứu người dùng, trích xuất follower, tải media, monitors, webhooks, MCP và các tác vụ ghi. Phù hợp nhất cho nghiên cứu kiểu web scraping với API key, không phải với thông tin đăng nhập X.

Web Scraping

Yêu thích 0GitHub 71

tweetclaw

bởi Xquik-dev

tweetclaw là plugin OpenClaw có thể cài đặt cho các quy trình làm việc có cấu trúc với X/Twitter. Skill tweetclaw này bao quát cài đặt, thiết lập, ranh giới thông tin xác thực, yêu cầu phê duyệt rõ ràng cho các thao tác ghi và thao tác trả phí, xử lý dữ liệu riêng tư, điều khiển giám sát, và cách dùng tweetclaw thực tế để vận hành Social Media an toàn hơn.

Social Media

Yêu thích 0GitHub 37

bởi ReScienceLab

Kỹ năng reddit truy xuất bài đăng trên Reddit, chuỗi bình luận, siêu dữ liệu subreddit và hồ sơ người dùng thông qua API JSON công khai. Kỹ năng này được xây dựng cho việc nghiên cứu Reddit, quét subreddit và nghiên cứu web có dẫn nguồn khi bạn cần các bài viết thực thay vì một bản tóm tắt chung chung. Không cần API key.

Web Research

Yêu thích 0GitHub 0