firecrawl-crawl

bởi firecrawl

firecrawl-crawl giúp agent trích xuất nội dung hàng loạt từ một website hoặc mục tài liệu, với bộ lọc đường dẫn, giới hạn độ sâu, giới hạn số trang, chế độ chờ và kiểm tra trạng thái job.

Stars234

Yêu thích0

Bình luận0

Đã thêm31 thg 3, 2026

Danh mụcWeb Scraping

Lệnh cài đặt

npx skills add firecrawl/cli --skill firecrawl-crawl

Điểm tuyển chọn

Kỹ năng này đạt 74/100, nghĩa là đủ điều kiện được liệt kê và có khả năng hữu ích cho các agent cần trích xuất nội dung trên toàn site hoặc theo từng mục. Tuy vậy, người dùng trong directory nên kỳ vọng đây chủ yếu là hướng dẫn thiên về câu lệnh, hơn là một gói workflow được hỗ trợ sâu. Bằng chứng từ repository cho thấy có các tín hiệu kích hoạt rõ ràng và ví dụ CLI thực tế cho việc crawl với giới hạn, độ sâu và bộ lọc đường dẫn, giúp agent thực thi đáng tin cậy hơn so với một prompt chung chung.

74/100

Điểm mạnh

Khả năng kích hoạt mạnh: phần mô tả nêu rõ các ý định kiểu crawl như "get all the pages", "/docs" và "bulk extract".
Dùng được trong thực tế: `SKILL.md` có các ví dụ `firecrawl crawl` cụ thể cho việc crawl theo mục, crawl có giới hạn độ sâu và kiểm tra một job crawl đang chạy.
Mang lại giá trị tốt cho một workflow phổ biến của agent: tài liệu nêu các tham số quan trọng như `--include-paths`, `--limit`, `--max-depth`, `--wait` và `--progress` cho các tác vụ trích xuất hàng loạt.

Điểm cần lưu ý

Thiếu bối cảnh để quyết định cài đặt: không có lệnh cài đặt trong `SKILL.md`, cũng không có file hỗ trợ, tài liệu tham chiếu hay metadata giúp người dùng đánh giá yêu cầu thiết lập.
Độ sâu workflow có vẻ còn hạn chế: các tín hiệu cấu trúc cho thấy có ví dụ quy trình, nhưng ít bằng chứng về ràng buộc, cách xử lý tình huống biên hoặc hướng dẫn khắc phục sự cố.

Scraping Websites Website Cli Firecrawl Workflow

Tổng quan

Tổng quan về skill firecrawl-crawl

firecrawl-crawl làm được gì

firecrawl-crawl là skill dành cho trích xuất website hàng loạt, không phải scrape một trang đơn lẻ. Skill này giúp agent crawl toàn bộ một site hoặc một khu vực cụ thể, lần theo liên kết nội bộ và trả về nội dung từ nhiều trang trong một lần chạy. Nếu mục tiêu của bạn là “lấy toàn bộ trang tài liệu”, “trích xuất mọi thứ dưới /docs”, hoặc “crawl help center này đến độ sâu 3”, thì đây là công cụ phù hợp.

Ai nên dùng firecrawl-crawl

firecrawl-crawl phù hợp nhất với những ai cần thu thập nội dung từ nhiều trang để phục vụ phân tích tài liệu, migration, indexing, QA, nghiên cứu hoặc nạp dữ liệu vào hệ tri thức. Skill này đặc biệt hữu ích khi một prompt thông thường sẽ quá thủ công, vì nội dung mục tiêu trải dài trên hàng chục trang liên kết với nhau trong cùng một domain.

Nhu cầu thực tế mà skill này giải quyết

Người dùng chọn firecrawl-crawl khi họ cần độ phủ, chứ không chỉ độ chính xác trên một URL duy nhất. Công việc cốt lõi là xác định ranh giới crawl đủ rõ để công cụ lấy đúng các trang cần thiết mà không lãng phí thời gian vào các mục không liên quan, nội dung trùng lặp hoặc toàn bộ website công khai.

Điều gì khiến skill này khác biệt

Điểm khác biệt chính nằm ở các cơ chế kiểm soát crawl mang tính vận hành: lọc theo path, giới hạn độ sâu, giới hạn số trang, xử lý job bất đồng bộ và tùy chọn chờ/hiển thị tiến độ. Nhờ vậy, firecrawl-crawl for Web Scraping thực tế và có tính vận hành hơn hẳn một chỉ dẫn chung chung kiểu “scrape site này”.

Khi nào skill này đặc biệt phù hợp

Hãy dùng firecrawl-crawl skill khi:

bạn cần lấy nhiều trang từ cùng một website
các trang có thể được phát hiện qua liên kết nội bộ
bạn muốn giới hạn phạm vi bằng /docs, /blog hoặc các path tương tự
bạn cần một lệnh crawl có thể lặp lại, thay vì prompt thủ công từng lần

Khi nào không nên dùng

Đừng bắt đầu bằng firecrawl-crawl nếu bạn chỉ cần một trang, cần kiểm kê URL trước, hoặc còn chưa chắc phần nào mới là phần quan trọng. Trong những trường hợp đó, các bước đơn giản hơn như search, scrape hoặc map thường phù hợp hơn trước khi nâng lên crawl.

Cách dùng skill firecrawl-crawl

Bối cảnh cài đặt cho firecrawl-crawl

Skill này nằm trong bộ skill firecrawl/cli và được thiết kế để gọi qua Firecrawl CLI. Nếu môi trường của bạn hỗ trợ Skills, cách cài đặt thực tế thường là:

npx skills add https://github.com/firecrawl/cli --skill firecrawl-crawl

Bạn cũng cần Firecrawl CLI khả dụng để agent có thể chạy các lệnh như firecrawl crawl hoặc npx firecrawl crawl.

Hãy đọc file này trước

Bắt đầu với skills/firecrawl-crawl/SKILL.md. Với skill này, file đó chứa phần lớn giá trị vận hành: khi nào nên dùng, các lệnh khởi động nhanh và những tùy chọn quan trọng để kiểm soát phạm vi crawl cũng như hành vi khi chạy.

Các mẫu lệnh cốt lõi

Repository cho thấy ba mẫu firecrawl-crawl usage quan trọng:

# Crawl a docs section
firecrawl crawl "<url>" --include-paths /docs --limit 50 --wait -o .firecrawl/crawl.json

# Full crawl with depth limit
firecrawl crawl "<url>" --max-depth 3 --wait --progress -o .firecrawl/crawl.json

# Check status of a running crawl
firecrawl crawl <job-id>

Ba mẫu này bao phủ phần lớn workflow thực tế: crawl một khu vực có giới hạn, crawl rộng hơn với kiểm soát độ sâu, và theo dõi một job đã được gửi trước đó.

Những đầu vào quan trọng nhất

Để firecrawl-crawl cho kết quả tốt, hãy cung cấp:

một URL bắt đầu rõ ràng, sạch
phần của site mà bạn muốn lấy, nếu có
mức giới hạn số trang hợp lý với --limit
giới hạn độ sâu bằng --max-depth khi site có cấu trúc rộng
bạn có muốn chờ hoàn tất đồng bộ qua --wait hay không
đường dẫn output để tiện kiểm tra kết quả về sau

Yếu tố ảnh hưởng lớn nhất đến chất lượng là phạm vi crawl. Một ranh giới tốt thường quan trọng hơn mọi bước xử lý phía sau.

Biến một yêu cầu sơ sài thành prompt mạnh

Yêu cầu yếu:

“Crawl website này và lấy mọi thứ.”

Yêu cầu tốt hơn:

“Use firecrawl-crawl on https://example.com, restrict to /docs, cap at 50 pages, wait for completion, save output to .firecrawl/crawl.json, and summarize the main product setup pages after extraction.”

Vì sao cách này hiệu quả:

nêu rõ tên skill
có URL bắt đầu
giới hạn theo path
khống chế chi phí và thời gian chạy
nói rõ cần làm gì sau khi crawl xong

Workflow chạy lần đầu hiệu quả nhất

Một firecrawl-crawl guide thực tế cho lần dùng đầu:

Chọn URL bắt đầu hẹp nhất nhưng vẫn đủ hữu ích.
Thêm --include-paths nếu bạn chỉ cần một khu vực.
Đặt --limit ở mức thận trọng cho lượt chạy đầu tiên.
Thêm --max-depth nếu site có nhiều nhánh.
Dùng --wait cho các lần chạy đơn giản, hoặc gửi job rồi kiểm tra sau với các crawl lớn hơn.
Lưu output bằng -o để bạn xem lại chính xác những gì đã được thu thập.

Chuỗi bước này giúp giảm các lần crawl lãng phí và giúp bạn tinh chỉnh ranh giới dễ hơn sau kết quả đầu tiên.

Các cơ chế kiểm soát phạm vi giúp tránh crawl sai

Những tùy chọn quan trọng nhất được skill đưa ra gồm:

--include-paths để giữ crawl trong đúng khu vực
--limit <n> để tránh số lượng trang tăng ngoài kiểm soát
--max-depth <n> để ngăn việc đi quá sâu
--wait để chờ đến khi hoàn tất
--progress để xem tiến độ trong lúc chờ

Nếu bỏ qua các tùy chọn này, một lần crawl có thể bị nở phạm vi nhanh hơn bạn nghĩ, đặc biệt trên các site tài liệu có changelog, liên kết blog hoặc điều hướng chéo dày đặc.

Chế độ async so với wait

Dùng --wait khi bạn muốn mọi thứ diễn ra trong một bước workflow và lần crawl nên hoàn tất ngay lúc đó. Bỏ qua nó khi crawl có thể mất nhiều thời gian hơn và bạn muốn theo workflow dựa trên job. Repository có nêu rõ việc kiểm tra trạng thái sau bằng firecrawl crawl <job-id>, rất hữu ích cho các job lớn hoặc workflow agent tách riêng khâu gửi job và khâu phân tích.

Xử lý output và cách rà soát

Với các lần chạy nghiêm túc, luôn ghi output ra file, ví dụ:

firecrawl crawl "https://example.com" --include-paths /docs --limit 50 --wait -o .firecrawl/crawl.json

Cách này giúp việc rà soát sau chạy dễ hơn nhiều. Trước khi yêu cầu agent tóm tắt hoặc chuyển đổi kết quả, hãy kiểm tra xem output có đúng khu vực mong muốn và số lượng trang mong đợi hay không. Ranh giới crawl sai sẽ dẫn đến tổng hợp phía sau cũng sai.

Các mẫu sử dụng firecrawl-crawl hiệu quả

Những trường hợp dùng có giá trị cao gồm:

thu thập toàn bộ trang tài liệu để so sánh sản phẩm
lấy một khu vực help center để chuẩn bị cho tìm kiếm nội bộ hoặc RAG
trích xuất một cụm migration guide trước khi viết lại tài liệu
scrape hàng loạt một khu vực site đã biết rõ, nơi các liên kết đã nối sẵn các trang liên quan

Những mục tiêu này phù hợp hơn nhiều so với kiểu “tìm bất cứ thứ gì thú vị trên domain này”.

Câu hỏi thường gặp về skill firecrawl-crawl

firecrawl-crawl có thân thiện với người mới không?

Có, nếu bạn đã hiểu sự khác biệt giữa scrape một trang và crawl nhiều trang. Bề mặt lệnh không quá lớn, nhưng người mới nên bắt đầu với path hẹp và giới hạn số trang thấp để tránh những lần chạy quá lớn.

firecrawl-crawl khác gì so với một prompt thông thường?

Một prompt thuần có thể mô tả mục tiêu, nhưng firecrawl-crawl cho agent một lộ trình vận hành rõ ràng: gửi job crawl, kiểm soát độ sâu và giới hạn, có thể chờ hoàn tất, rồi lưu output có cấu trúc. Điều đó giảm bớt việc đoán mò và giúp các lần chạy lặp lại nhất quán hơn.

Khi nào nên dùng firecrawl-crawl thay vì scrape?

Hãy dùng firecrawl-crawl khi nội dung mục tiêu trải trên nhiều trang có liên kết với nhau. Dùng scrape khi bạn chỉ cần một URL đã biết. Nếu bạn vẫn chưa chắc trang nào mới quan trọng, thì map hoặc search có thể là bước đầu hợp lý hơn crawl.

firecrawl-crawl có phù hợp để trích xuất toàn bộ site không?

Đôi khi có, nhưng chỉ khi bạn chấp nhận phạm vi rộng và đã đặt giới hạn tốt. Với các site lớn, “toàn bộ site” thường là một lựa chọn không tốt cho lần chạy đầu tiên. Crawl một phân khu tài liệu thường thực tế hơn so với bắt đầu từ homepage với các kiểm soát lỏng.

firecrawl-crawl có hoạt động tốt với các khu vực tài liệu không?

Có. Các ví dụ trong repository nêu rất rõ trường hợp trích xuất theo khu vực như /docs, và đây cũng là một trong những use case mạnh nhất của firecrawl-crawl for Web Scraping.

Điều gì có thể làm kết quả kém đi?

Những yếu tố cản trở thường gặp là phạm vi mơ hồ, thiếu bộ lọc path, không có giới hạn số trang và bắt đầu từ sai URL. Đây không phải chi tiết nhỏ; chúng quyết định trực tiếp output có hữu ích hay chỉ toàn nhiễu.

Cách cải thiện skill firecrawl-crawl

Đặt ranh giới crawl chặt hơn cho firecrawl-crawl

Cách nhanh nhất để cải thiện output của firecrawl-crawl là xác định ranh giới crawl thật chính xác. Hãy nêu rõ URL bắt đầu, path của khu vực cần lấy, giới hạn số trang và độ sâu mong muốn. “Crawl phần docs dưới /docs sâu tối đa 2 cấp” tốt hơn rất nhiều so với “crawl site này”.

Bắt đầu nhỏ rồi mở rộng dần

Để triển khai tốt hơn và tránh lãng phí lượt chạy, hãy làm một lần crawl xác thực quy mô nhỏ trước:

--limit thấp
--include-paths hẹp
--max-depth ở mức vừa phải

Nếu output trông đúng, hãy tăng giới hạn sau. Cách này giúp bắt lỗi phạm vi trước khi chúng trở nên tốn kém hoặc chậm.

Viết prompt có cả tác vụ sau khi crawl

firecrawl-crawl install chỉ là một phần của thành công. Bạn cũng nên nói rõ agent cần làm gì sau khi trích xuất xong. Ví dụ:

“Use firecrawl-crawl to extract /docs up to 50 pages, save to .firecrawl/crawl.json, then identify onboarding, auth, and API reference pages.”

Điều này giúp tăng tính hữu dụng đầu-cuối vì phần crawl và phần phân tích đã được căn chỉnh ngay từ đầu.

Tránh các kiểu thất bại thường gặp

Các vấn đề phổ biến với firecrawl-crawl skill:

bắt đầu từ homepage trong khi thực ra chỉ cần một khu vực
bỏ qua --limit trên một site lớn
bỏ qua --max-depth khi điều hướng dày đặc
quên -o và mất đi điểm rà soát thuận tiện
yêu cầu “mọi thứ” mà không xác định giá trị kinh doanh cần lấy

Lặp lại dựa trên output thực tế, không dựa trên giả định

Sau lần chạy đầu tiên, hãy kiểm tra xem thực tế đã thu thập được gì. Nếu các trang không liên quan chiếm đa số, hãy siết --include-paths hoặc giảm độ sâu. Nếu thiếu các trang quan trọng, hãy tăng độ sâu hoặc bắt đầu từ một điểm vào phù hợp hơn. Một firecrawl-crawl guide tốt luôn mang tính lặp: crawl, kiểm tra, tinh chỉnh, chạy lại.

Giữ firecrawl-crawl đúng vai trò của nó

Hãy dùng firecrawl-crawl cho khâu thu thập, rồi chuyển sang các bước tóm tắt, phân loại, so sánh hoặc indexing. Cố ép bước crawl giải quyết luôn mọi tác vụ phía sau thường làm giảm độ rõ ràng. Skill này phát huy tốt nhất khi nó thu thập đúng corpus ngay từ đầu.

Đánh giá & nhận xét

Chưa có đánh giá nào

Chia sẻ nhận xét của bạn

Đăng nhập để chấm điểm và để lại nhận xét cho skill này.

0/10000

Nhận xét mới nhất

Đang lưu...

Thêm skill trong danh mục này

huggingface-datasets

bởi huggingface

Dùng skill huggingface-datasets cho các quy trình với Hugging Face Dataset Viewer API để xác thực dataset, xử lý split, xem trước và phân trang các hàng, tìm kiếm văn bản, áp dụng bộ lọc, và lấy liên kết parquet hoặc thống kê. Đây là hướng dẫn thực dụng về huggingface-datasets cho việc khám phá dataset chỉ đọc.

Web Scraping

Yêu thích 0GitHub 10.4k

data-scraper-agent

bởi affaan-m

data-scraper-agent giúp xây dựng một pipeline dữ liệu công khai có thể lặp lại cho web scraping, làm giàu dữ liệu và lưu trữ. Skill này được thiết kế để theo dõi theo lịch các job, giá cả, tin tức, repo, thể thao và danh sách bằng GitHub Actions, với đầu ra đẩy tới Notion, Sheets hoặc Supabase. Phù hợp nhất cho việc theo dõi liên tục, không phải trích xuất một lần.

Web Scraping

Yêu thích 0GitHub 156.1k

baoyu-url-to-markdown

bởi JimLiu

baoyu-url-to-markdown chuyển URL đang hoạt động thành Markdown bằng CLI baoyu-fetch đi kèm, sử dụng Chrome CDP, adapter theo từng trang và cơ chế dự phòng chung. Tìm hiểu yêu cầu Bun runtime, thiết lập EXTEND.md cho lần dùng đầu, và cách dùng với X, YouTube, Hacker News cùng các trang đã render.

Format Conversion

Yêu thích 0GitHub 13.2k

x-twitter-scraper

bởi Xquik-dev

Dùng x-twitter-scraper để lấy dữ liệu X (Twitter) và các tác vụ có xác nhận qua Xquik. Skill này hỗ trợ tìm kiếm tweet, tra cứu người dùng, trích xuất follower, tải media, monitors, webhooks, MCP và các tác vụ ghi. Phù hợp nhất cho nghiên cứu kiểu web scraping với API key, không phải với thông tin đăng nhập X.

Web Scraping

Yêu thích 0GitHub 71

exa-search

bởi K-Dense-AI

exa-search là một skill nghiên cứu web được hỗ trợ bởi Exa, dùng để tìm thông tin mới nhất và trích xuất nội dung từ các URL. Hãy dùng nó cho tìm kiếm, khám phá nguồn, trích xuất bài viết và PDF, cũng như nghiên cứu kỹ thuật hoặc khoa học với truy xuất ngữ nghĩa, lọc kiểu học thuật và hướng dẫn cài đặt, sử dụng rõ ràng.

Web Research

Yêu thích 0GitHub 0

browser-use

bởi browser-use

browser-use là skill tự động hóa trình duyệt dùng để mở trang, kiểm tra trạng thái, nhấp vào các phần tử theo chỉ mục, nhập liệu vào trường, chụp màn hình và tái sử dụng phiên trình duyệt liên tục. Phù hợp cho điền biểu mẫu ổn định, điều hướng và các quy trình cần đăng nhập bằng browser-use CLI.

Browser Automation

Yêu thích 0GitHub 84.9k

remote-browser

bởi browser-use

remote-browser giúp các agent chạy trong môi trường sandbox điều khiển trình duyệt headless cho Browser Automation. Dùng để mở trang, kiểm tra trạng thái, nhấp vào phần tử theo chỉ mục, nhập liệu, chụp ảnh màn hình và kết nối với ứng dụng cục bộ hoặc các phiên trình duyệt dùng CDP.

Browser Automation

Yêu thích 0GitHub 84.9k

firecrawl

bởi firecrawl

Kỹ năng firecrawl để cài đặt, xác thực và sử dụng Firecrawl CLI chính thức cho web scraping, tìm kiếm, crawling và tương tác với trang. Tìm hiểu cách thiết lập, chạy `firecrawl --status`, đăng nhập, ghi file an toàn vào `.firecrawl/` và các cách dùng thực tế dựa trên repo.

Web Scraping

Yêu thích 0GitHub 234

firecrawl-search

bởi firecrawl

firecrawl-search là skill nghiên cứu web giúp tìm nguồn, chạy tìm kiếm có cấu trúc và tùy chọn trích xuất toàn bộ nội dung trang dưới dạng JSON bằng Firecrawl CLI.

Web Research

Yêu thích 0GitHub 234

parallel-web

bởi K-Dense-AI

parallel-web là một skill nghiên cứu và trích xuất nội dung web được hỗ trợ bởi parallel-cli. Skill này giúp bạn tìm kiếm web, trích xuất nội dung từ URL, làm giàu dữ liệu từ các nguồn, và thực hiện nghiên cứu chuyên sâu với ưu tiên cho nguồn học thuật và khoa học. Phù hợp khi bạn cần dùng parallel-web, nghiên cứu web, trích dẫn, và các quy trình làm việc ưu tiên bằng chứng.

Web Research

Yêu thích 0GitHub 0

geomaster

bởi K-Dense-AI

geomaster là một skill khoa học địa không gian dành cho GIS, viễn thám, phân tích không gian và các quy trình quan trắc Trái Đất. Hãy dùng nó cho các tác vụ Phân tích Dữ liệu như thao tác raster và vector, xử lý ảnh vệ tinh, chỉ số không gian và lập kế hoạch quy trình làm việc. Hướng dẫn geomaster giúp bạn cài đặt, xem xét và áp dụng skill này với ít phải đoán mò hơn.

Data Analysis

Yêu thích 0GitHub 0

asc-aso-audit

bởi rudrankriyam

asc-aso-audit giúp bạn thực hiện audit ASO ngoại tuyến trên metadata App Store chuẩn trong `./metadata`, rồi phát hiện khoảng trống từ khóa với Astro MCP. Hãy dùng kỹ năng asc-aso-audit sau `asc metadata pull` để rà soát `subtitle`, `keywords`, `description` và `whatsNew` với ít phải đoán mò hơn.

Data Analysis

Yêu thích 0GitHub 0

ffuf-web-fuzzing

bởi jthack

ffuf-web-fuzzing là một kỹ năng thực dụng để phát hiện nội dung web ẩn, kiểm tra route và tham số, đồng thời fuzz các mục tiêu đã xác thực bằng raw request, tự hiệu chuẩn và phân tích kết quả. Kỹ năng này phù hợp với người kiểm thử bảo mật cần một hướng dẫn ffuf-web-fuzzing có thể lặp lại cho kiểm thử xâm nhập và quy trình Security Audit.

Security Audit

Yêu thích 0GitHub 0

web-to-markdown

bởi softaworks

web-to-markdown là skill Format Conversion dùng để chuyển các trang web đang hoạt động thành Markdown sạch thông qua CLI `web2md` cục bộ, sử dụng trình duyệt họ Chromium cho các trang render bằng JS, luồng tương tác và chuyển đổi hàng loạt URL. Skill chỉ chạy khi được gọi đích danh.

Format Conversion

Yêu thích 0GitHub 1.3k

firecrawl-agent

bởi firecrawl

firecrawl-agent giúp trích xuất JSON có cấu trúc từ các website phức tạp, nhiều trang. Tìm hiểu khi nào nên dùng, cách chạy tác nhân Firecrawl CLI, thêm schema, đặt URL bắt đầu và lưu đầu ra để trích xuất dữ liệu về giá, sản phẩm và các danh mục dạng directory.

Web Scraping

Yêu thích 0GitHub 234

firecrawl-map

bởi firecrawl

firecrawl-map giúp agent khám phá và liệt kê URL trên một website, với các tùy chọn lọc tìm kiếm, giới hạn, xuất JSON, chế độ sitemap và kiểm soát subdomain trước khi scrape hoặc crawl sâu hơn.

Web Scraping

Yêu thích 0GitHub 234