firecrawl-download

bởi firecrawl

firecrawl-download giúp bạn tải toàn bộ website hoặc một phần tài liệu thành các tệp cục bộ được sắp xếp gọn trong `.firecrawl/`. Skill này kết hợp lập bản đồ website và thu thập nội dung, hỗ trợ markdown, liên kết và ảnh chụp màn hình, phù hợp để lưu bản sao tài liệu ngoại tuyến, thu thập hàng loạt trang và triển khai các quy trình Web Scraping thực tế.

Stars234

Yêu thích0

Bình luận0

Đã thêm31 thg 3, 2026

Danh mụcWeb Scraping

Lệnh cài đặt

npx skills add firecrawl/cli --skill firecrawl-download

Điểm tuyển chọn

Skill này đạt 73/100, tức đủ điều kiện xuất hiện trong danh mục: tình huống kích hoạt khá rõ và quy trình làm việc là có thật, nhưng để áp dụng thực tế vẫn cần tự suy đoán ở một mức nhất định vì repository chỉ có một `SKILL.md` với chi tiết vận hành còn hạn chế ngoài các ví dụ lệnh.

73/100

Điểm mạnh

Khả năng kích hoạt tốt: phần mô tả nêu rõ các nhu cầu cụ thể như "download the site", "offline copy" và "download all the docs".
Mang lại đòn bẩy thực tế cho agent: skill gộp lập bản đồ website và scraping trong một lệnh, đồng thời ghi rõ các tùy chọn hữu ích như format, screenshot, include-paths và giới hạn.
Ví dụ khá dễ áp dụng: `SKILL.md` có các lệnh bắt đầu nhanh và nêu rõ việc dùng `-y` để bỏ qua các bước xác nhận.

Điểm cần lưu ý

Chiều sâu vận hành còn hạn chế: không có tệp hỗ trợ, tài liệu tham chiếu, hướng dẫn cài đặt hay quy tắc ra quyết định để xử lý lỗi, giới hạn quy mô hoặc quản lý đầu ra.
Skill này được đánh dấu rõ là experimental, nên có thêm rủi ro về độ tin cậy và độ ổn định nếu dùng trong các quy trình agent mang tính production.

Firecrawl Cli Scraping Websites Offline Markdown

Tổng quan

Tổng quan về skill firecrawl-download

firecrawl-download làm được gì

Skill firecrawl-download phục vụ một mục tiêu rất cụ thể: tải xuống toàn bộ website hoặc một phần tài liệu thành các tệp cục bộ có tổ chức rõ ràng. Nó kết hợp bước khám phá cấu trúc site với bước scrape từng trang, rồi lưu mỗi trang vào .firecrawl/ dưới dạng markdown, ảnh chụp màn hình hoặc nhiều định dạng đầu ra cho từng trang.

Skill này đặc biệt hữu ích nếu bạn cần một bản sao tài liệu để dùng offline, một kho nội dung nghiên cứu trên máy cục bộ, hoặc một cách lặp lại được để lưu hàng loạt trang phục vụ phân tích sau đó. So với một prompt scraping chung chung, firecrawl-download cho bạn lộ trình rõ ràng hơn để thu toàn bộ site, thay vì phải tự thiết kế quy trình crawl từ đầu.

Ai nên dùng skill firecrawl-download này

Những nhóm phù hợp nhất gồm:

lập trình viên muốn lưu tài liệu về máy
nhà nghiên cứu cần thu thập nội dung website để rà soát
đội ngũ muốn xây dựng kho lưu trữ nội dung gọn nhẹ
agent cần một quy trình “tải site này xuống” thực tế, ít phải đoán cách làm

Nếu mục tiêu thực sự của bạn là “lưu site này thành các tệp cục bộ dùng được”, thì skill này phù hợp hơn một prompt web scraping rộng, thiếu định hướng.

Người dùng thường quan tâm gì trước khi cài

Phần lớn quyết định cài firecrawl-download xoay quanh bốn câu hỏi:

Nó có xử lý được cả một site hoặc một khu vực docs, chứ không chỉ một trang đơn lẻ không?
Nó có lưu đầu ra theo cấu trúc cục bộ dễ dùng không?
Nó có lọc được phạm vi để tránh tải nhầm trang không mong muốn không?
Nó có hỗ trợ nhiều loại đầu ra như markdown và screenshot không?

Dựa trên mã nguồn của skill, cả bốn câu trả lời đều là có. Điểm cần lưu ý chính là nó được gắn nhãn experimental, vì vậy nên xem đây là một workflow tiện dụng hơn là một hệ thống lưu trữ đã được harden rất kỹ.

Điểm khác biệt chính cho workflow Web Scraping

Điểm làm firecrawl-download for Web Scraping khác biệt không chỉ nằm ở khả năng scrape thuần túy. Giá trị của nó là câu lệnh đã gói sẵn:

map site trước
scrape sau
xuất file cho từng trang
thư mục cục bộ lồng nhau
tái sử dụng các tùy chọn scrape ngay trong quá trình download

Vì vậy, với bài toán “tải docs về máy”, nó đáng cài hơn một lệnh scrape đơn thuần chỉ trả lại nội dung trang.

Cách dùng skill firecrawl-download

Bối cảnh cài đặt của firecrawl-download

Dấu vết trong repository cho thấy skill này nằm trong firecrawl/cli tại skills/firecrawl-download. Một cách cài thực tế là:

npx skills add https://github.com/firecrawl/cli --skill firecrawl-download

Sau khi thêm xong, hãy kiểm tra:

skills/firecrawl-download/SKILL.md

Skill này có rất ít tệp hỗ trợ, nên SKILL.md là nguồn thông tin chính xác nhất.

Hãy đọc tệp này trước tiên

Bắt đầu với:

skills/firecrawl-download/SKILL.md

Tệp này cho bạn thấy phạm vi thực tế rất nhanh: firecrawl download là một lệnh tiện ích mang tính thử nghiệm, kết hợp map và scrape, lưu kết quả vào .firecrawl/, đồng thời hỗ trợ các tùy chọn scrape ngay trong lúc download.

Cách dùng firecrawl-download cơ bản

Cách nhanh nhất để dùng firecrawl-download skill là trỏ nó vào phần gốc của docs hoặc nội dung:

firecrawl download https://docs.example.com

Với các lần chạy không cần can thiệp, skill này khuyến nghị rõ ràng:

firecrawl download https://docs.example.com -y

Hãy dùng -y bất cứ khi nào bạn muốn bỏ qua bước xác nhận trong workflow dùng agent hoặc chạy bằng script.

Những đầu vào cần có để skill hoạt động tốt

Một yêu cầu kiểu “download site này” thường quá mơ hồ. Đầu vào tốt hơn nên bao gồm:

URL gốc
ranh giới phần nội dung bạn thực sự muốn lấy
số trang tối đa
các định dạng đầu ra cần dùng
có cần screenshot hay không
những gì cần loại trừ

Một yêu cầu rõ hơn sẽ như sau:

“Use firecrawl-download to save https://docs.example.com locally as markdown with screenshots, include only /guides and /api, limit to 50 pages, and skip translated pages.”

Cách mô tả này cho skill đủ thông tin để map đúng phạm vi trước khi scrape.

Những lệnh quan trọng nhất trong thực tế

Mã nguồn cho thấy một vài mẫu dùng có giá trị cao:

# With screenshots
firecrawl download https://docs.example.com --screenshot --limit 20 -y

# Multiple formats per page
firecrawl download https://docs.example.com --format markdown,links --screenshot --limit 20 -y

# Filter by section
firecrawl download https://docs.example.com --include-paths "/features,/sdks"

Các ví dụ này quan trọng vì chúng phản ánh đúng những điểm hay cản trở việc triển khai: nội dung quá nhiều, lấy nhầm khu vực, hoặc đầu ra không đủ chi tiết để dùng tiếp.

Những gì sẽ được ghi ra máy cục bộ

Skill này lưu đầu ra vào các thư mục lồng nhau bên dưới .firecrawl/. Khi bạn yêu cầu nhiều định dạng, mỗi trang có thể sinh ra các tệp riêng như:

index.md
links.txt
screenshot.png

Cách tổ chức file cục bộ này là một trong những lý do chính để chọn firecrawl-download install thay vì dùng một prompt scrape một lần rồi thôi.

Cách biến một mục tiêu mơ hồ thành prompt dùng được

Nếu ý nghĩ ban đầu của bạn là:

“download this docs site”

hãy viết lại thành:

URL mục tiêu
bộ lọc khu vực mong muốn
định dạng tệp
có/không screenshot
giới hạn số trang
các mục loại trừ nếu có

Ví dụ prompt cho agent:

“Use the firecrawl-download skill to download https://docs.example.com for offline use. Save as markdown plus screenshots, include only /getting-started,/api, cap at 30 pages, and use -y so the run is non-interactive.”

Cách này hiệu quả hơn vì loại bỏ sự mơ hồ về phạm vi và đầu ra.

Quy trình gợi ý để có kết quả ổn định

Một workflow firecrawl-download guide thực tế là:

Bắt đầu từ phần docs nhỏ nhất nhưng vẫn hữu ích.
Thêm --include-paths trước khi tăng số trang.
Chạy lượt đầu với --limit.
Kiểm tra cấu trúc đầu ra trong .firecrawl/.
Chỉ thêm --screenshot hoặc nhiều định dạng nếu bạn thực sự cần.
Mở rộng phạm vi crawl sau khi mẫu đầu tiên đã cho kết quả đúng.

Cách này giúp tránh lỗi rất thường gặp: tải quá nhiều, quá sớm.

Khi nào nên dùng firecrawl-download thay vì scrape thông thường

Hãy dùng firecrawl-download usage khi bạn cần:

nhiều trang, không phải một trang
file cục bộ, không chỉ văn bản trả về
một bản sao offline có thể duyệt được
một snapshot docs nhanh để rà soát hoặc tham chiếu

Hãy dùng scrape thông thường khi bạn chỉ cần một trang hoặc cần logic trích xuất tùy biến sâu. Giá trị của firecrawl-download nằm ở tốc độ workflow khi cần lưu ở quy mô toàn site.

Những giới hạn và đánh đổi cần biết sớm

Các giới hạn thực tế lớn nhất thể hiện trong nguồn của skill là:

nó được đánh dấu là experimental
nó được tối ưu như một lệnh tiện ích
chất lượng đầu ra vẫn phụ thuộc vào cấu trúc site đích và bộ lọc phạm vi của bạn
các lần chạy quá rộng, không giới hạn có thể tạo ra kết quả thừa hoặc nhiễu

Vì vậy, skill này rất hợp để tải docs có kiểm soát, nhưng không đảm bảo độ đầy đủ hoàn hảo như một hệ thống lưu trữ chuyên dụng.

Câu hỏi thường gặp về skill firecrawl-download

firecrawl-download có phù hợp cho người mới bắt đầu không?

Có, đặc biệt nếu việc bạn cần chỉ đơn giản là “lưu docs về máy.” Các ví dụ lệnh khá dễ làm theo, và trình hướng dẫn tương tác cũng hỗ trợ tốt. Tuy vậy, người mới vẫn nên bắt đầu với --limit nhỏ và --include-paths hẹp để tránh tải xuống quá lớn.

Khác biệt thực sự so với một prompt AI scraping chung là gì?

Một prompt chung có thể mô tả bài toán, nhưng firecrawl-download đã mã hóa sẵn mẫu workflow hữu ích: map site, scrape từng trang, rồi lưu file vào thư mục. Điều đó giúp giảm công sức thiết lập ban đầu và làm cho quy trình dễ lặp lại hơn.

firecrawl-download chỉ dành cho site tài liệu thôi sao?

Không, nhưng docs là trường hợp phù hợp rõ nhất. Nó hoạt động tốt nhất trên những site có cấu trúc trang và đường dẫn tương đối dễ dự đoán. Với các site quá động hoặc khó khoanh vùng, bạn có thể phải lọc kỹ hơn hoặc chọn hướng tiếp cận khác.

firecrawl-download có lưu được nhiều hơn markdown không?

Có. Nguồn của skill cho thấy rõ việc hỗ trợ nhiều định dạng trên mỗi trang và screenshot tùy chọn. Điều này quan trọng nếu bạn cần cả phần văn bản dễ đọc lẫn phần chụp trực quan để đối chiếu.

Khi nào không nên dùng firecrawl-download?

Hãy bỏ qua firecrawl-download nếu bạn chỉ cần:

một trang
một schema trích xuất tùy chỉnh
hậu xử lý sâu ngay trong lúc scrape
một pipeline lưu trữ thật sự vững chắc với các bảo đảm nghiêm ngặt hơn

Trong các trường hợp đó, một lệnh scrape hẹp hơn hoặc một workflow tùy biến hơn có thể phù hợp hơn.

Cách cải thiện skill firecrawl-download

Trước hết hãy thu hẹp phạm vi cho firecrawl-download

Cách dễ nhất để cải thiện kết quả của firecrawl-download là giảm bớt sự mơ hồ. Hãy dùng:

--include-paths
--limit
một URL gốc docs rõ ràng

Một lần chạy 20 trang có khoanh vùng thường hữu ích hơn nhiều so với một lần chạy toàn site không kiểm soát.

Chọn đầu ra theo đúng công việc phía sau

Đừng mặc định yêu cầu mọi định dạng. Hãy chọn định dạng khớp với bước tiếp theo:

markdown cho đọc, tìm kiếm và đưa vào LLM
links khi cấu trúc liên kết quan trọng
--screenshot khi bố cục hoặc bằng chứng giao diện quan trọng

Cách này giúp lần chạy nhẹ hơn và đầu ra cũng dễ rà soát hơn.

Chạy thử mẫu trước khi tải toàn bộ

Một mẫu lặp hiệu quả là:

firecrawl download https://docs.example.com --include-paths "/api" --limit 10 -y

Hãy xem lại các tệp đã lưu, rồi mới mở rộng sang thêm section hoặc tăng giới hạn. Cách này giúp phát hiện sớm những quyết định khoanh vùng chưa đúng.

Các lỗi thường gặp và cách tránh

Những vấn đề điển hình gồm:

tải nhầm section
thu quá nhiều trang
quên -y trong các lần chạy tự động
yêu cầu các đầu ra mà thực ra bạn không cần

Cách khắc phục rất đơn giản: chỉ rõ phạm vi, giới hạn lần chạy đầu, và chọn đầu ra có chủ đích.

Cải thiện chất lượng prompt khi dùng qua agent

Nếu agent là bên gọi skill, hãy yêu cầu rõ:

URL bắt đầu chính xác
mục đích của đầu ra cục bộ
các section cần lấy
các section cần tránh
định dạng đầu ra
giới hạn quy mô chạy

Prompt tốt:

“Use firecrawl-download to create an offline markdown copy of https://docs.example.com, only for /guides and /reference, with screenshots for each page, limited to 40 pages, and save non-interactively.”

Cách viết này cho chất lượng thực thi tốt hơn nhiều so với “download the docs.”

Cách lặp tiếp sau lần đầu ra đầu tiên

Sau lượt chạy đầu tiên, hãy đánh giá:

.firecrawl/ có chứa đúng những trang bạn mong đợi không?
Có quá nhiều trang không liên quan không?
Bạn có thật sự cần screenshot hay chỉ cần văn bản?
Lần chạy tiếp theo nên mở rộng hay thu hẹp include paths?

Cách tốt nhất để cải thiện firecrawl-download skill không phải là chạy lại một cách mù quáng, mà là điều chỉnh phạm vi và lựa chọn đầu ra dựa trên đúng những gì lô kết quả đầu tiên đã tạo ra.

Đánh giá & nhận xét

Chưa có đánh giá nào

Chia sẻ nhận xét của bạn

Đăng nhập để chấm điểm và để lại nhận xét cho skill này.

0/10000

Nhận xét mới nhất

Đang lưu...

Thêm skill trong danh mục này

huggingface-datasets

bởi huggingface

Dùng skill huggingface-datasets cho các quy trình với Hugging Face Dataset Viewer API để xác thực dataset, xử lý split, xem trước và phân trang các hàng, tìm kiếm văn bản, áp dụng bộ lọc, và lấy liên kết parquet hoặc thống kê. Đây là hướng dẫn thực dụng về huggingface-datasets cho việc khám phá dataset chỉ đọc.

Web Scraping

Yêu thích 0GitHub 10.4k

data-scraper-agent

bởi affaan-m

data-scraper-agent giúp xây dựng một pipeline dữ liệu công khai có thể lặp lại cho web scraping, làm giàu dữ liệu và lưu trữ. Skill này được thiết kế để theo dõi theo lịch các job, giá cả, tin tức, repo, thể thao và danh sách bằng GitHub Actions, với đầu ra đẩy tới Notion, Sheets hoặc Supabase. Phù hợp nhất cho việc theo dõi liên tục, không phải trích xuất một lần.

Web Scraping

Yêu thích 0GitHub 156.1k

baoyu-url-to-markdown

bởi JimLiu

baoyu-url-to-markdown chuyển URL đang hoạt động thành Markdown bằng CLI baoyu-fetch đi kèm, sử dụng Chrome CDP, adapter theo từng trang và cơ chế dự phòng chung. Tìm hiểu yêu cầu Bun runtime, thiết lập EXTEND.md cho lần dùng đầu, và cách dùng với X, YouTube, Hacker News cùng các trang đã render.

Format Conversion

Yêu thích 0GitHub 13.2k

x-twitter-scraper

bởi Xquik-dev

Dùng x-twitter-scraper để lấy dữ liệu X (Twitter) và các tác vụ có xác nhận qua Xquik. Skill này hỗ trợ tìm kiếm tweet, tra cứu người dùng, trích xuất follower, tải media, monitors, webhooks, MCP và các tác vụ ghi. Phù hợp nhất cho nghiên cứu kiểu web scraping với API key, không phải với thông tin đăng nhập X.

Web Scraping

Yêu thích 0GitHub 71

exa-search

bởi K-Dense-AI

exa-search là một skill nghiên cứu web được hỗ trợ bởi Exa, dùng để tìm thông tin mới nhất và trích xuất nội dung từ các URL. Hãy dùng nó cho tìm kiếm, khám phá nguồn, trích xuất bài viết và PDF, cũng như nghiên cứu kỹ thuật hoặc khoa học với truy xuất ngữ nghĩa, lọc kiểu học thuật và hướng dẫn cài đặt, sử dụng rõ ràng.

Web Research

Yêu thích 0GitHub 0

browser-use

bởi browser-use

browser-use là skill tự động hóa trình duyệt dùng để mở trang, kiểm tra trạng thái, nhấp vào các phần tử theo chỉ mục, nhập liệu vào trường, chụp màn hình và tái sử dụng phiên trình duyệt liên tục. Phù hợp cho điền biểu mẫu ổn định, điều hướng và các quy trình cần đăng nhập bằng browser-use CLI.

Browser Automation

Yêu thích 0GitHub 84.9k

remote-browser

bởi browser-use

remote-browser giúp các agent chạy trong môi trường sandbox điều khiển trình duyệt headless cho Browser Automation. Dùng để mở trang, kiểm tra trạng thái, nhấp vào phần tử theo chỉ mục, nhập liệu, chụp ảnh màn hình và kết nối với ứng dụng cục bộ hoặc các phiên trình duyệt dùng CDP.

Browser Automation

Yêu thích 0GitHub 84.9k

firecrawl

bởi firecrawl

Kỹ năng firecrawl để cài đặt, xác thực và sử dụng Firecrawl CLI chính thức cho web scraping, tìm kiếm, crawling và tương tác với trang. Tìm hiểu cách thiết lập, chạy `firecrawl --status`, đăng nhập, ghi file an toàn vào `.firecrawl/` và các cách dùng thực tế dựa trên repo.

Web Scraping

Yêu thích 0GitHub 234

firecrawl-search

bởi firecrawl

firecrawl-search là skill nghiên cứu web giúp tìm nguồn, chạy tìm kiếm có cấu trúc và tùy chọn trích xuất toàn bộ nội dung trang dưới dạng JSON bằng Firecrawl CLI.

Web Research

Yêu thích 0GitHub 234

parallel-web

bởi K-Dense-AI

parallel-web là một skill nghiên cứu và trích xuất nội dung web được hỗ trợ bởi parallel-cli. Skill này giúp bạn tìm kiếm web, trích xuất nội dung từ URL, làm giàu dữ liệu từ các nguồn, và thực hiện nghiên cứu chuyên sâu với ưu tiên cho nguồn học thuật và khoa học. Phù hợp khi bạn cần dùng parallel-web, nghiên cứu web, trích dẫn, và các quy trình làm việc ưu tiên bằng chứng.

Web Research

Yêu thích 0GitHub 0

geomaster

bởi K-Dense-AI

geomaster là một skill khoa học địa không gian dành cho GIS, viễn thám, phân tích không gian và các quy trình quan trắc Trái Đất. Hãy dùng nó cho các tác vụ Phân tích Dữ liệu như thao tác raster và vector, xử lý ảnh vệ tinh, chỉ số không gian và lập kế hoạch quy trình làm việc. Hướng dẫn geomaster giúp bạn cài đặt, xem xét và áp dụng skill này với ít phải đoán mò hơn.

Data Analysis

Yêu thích 0GitHub 0

asc-aso-audit

bởi rudrankriyam

asc-aso-audit giúp bạn thực hiện audit ASO ngoại tuyến trên metadata App Store chuẩn trong `./metadata`, rồi phát hiện khoảng trống từ khóa với Astro MCP. Hãy dùng kỹ năng asc-aso-audit sau `asc metadata pull` để rà soát `subtitle`, `keywords`, `description` và `whatsNew` với ít phải đoán mò hơn.

Data Analysis

Yêu thích 0GitHub 0

ffuf-web-fuzzing

bởi jthack

ffuf-web-fuzzing là một kỹ năng thực dụng để phát hiện nội dung web ẩn, kiểm tra route và tham số, đồng thời fuzz các mục tiêu đã xác thực bằng raw request, tự hiệu chuẩn và phân tích kết quả. Kỹ năng này phù hợp với người kiểm thử bảo mật cần một hướng dẫn ffuf-web-fuzzing có thể lặp lại cho kiểm thử xâm nhập và quy trình Security Audit.

Security Audit

Yêu thích 0GitHub 0

web-to-markdown

bởi softaworks

web-to-markdown là skill Format Conversion dùng để chuyển các trang web đang hoạt động thành Markdown sạch thông qua CLI `web2md` cục bộ, sử dụng trình duyệt họ Chromium cho các trang render bằng JS, luồng tương tác và chuyển đổi hàng loạt URL. Skill chỉ chạy khi được gọi đích danh.

Format Conversion

Yêu thích 0GitHub 1.3k

firecrawl-agent

bởi firecrawl

firecrawl-agent giúp trích xuất JSON có cấu trúc từ các website phức tạp, nhiều trang. Tìm hiểu khi nào nên dùng, cách chạy tác nhân Firecrawl CLI, thêm schema, đặt URL bắt đầu và lưu đầu ra để trích xuất dữ liệu về giá, sản phẩm và các danh mục dạng directory.

Web Scraping

Yêu thích 0GitHub 234

firecrawl-map

bởi firecrawl

firecrawl-map giúp agent khám phá và liệt kê URL trên một website, với các tùy chọn lọc tìm kiếm, giới hạn, xuất JSON, chế độ sitemap và kiểm soát subdomain trước khi scrape hoặc crawl sâu hơn.

Web Scraping

Yêu thích 0GitHub 234