firecrawl-map

bởi firecrawl

firecrawl-map giúp agent khám phá và liệt kê URL trên một website, với các tùy chọn lọc tìm kiếm, giới hạn, xuất JSON, chế độ sitemap và kiểm soát subdomain trước khi scrape hoặc crawl sâu hơn.

Stars234

Yêu thích0

Bình luận0

Đã thêm31 thg 3, 2026

Danh mụcWeb Scraping

Lệnh cài đặt

npx skills add firecrawl/cli --skill firecrawl-map

Điểm tuyển chọn

Skill này được chấm 76/100, tức là khá phù hợp để đưa vào thư mục: agent có tín hiệu kích hoạt rõ ràng, ví dụ CLI cụ thể và độ bao phủ tùy chọn đủ dùng để triển khai mà không phải đoán mò như với một prompt chung chung. Người dùng thư mục có thể đưa ra quyết định cài đặt tương đối tin cậy, nhưng nên kỳ vọng đây là một trang skill khá gọn, chưa có nhiều hướng dẫn về thiết lập hoặc các tình huống biên.

76/100

Điểm mạnh

Khả năng kích hoạt rất tốt: phần mô tả nêu rõ các ý định người dùng cụ thể như “map the site”, “find the URL for” và “list all pages”.
Ví dụ vận hành rõ ràng, dùng lệnh thực tế cho cả tìm kiếm theo mục tiêu lẫn khám phá toàn bộ URL, bao gồm file đầu ra và chế độ JSON.
Có giá trị trong quy trình rộng hơn: skill định vị map như một bước trong chuỗi search → scrape → map → crawl → interact.

Điểm cần lưu ý

Độ rõ ràng về cài đặt/áp dụng còn hạn chế vì skill không có lệnh cài đặt hoặc hướng dẫn thiết lập trong SKILL.md.
Tài liệu hỗ trợ còn tối giản: không có script, tài liệu tham chiếu, nguồn bổ trợ hoặc hướng dẫn rõ ràng về ràng buộc/tình huống biên.

Firecrawl Cli Scraping Websites Workflow Json

Tổng quan

Tổng quan về skill firecrawl-map

firecrawl-map làm gì

firecrawl-map là một skill chuyên biệt để khám phá URL trên website. Skill này phù hợp nhất khi bạn đã biết domain nhưng chưa biết chính xác trang cần tìm, hoặc khi bạn muốn có một bản kiểm kê nhanh cấu trúc site trước khi scrape, crawl hay trích xuất nội dung.

Ai nên dùng skill firecrawl-map

Skill firecrawl-map phù hợp nhất cho những ai làm nghiên cứu web, khám phá cấu trúc site hoặc lên kế hoạch trước khi scrape:

AI agent cần tìm đúng trang trước khi đi sâu vào bước extract
Developer xây dựng workflow web scraping
Nhà nghiên cứu kiểm tra phạm vi URL công khai của một website
Người vận hành cần danh sách URL nhanh mà không muốn chạy một phiên crawl đầy đủ

Nhu cầu thực sự mà skill này giải quyết

Thông thường, người dùng không thật sự cần “tất cả các trang” như một mục tiêu cuối cùng. Họ muốn trả lời các câu hỏi như:

“Tài liệu authentication nằm ở đâu trên site này?”
“Có những trang nào dưới domain này trước khi tôi scrape?”
“Có lối tắt dựa trên sitemap để khám phá URL nhanh hơn không?”
“Tôi nên map trước hay nhảy thẳng sang crawl?”

Vì vậy, firecrawl-map for Web Scraping đặc biệt hữu ích như một bước khám phá ban đầu, chứ không phải bước trích xuất dữ liệu cuối cùng.

Vì sao người dùng chọn firecrawl-map

Điểm khác biệt chính là tốc độ và khả năng kiểm soát phạm vi. So với một prompt chung chung như “find the docs page”, skill firecrawl-map cho bạn một lộ trình CLI có thể lặp lại để liệt kê URL, lọc theo từ khóa tìm kiếm và xuất kết quả phục vụ cho các bước sau.

Những điểm mạnh nổi bật từ repository:

Dùng CLI trực tiếp với firecrawl map
Có thể lọc bằng --search cho các site lớn
Xuất danh sách URL ở dạng text hoặc JSON
Hỗ trợ chọn chiến lược dùng sitemap
Hữu ích như bước trung gian giữa tìm kiếm và crawl/scrape sâu hơn

Trường hợp không nên dùng

firecrawl-map không phải công cụ phù hợp khi bạn cần:

Trích xuất toàn bộ nội dung trang
Duyệt web tương tác
Scrape dữ liệu có cấu trúc chi tiết từ từng trang
Logic duyệt site phức tạp vượt quá phạm vi khám phá URL

Trong các trường hợp đó, mapping là bước chuẩn bị, không phải đích đến.

Cách dùng skill firecrawl-map

Bối cảnh cài đặt cho skill firecrawl-map

Skill này nằm trong repository firecrawl/cli tại skills/firecrawl-map. Nó được thiết kế để chạy trong môi trường có thể thực thi:

firecrawl *
npx firecrawl *

Nếu agent hoặc workflow cục bộ của bạn có thể chạy lệnh Bash, thì cách cài firecrawl-map này thường là đủ:

npx firecrawl map "<url>" --limit 100

Nếu bạn đã cài Firecrawl CLI ở chế độ global, hãy dùng:

firecrawl map "<url>" --limit 100

Hãy đọc file này trước khi dùng

Bắt đầu với:

skills/firecrawl-map/SKILL.md

Phần repository liên quan đến skill này khá nhỏ nên không có nhiều tài liệu phụ trợ để kiểm tra. Đây là lợi thế nếu bạn muốn triển khai nhanh, nhưng cũng có nghĩa là bạn nên viết prompt thật rõ về domain, mục tiêu và định dạng đầu ra.

Các mẫu sử dụng firecrawl-map cơ bản

Skill này hỗ trợ hai kiểu sử dụng phổ biến.

Tìm một trang có khả năng phù hợp theo chủ đề:

firecrawl map "https://example.com" --search "authentication" -o .firecrawl/filtered.txt

Lấy danh sách URL tổng quát hơn:

firecrawl map "https://example.com" --limit 500 --json -o .firecrawl/urls.json

Đây là mẫu firecrawl-map usage cốt lõi: bắt đầu hẹp với tìm kiếm nếu bạn đang săn một trang cụ thể, hoặc bắt đầu rộng với danh sách URL có giới hạn nếu bạn đang chuẩn bị cho bước scraping tiếp theo.

Skill này cần đầu vào gì

Để dùng skill firecrawl-map hiệu quả, hãy cung cấp rõ các đầu vào sau:

URL gốc hoặc domain
Bạn cần một trang khả dĩ nhất hay nhiều URL
Cụm từ tìm kiếm, nếu bạn đã biết chủ đề
Giới hạn số URL muốn trả về
Định dạng đầu ra: plain text hay JSON
Có tính cả subdomain hay không
Cách xử lý sitemap

Đầu vào yếu:

“Find docs on this site”

Đầu vào mạnh:

“Map https://docs.example.com, search for authentication, return top matching URLs as JSON, and include subdomains only if the main docs domain has too few results.”

Phiên bản mạnh giúp giảm suy đoán và khiến lựa chọn câu lệnh trở nên rõ ràng hơn.

Cách biến một yêu cầu mơ hồ thành prompt tốt

Một nguyên tắc prompt hiệu quả cho firecrawl-map là nêu rõ 5 yếu tố trong một câu:

site
mục tiêu
phạm vi
bộ lọc
đầu ra

Ví dụ:

“Use firecrawl-map on https://example.com to list up to 200 public URLs, prefer sitemap discovery, skip unrelated subdomains, and save JSON output for later scraping.”

Ví dụ cho khám phá có chủ đích:

“Use firecrawl-map to find the page on https://example.com most related to pricing API limits, and write matching URLs to a text file.”

Workflow tốt nhất: map trước rồi mới scrape hoặc crawl

Một workflow thực tế thường như sau:

Dùng firecrawl map với --search nếu bạn đang cố tìm một trang cụ thể.
Dùng firecrawl map với --limit và --json nếu bạn cần một tập URL rộng hơn.
Xem lại các URL được trả về.
Chọn những trang liên quan nhất.
Chỉ chuyển sang scrape hoặc crawl sau khi bạn đã hiểu cấu trúc site ở mức đủ dùng.

Cách này tiết kiệm thời gian và chi phí hơn so với scrape một cách mù quáng.

Những tùy chọn ảnh hưởng rõ rệt đến chất lượng đầu ra

Các tùy chọn quan trọng nhất gồm:

--search <query>: phù hợp nhất để tìm trang theo chủ đề trên site lớn
--limit <n>: tránh tập kết quả quá lớn
--json: giúp lọc tiếp và tự động hóa ở các bước sau dễ hơn
--sitemap <include|skip|only>: hữu ích khi mức độ bao phủ của sitemap là yếu tố quan trọng
--include-subdomains: mở rộng phạm vi, nhưng có thể làm tăng nhiễu
-o, --output <path>: giúp tái sử dụng kết quả trong pipeline

Nếu kết quả bị nhiễu, ba thứ đầu tiên cần siết lại là cụm từ tìm kiếm, phạm vi domain và việc có bao gồm subdomain hay không.

Chọn chiến lược sitemap

Tùy chọn --sitemap quan trọng hơn nhiều người nghĩ:

only: nhanh nhất nếu bạn tin sitemap của site và muốn phạm vi sạch hơn
include: lựa chọn mặc định tốt khi bạn muốn tận dụng sitemap nhưng không phụ thuộc hoàn toàn
skip: hữu ích khi kết quả từ sitemap cũ, thiếu hoặc gây hiểu nhầm

Với các website tài liệu, include hoặc only thường cho kết quả firecrawl-map for Web Scraping tốt hơn so với cách khám phá không ràng buộc.

Khi nào nên включать subdomain

Chỉ dùng --include-subdomains khi nội dung mục tiêu có thể nằm ngoài hostname chính, chẳng hạn:

docs.example.com
developers.example.com
support.example.com

Đừng bật mặc định cho website doanh nghiệp trừ khi bạn thật sự muốn độ bao phủ rộng hơn. Nó có thể làm danh sách URL bị ngập bởi các phần marketing, support hoặc app không liên quan đến mục tiêu của bạn.

Ví dụ thực tế người dùng thật sự cần

Tìm trang tài liệu đăng nhập hoặc auth:

firecrawl map "https://docs.example.com" --search "authentication" -o .firecrawl/auth-pages.txt

Lấy danh sách URL dạng JSON để tái sử dụng:

firecrawl map "https://example.com" --limit 300 --json -o .firecrawl/site-map.json

Ưu tiên chỉ khám phá qua sitemap cho site tài liệu:

firecrawl map "https://docs.example.com" --sitemap only --limit 500 --json

Mở rộng sang subdomain khi chưa rõ tài liệu nằm ở đâu:

firecrawl map "https://example.com" --search "API reference" --include-subdomains

Các vướng mắc phổ biến khi bắt đầu dùng

Lý do chính khiến người dùng gặp khó với skill firecrawl-map thường không nằm ở cài đặt, mà ở chất lượng yêu cầu:

Bắt đầu với domain quá rộng
Quên thêm --search khi đang tìm một trang cụ thể
Lấy quá nhiều URL mà không đặt giới hạn
Bao gồm subdomain quá sớm
Dùng map như thể nó là công cụ trích xuất nội dung

Nếu kết quả đầu tiên lộn xộn, hãy thu hẹp site và làm rõ chủ đề trước khi đổi công cụ.

Câu hỏi thường gặp về skill firecrawl-map

firecrawl-map có tốt hơn một prompt thông thường không?

Có, khi nhiệm vụ là khám phá URL trên một site đã biết. Prompt thông thường có thể đoán trang phù hợp, nhưng firecrawl-map cho bạn một cách cụ thể, lặp lại được để liệt kê và lọc URL từ đúng domain mục tiêu.

Skill firecrawl-map có phù hợp với người mới bắt đầu không?

Có, vì bề mặt lệnh khá nhỏ. Điểm khởi đầu dễ nhất là một trong hai lệnh sau:

firecrawl map "https://example.com" --search "pricing"

firecrawl map "https://example.com" --limit 100 --json

Lỗi phổ biến nhất của người mới là yêu cầu nó trích xuất nội dung trang, trong khi đó không phải mục đích cốt lõi của skill này.

Khi nào nên dùng firecrawl-map thay vì crawling?

Hãy dùng firecrawl-map trước khi bạn cần hiểu cấu trúc site hoặc xác định các trang ứng viên. Hãy dùng crawling sau đó khi bạn cần duyệt rộng hơn hoặc xử lý ở cấp độ trang sau bước khám phá ban đầu.

Khi nào không nên dùng firecrawl-map?

Hãy bỏ qua nó nếu:

Bạn đã biết chính xác URL
Bạn cần text trang, metadata hoặc trích xuất có cấu trúc
Bạn cần tương tác trình duyệt thay vì chỉ liệt kê URL
Nhiệm vụ không phải là khám phá site

firecrawl-map có hoạt động tốt với site lớn không?

Có, nhưng chỉ khi bạn kiểm soát tốt phạm vi. Hãy dùng --search, --limit và chiến lược sitemap một cách có chủ đích. Site lớn là nơi firecrawl-map usage mang lại nhiều giá trị nhất, nhưng cũng là nơi prompt lỏng tay tạo ra nhiều nhiễu nhất.

Nên chọn định dạng đầu ra nào?

Hãy chọn plain text khi con người chỉ cần một danh sách trang nhanh để xem. Chọn --json khi một công cụ khác, script hoặc bước xử lý phía sau sẽ dùng tiếp kết quả đó.

Cách cải thiện skill firecrawl-map

Với firecrawl-map, hãy bắt đầu hẹp hơn bạn nghĩ

Cách dễ nhất để cải thiện kết quả firecrawl-map là giảm phạm vi ngay từ đầu. Nếu bạn biết nội dung nhiều khả năng nằm trong docs, hãy dùng trực tiếp hostname docs thay vì trang chủ công ty.

Tốt hơn:

https://docs.example.com

Kém hơn:

https://example.com

Dùng cụm từ tìm kiếm khớp với ý định của trang

Với skill firecrawl-map, chất lượng tìm kiếm quan trọng hơn số lượng từ khóa. Các cụm ngắn thể hiện đúng ý định thường hiệu quả hơn các truy vấn nhồi nhét.

Tốt hơn:

authentication
rate limits
API reference

Kém hơn:

where can I find complete developer authentication API reference and login documentation

Phiên bản tốt hơn dễ dùng cho lọc URL hơn và thường trả về kết quả sạch hơn.

Hãy chọn JSON bất cứ khi nào kết quả còn phải đi tiếp sang bước khác

Nếu bước tiếp theo của bạn là scrape, lọc, phân loại hoặc khử trùng lặp, hãy dùng:

--json

Lựa chọn nhỏ này giúp hướng dẫn firecrawl-map thân thiện hơn nhiều với tự động hóa và giảm khối lượng dọn dữ liệu thủ công.

Dùng map theo vòng lặp, không phải chỉ chạy một lần

Một workflow tốt là:

Chạy --search với phạm vi hẹp
Kiểm tra các URL khả dĩ
Chạy map lần hai trên subdomain hoặc section tốt nhất
Chỉ tăng --limit khi thật sự cần
Chuyển sang scrape/crawl sau khi bước khám phá đã ổn định

Cách này tốt hơn một lần chạy khổng lồ vì nó giữ tín hiệu ở mức cao.

Theo dõi các kiểu lỗi thường gặp

Các lỗi phổ biến với firecrawl-map for Web Scraping:

Quá nhiều URL không liên quan do domain quá rộng
Bỏ sót trang mục tiêu vì từ khóa tìm kiếm quá mơ hồ
Danh sách chưa đầy đủ do chọn sai chiến lược sitemap
Kết quả nhiễu vì bật subdomain không cần thiết

Mỗi lỗi đều có cách sửa đơn giản: siết chặt site, làm rõ truy vấn, đổi chế độ sitemap hoặc thu nhỏ phạm vi.

Cải thiện prompt bằng cách nêu rõ tiêu chí thành công

Đừng chỉ yêu cầu “all URLs.” Hãy nói rõ như thế nào mới được xem là thành công.

Ví dụ:

“Use firecrawl-map to find pages related to authentication setup on https://docs.example.com. Return the most relevant URLs first, cap at 50, and save JSON output for follow-up scraping.”

Cách viết này giúp việc chọn công cụ, tham số và điểm dừng trở nên rõ ràng hơn nhiều.

Giữ một lộ trình nâng cấp đơn giản

Hãy dùng cây quyết định thực tế sau:

Cần một trang có khả năng đúng nhất: map --search
Cần danh sách URL: map --limit --json
Cần nội dung trang: scrape sau bước map
Cần duyệt rộng hơn: crawl sau bước map

Đây là cách hữu ích nhất để cải thiện kết quả của firecrawl-map mà không làm workflow trở nên quá phức tạp.

Đánh giá & nhận xét

Chưa có đánh giá nào

Chia sẻ nhận xét của bạn

Đăng nhập để chấm điểm và để lại nhận xét cho skill này.

0/10000

Nhận xét mới nhất

Đang lưu...

Thêm skill trong danh mục này

huggingface-datasets

bởi huggingface

Dùng skill huggingface-datasets cho các quy trình với Hugging Face Dataset Viewer API để xác thực dataset, xử lý split, xem trước và phân trang các hàng, tìm kiếm văn bản, áp dụng bộ lọc, và lấy liên kết parquet hoặc thống kê. Đây là hướng dẫn thực dụng về huggingface-datasets cho việc khám phá dataset chỉ đọc.

Web Scraping

Yêu thích 0GitHub 10.4k

data-scraper-agent

bởi affaan-m

data-scraper-agent giúp xây dựng một pipeline dữ liệu công khai có thể lặp lại cho web scraping, làm giàu dữ liệu và lưu trữ. Skill này được thiết kế để theo dõi theo lịch các job, giá cả, tin tức, repo, thể thao và danh sách bằng GitHub Actions, với đầu ra đẩy tới Notion, Sheets hoặc Supabase. Phù hợp nhất cho việc theo dõi liên tục, không phải trích xuất một lần.

Web Scraping

Yêu thích 0GitHub 156.1k

baoyu-url-to-markdown

bởi JimLiu

baoyu-url-to-markdown chuyển URL đang hoạt động thành Markdown bằng CLI baoyu-fetch đi kèm, sử dụng Chrome CDP, adapter theo từng trang và cơ chế dự phòng chung. Tìm hiểu yêu cầu Bun runtime, thiết lập EXTEND.md cho lần dùng đầu, và cách dùng với X, YouTube, Hacker News cùng các trang đã render.

Format Conversion

Yêu thích 0GitHub 13.2k

x-twitter-scraper

bởi Xquik-dev

Dùng x-twitter-scraper để lấy dữ liệu X (Twitter) và các tác vụ có xác nhận qua Xquik. Skill này hỗ trợ tìm kiếm tweet, tra cứu người dùng, trích xuất follower, tải media, monitors, webhooks, MCP và các tác vụ ghi. Phù hợp nhất cho nghiên cứu kiểu web scraping với API key, không phải với thông tin đăng nhập X.

Web Scraping

Yêu thích 0GitHub 71

exa-search

bởi K-Dense-AI

exa-search là một skill nghiên cứu web được hỗ trợ bởi Exa, dùng để tìm thông tin mới nhất và trích xuất nội dung từ các URL. Hãy dùng nó cho tìm kiếm, khám phá nguồn, trích xuất bài viết và PDF, cũng như nghiên cứu kỹ thuật hoặc khoa học với truy xuất ngữ nghĩa, lọc kiểu học thuật và hướng dẫn cài đặt, sử dụng rõ ràng.

Web Research

Yêu thích 0GitHub 0

browser-use

bởi browser-use

browser-use là skill tự động hóa trình duyệt dùng để mở trang, kiểm tra trạng thái, nhấp vào các phần tử theo chỉ mục, nhập liệu vào trường, chụp màn hình và tái sử dụng phiên trình duyệt liên tục. Phù hợp cho điền biểu mẫu ổn định, điều hướng và các quy trình cần đăng nhập bằng browser-use CLI.

Browser Automation

Yêu thích 0GitHub 84.9k

remote-browser

bởi browser-use

remote-browser giúp các agent chạy trong môi trường sandbox điều khiển trình duyệt headless cho Browser Automation. Dùng để mở trang, kiểm tra trạng thái, nhấp vào phần tử theo chỉ mục, nhập liệu, chụp ảnh màn hình và kết nối với ứng dụng cục bộ hoặc các phiên trình duyệt dùng CDP.

Browser Automation

Yêu thích 0GitHub 84.9k

firecrawl

bởi firecrawl

Kỹ năng firecrawl để cài đặt, xác thực và sử dụng Firecrawl CLI chính thức cho web scraping, tìm kiếm, crawling và tương tác với trang. Tìm hiểu cách thiết lập, chạy `firecrawl --status`, đăng nhập, ghi file an toàn vào `.firecrawl/` và các cách dùng thực tế dựa trên repo.

Web Scraping

Yêu thích 0GitHub 234

firecrawl-search

bởi firecrawl

firecrawl-search là skill nghiên cứu web giúp tìm nguồn, chạy tìm kiếm có cấu trúc và tùy chọn trích xuất toàn bộ nội dung trang dưới dạng JSON bằng Firecrawl CLI.

Web Research

Yêu thích 0GitHub 234

parallel-web

bởi K-Dense-AI

parallel-web là một skill nghiên cứu và trích xuất nội dung web được hỗ trợ bởi parallel-cli. Skill này giúp bạn tìm kiếm web, trích xuất nội dung từ URL, làm giàu dữ liệu từ các nguồn, và thực hiện nghiên cứu chuyên sâu với ưu tiên cho nguồn học thuật và khoa học. Phù hợp khi bạn cần dùng parallel-web, nghiên cứu web, trích dẫn, và các quy trình làm việc ưu tiên bằng chứng.

Web Research

Yêu thích 0GitHub 0

geomaster

bởi K-Dense-AI

geomaster là một skill khoa học địa không gian dành cho GIS, viễn thám, phân tích không gian và các quy trình quan trắc Trái Đất. Hãy dùng nó cho các tác vụ Phân tích Dữ liệu như thao tác raster và vector, xử lý ảnh vệ tinh, chỉ số không gian và lập kế hoạch quy trình làm việc. Hướng dẫn geomaster giúp bạn cài đặt, xem xét và áp dụng skill này với ít phải đoán mò hơn.

Data Analysis

Yêu thích 0GitHub 0

asc-aso-audit

bởi rudrankriyam

asc-aso-audit giúp bạn thực hiện audit ASO ngoại tuyến trên metadata App Store chuẩn trong `./metadata`, rồi phát hiện khoảng trống từ khóa với Astro MCP. Hãy dùng kỹ năng asc-aso-audit sau `asc metadata pull` để rà soát `subtitle`, `keywords`, `description` và `whatsNew` với ít phải đoán mò hơn.

Data Analysis

Yêu thích 0GitHub 0

ffuf-web-fuzzing

bởi jthack

ffuf-web-fuzzing là một kỹ năng thực dụng để phát hiện nội dung web ẩn, kiểm tra route và tham số, đồng thời fuzz các mục tiêu đã xác thực bằng raw request, tự hiệu chuẩn và phân tích kết quả. Kỹ năng này phù hợp với người kiểm thử bảo mật cần một hướng dẫn ffuf-web-fuzzing có thể lặp lại cho kiểm thử xâm nhập và quy trình Security Audit.

Security Audit

Yêu thích 0GitHub 0

web-to-markdown

bởi softaworks

web-to-markdown là skill Format Conversion dùng để chuyển các trang web đang hoạt động thành Markdown sạch thông qua CLI `web2md` cục bộ, sử dụng trình duyệt họ Chromium cho các trang render bằng JS, luồng tương tác và chuyển đổi hàng loạt URL. Skill chỉ chạy khi được gọi đích danh.

Format Conversion

Yêu thích 0GitHub 1.3k

firecrawl-agent

bởi firecrawl

firecrawl-agent giúp trích xuất JSON có cấu trúc từ các website phức tạp, nhiều trang. Tìm hiểu khi nào nên dùng, cách chạy tác nhân Firecrawl CLI, thêm schema, đặt URL bắt đầu và lưu đầu ra để trích xuất dữ liệu về giá, sản phẩm và các danh mục dạng directory.

Web Scraping

Yêu thích 0GitHub 234

firecrawl-crawl

bởi firecrawl

firecrawl-crawl giúp agent trích xuất nội dung hàng loạt từ một website hoặc mục tài liệu, với bộ lọc đường dẫn, giới hạn độ sâu, giới hạn số trang, chế độ chờ và kiểm tra trạng thái job.

Web Scraping

Yêu thích 0GitHub 234