firecrawl-scrape

bởi firecrawl

firecrawl-scrape giúp trích xuất nội dung sạch, thân thiện với LLM từ các URL đã biết, כולל cả trang được render bằng JS. Dùng kỹ năng này để scrape markdown, liên kết hoặc lấy câu trả lời theo từng trang bằng Firecrawl CLI hoặc `npx firecrawl`.

Stars234

Yêu thích0

Bình luận0

Đã thêm31 thg 3, 2026

Danh mụcWeb Scraping

Lệnh cài đặt

npx skills add firecrawl/cli --skill firecrawl-scrape

Điểm tuyển chọn

Kỹ năng này đạt 72/100, nghĩa là đủ ổn để đưa vào danh mục cho người dùng cần một lệnh scrape URL rõ ràng, nhưng chưa thật sự đầy đủ như một trang hỗ trợ ra quyết định cài đặt. Bằng chứng từ repository cho thấy khả năng kích hoạt theo đúng nhu cầu rất tốt và có ví dụ lệnh thực tế để scrape trang tĩnh hoặc trang render bằng JS sang markdown, bao gồm dùng nhiều URL, các định dạng đầu ra và trích xuất theo truy vấn. Tuy vậy, độ rõ ràng cho việc áp dụng thực tế còn bị hạn chế vì phần mô tả cấp cao quá ngắn, không có lệnh cài đặt trong `SKILL.md`, và cũng thiếu file hỗ trợ hoặc hướng dẫn vận hành chuyên sâu hơn.

72/100

Điểm mạnh

Các tín hiệu kích hoạt rất rõ trong phần mô tả, liên kết trực tiếp các ý định như "scrape", "fetch" và "read this webpage" với kỹ năng này.
Các ví dụ khởi động nhanh thể hiện những mẫu dùng cụ thể: scrape cơ bản, chỉ lấy nội dung chính, chờ JS, xử lý nhiều URL, định dạng thay thế và truy vấn nội dung trang.
Giá trị vận hành cụ thể hơn một prompt chung chung: hướng dẫn agent dùng `firecrawl scrape`/`npx firecrawl`, lưu đầu ra và ưu tiên cách này thay vì WebFetch khi cần trích xuất nội dung trang web.

Điểm cần lưu ý

`SKILL.md` không có lệnh cài đặt, nên người dùng vẫn cần tham khảo thêm nguồn bên ngoài để thiết lập CLI trước khi chạy được.
Phần hỗ trợ trong repository khá mỏng ngoài một file markdown; không có script, tài liệu tham chiếu hay tài nguyên đi kèm để xử lý sự cố, auth/setup hoặc các tình huống biên.

Firecrawl Scraping Websites Markdown Cli Browser Automation

Tổng quan

Tổng quan về skill firecrawl-scrape

firecrawl-scrape làm được gì

Skill firecrawl-scrape dùng để trích xuất nội dung sạch, thân thiện với LLM từ một hoặc nhiều trang web khi bạn đã biết sẵn URL. Nó được thiết kế cho nhu cầu lấy nội dung trang cụ thể, không phải khám phá toàn bộ website: bạn đưa vào một trang, và nó trả về đầu ra có cấu trúc như markdown, links hoặc câu trả lời trực tiếp dựa trên chính trang đó.

Ai nên dùng firecrawl-scrape

Skill này phù hợp với người cần lấy nội dung trang ổn định từ:

trang tài liệu
bài viết blog
trang giá
trang sản phẩm
website render bằng JavaScript và SPA

Nó đặc biệt hữu ích khi các công cụ fetch thông thường thất bại với trang render phía client hoặc chỉ trả về HTML nhiễu, khó đưa tiếp vào LLM.

Nhu cầu thực tế mà firecrawl-scrape giải quyết

Phần lớn người dùng thực ra không cần “web scraping” theo nghĩa chung chung. Họ thường cần một trong các kết quả sau:

đọc một trang dưới dạng markdown để phân tích sau
lấy nội dung chính mà không kèm header và footer
trích xuất links cùng với văn bản của trang
đặt một câu hỏi cụ thể về một URL đã biết
scrape song song một nhóm URL đã biết

Đó là điểm firecrawl-scrape mạnh hơn hẳn một prompt chung chung kiểu “hãy đọc trang web này”.

Vì sao người dùng chọn firecrawl-scrape thay vì fetch chung chung

Khác biệt chính là firecrawl-scrape được thiết kế riêng cho việc trích xuất nội dung trang web, bao gồm cả trang render bằng JS, và trả về đầu ra tối ưu cho workflow với LLM. Skill gốc cũng nói rõ nên dùng nó thay cho WebFetch khi mục tiêu là trích xuất nội dung webpage. Điều này rất quan trọng nếu cách dùng trình duyệt hay fetch thông thường của bạn bỏ sót nội dung đã render, dính nhiều thành phần điều hướng, hoặc thiếu ngữ cảnh liên kết.

Khi nào firecrawl-scrape phù hợp và khi nào không

Phù hợp nhất khi:

bạn đã có sẵn URL
bạn cần nội dung của trang, không phải khám phá cả site
bạn cần markdown hoặc links ở định dạng máy có thể xử lý
trang có thể cần thời gian render trước khi hiện đủ nội dung

Không phù hợp khi:

bạn cần tìm URL trước
bạn cần duyệt toàn bộ website
bạn cần tương tác vượt ra ngoài việc scrape trang
bạn chỉ cần fetch HTML tĩnh đơn giản và đã có công cụ khác đáng tin

Cách dùng skill firecrawl-scrape

Bối cảnh cài đặt firecrawl-scrape

Skill này nằm trong repository firecrawl/cli, tại skills/firecrawl-scrape. Bản thân skill là hướng dẫn cách gọi Firecrawl CLI, nên yêu cầu thực tế là bạn phải có quyền dùng lệnh firecrawl hoặc npx firecrawl. Ví dụ trong skill dùng cả hai dạng:

firecrawl scrape ...
npx firecrawl ...

Nếu môi trường của bạn chưa có sẵn CLI, hãy dùng npx firecrawl để giảm bớt công đoạn thiết lập.

firecrawl-scrape cần đầu vào gì

Tối thiểu, firecrawl-scrape cần một URL cụ thể. Từ đó, chất lượng đầu ra sẽ phụ thuộc vào những gì bạn chỉ định thêm:

định dạng đầu ra cần dùng: markdown, links, hoặc cả hai
có chỉ giữ lại nội dung chính hay không
trang có cần độ trễ render với --wait-for hay không
có muốn lưu nội dung thô của trang ra file hay không
có muốn lấy câu trả lời mục tiêu bằng --query hay không

Đây không phải skill dành cho các mục tiêu mơ hồ như “hãy nghiên cứu công ty này trên mạng”. Nó dành cho kiểu yêu cầu “hãy scrape đúng trang này và trả về đầu ra hữu ích”.

Lệnh đầu tiên nhanh nhất để thành công với firecrawl-scrape

Nếu bạn chỉ cần nội dung trang dễ đọc, hãy bắt đầu từ đây:

firecrawl scrape "<url>" -o .firecrawl/page.md

Nếu trang lẫn nhiều điều hướng hoặc sidebar, dùng:

firecrawl scrape "<url>" --only-main-content -o .firecrawl/page.md

Nếu trang là SPA hoặc chỉ tải nội dung sau khi render:

firecrawl scrape "<url>" --wait-for 3000 -o .firecrawl/page.md

Khi nào nên dùng chế độ chỉ lấy nội dung chính trong firecrawl-scrape

--only-main-content là một trong những tuỳ chọn đáng giá nhất vì nó thường cải thiện rõ rệt chất lượng tóm tắt và trích xuất ở các bước sau. Hãy dùng khi mục tiêu của bạn là:

tóm tắt một bài viết
trích xuất chi tiết sản phẩm hoặc giá
đưa nội dung sang một bước LLM khác
giảm lãng phí token từ menu, footer và các thành phần lặp lại của giao diện trang

Không nên dùng nếu bạn thực sự cần links điều hướng hoặc ngữ cảnh bố cục xung quanh.

Cách xử lý các trang render bằng JavaScript

Một trở ngại phổ biến khi áp dụng là trang nhìn bình thường trên trình duyệt nhưng lại trả về nội dung thiếu hụt nếu dùng cách fetch đơn giản. firecrawl-scrape xử lý việc này bằng cơ chế scrape có nhận biết render. Trong thực tế, nếu nội dung xuất hiện muộn, hãy thêm --wait-for với khoảng chờ hợp lý như 3000.

Hãy dùng thời gian chờ render khi:

thông số sản phẩm chỉ hiện ra sau khi trang tải xong
nội dung tài liệu được hydrate ở phía client
bảng giá chỉ xuất hiện sau khi script chạy

Đừng mặc định đặt thời gian chờ quá dài. Hãy bắt đầu với mức nhỏ và chỉ tăng khi đầu ra rõ ràng đang thiếu nội dung.

Cách scrape nhiều URL hiệu quả

Skill này hỗ trợ nhiều URL trong cùng một lệnh và lưu ý rằng chúng sẽ được scrape đồng thời. Điều này rất hữu ích cho các lô nhỏ gồm những trang bạn đã biết rõ, chẳng hạn:

một số trang docs
trang chủ, trang giá và FAQ
một nhóm bài blog bạn đã chọn sẵn

Ví dụ:

firecrawl scrape https://example.com https://example.com/blog https://example.com/docs

Cách này phù hợp hơn crawl khi bạn đã biết chính xác các đích cần lấy.

Cách lấy cả markdown và links cùng lúc

Nếu bước tiếp theo của bạn cần cả nội dung dễ đọc lẫn tham chiếu của trang, hãy yêu cầu nhiều định dạng:

firecrawl scrape "<url>" --format markdown,links -o .firecrawl/page.json

Đây là lựa chọn rất hợp với các workflow như:

trích xuất nội dung rồi kiểm tra các outbound links
tạo ghi chú có gắn nguồn tham chiếu
tách riêng phần thân bài khỏi điều hướng và các đích được liên kết

Hãy chọn đầu ra JSON khi bạn cần hậu xử lý có cấu trúc thay vì chỉ một file markdown duy nhất.

Cách dùng firecrawl-scrape cho câu hỏi mục tiêu

Một trong những mẫu firecrawl-scrape usage thực tế nhất là đặt câu hỏi cụ thể ngay trong lúc scrape:

firecrawl scrape "https://example.com/pricing" --query "What is the enterprise plan price?"

Cách này phát huy hiệu quả nhất khi:

câu trả lời nhiều khả năng nằm trong một trang
bạn muốn trích xuất đúng trọng tâm thay vì đọc lại cả trang
bạn muốn giảm thời gian đọc thủ công

Nó kém phù hợp hơn khi câu trả lời trải trên nhiều trang hoặc cần so sánh nhiều tài liệu.

Biến yêu cầu mơ hồ thành prompt mạnh hơn

Yêu cầu yếu:

“Scrape site này rồi cho tôi biết điều gì quan trọng.”

Yêu cầu mạnh:

“Dùng firecrawl-scrape cho https://example.com/pricing với --only-main-content. Lưu markdown vào .firecrawl/pricing.md. Sau đó trích xuất tên gói, giá theo tháng, ghi chú về thanh toán năm, và ngôn ngữ liên hệ enterprise.”

Vì sao cách này tốt hơn:

nó đưa ra URL cụ thể
nó chọn đúng chế độ đầu ra
nó xác định rõ cần trích xuất gì sau khi scrape
nó giảm mơ hồ về phạm vi

Quy trình gợi ý cho firecrawl-scrape trong Web Scraping

Một chuỗi thao tác thực tế, hiệu quả thường là:

Xác nhận bạn có đúng URL của trang cần lấy.
Bắt đầu bằng trích xuất markdown.
Thêm --only-main-content nếu trang quá nhiễu.
Thêm --wait-for nếu nội dung render chưa xuất hiện đủ.
Chuyển sang --format markdown,links nếu cấu trúc links quan trọng.
Chỉ dùng --query khi bài toán hẹp và gói gọn trong một trang.

Cách làm này bám sát định vị của tài liệu gốc: scrape là một bước ở giữa trong workflow lớn hơn: search → scrape → map → crawl → interact.

Những file nên đọc đầu tiên trong repository

Hãy đọc skills/firecrawl-scrape/SKILL.md trước. File này chứa gần như toàn bộ giá trị thực hành:

khi nào nên dùng skill
các lệnh bắt đầu nhanh
những tuỳ chọn được hỗ trợ
mẹo sử dụng

Vì mục tiêu của trang giới thiệu này là hỗ trợ quyết định cài đặt, điểm quan trọng cần biết trước là: tài liệu nguồn rất ngắn gọn, và không có script hỗ trợ hay tài liệu tham chiếu bổ sung nào bạn phải xem trước khi bắt đầu thử.

Mẹo áp dụng thực tế giúp thay đổi chất lượng đầu ra

Một vài lựa chọn nhỏ có tác động lớn hơn nhiều so với vẻ ngoài của chúng:

Ưu tiên URL chính xác thay vì chỉ đưa domain cấp cao nhất.
Dùng --only-main-content cho các tác vụ thiên về phân tích.
Chỉ dùng --wait-for khi đầu ra nhìn rõ là chưa đầy đủ.
Lưu đầu ra vào .firecrawl/ để bạn kiểm tra kết quả thô trước khi nối thêm các bước tự động hoá.
Dùng --query cho thông tin nằm trong một trang, không phải nghiên cứu mở.

Những quyết định nhỏ này thường quan trọng hơn việc thêm nhiều câu chữ vào prompt.

Câu hỏi thường gặp về skill firecrawl-scrape

firecrawl-scrape có tốt hơn một prompt thường kèm URL không?

Thường là có, nếu công việc thực sự là trích xuất webpage. firecrawl-scrape skill cung cấp đường dẫn gọi lệnh rõ ràng, hỗ trợ trang render bằng JS, có thể trả về markdown hoặc links, và đưa ra các tuỳ chọn chuyên cho scraping. Prompt thông thường có thể đủ cho nhu cầu đọc đơn giản, nhưng sẽ kém ổn định hơn khi trang cần render hoặc khi bạn cần đầu ra sạch và có cấu trúc hơn.

Khi nào nên dùng firecrawl-scrape thay vì WebFetch?

Hãy dùng firecrawl-scrape khi bạn muốn trích xuất nội dung webpage. Skill gốc khuyến nghị rất rõ nên dùng nó thay cho WebFetch cho mục đích này. Khuyến nghị đó đặc biệt đáng chú ý với các trang đã render, nhu cầu đầu ra markdown sạch hơn, và các workflow scrape cần hành vi CLI lặp lại, ổn định.

firecrawl-scrape có thân thiện với người mới bắt đầu không?

Có, nếu so với nhiều công cụ scraping khác. Lộ trình dùng lần đầu khá ngắn: cung cấp URL, chạy lệnh, kiểm tra đầu ra. Bạn không cần hiểu toàn bộ chiến lược crawl để nhận được giá trị. Điều chính mà người mới cần nắm là đây là công cụ scrape theo trang, không phải khám phá toàn website.

firecrawl-scrape có xử lý được SPA và trang động không?

Có. Đây chính là một trong những lý do cốt lõi khiến nó tồn tại. Nếu trang phụ thuộc vào render bằng JavaScript, hãy dùng --wait-for khi cần để nội dung có đủ thời gian xuất hiện trước khi trích xuất.

Khi nào firecrawl-scrape là lựa chọn sai?

Hãy tránh dùng khi:

bạn chưa biết URL đích
bạn cần khám phá rộng trong một domain
bạn cần duyệt site theo đệ quy
tác vụ của bạn đòi hỏi tương tác chứ không chỉ trích xuất
câu trả lời phải được tổng hợp từ nhiều trang mà bạn còn chưa xác định

Trong các trường hợp đó, search, map, crawl hoặc công cụ khác sẽ là bước khởi đầu phù hợp hơn.

Tôi có cần cài cả repository để dùng nó không?

Bạn cần có quyền truy cập vào hành vi của Firecrawl CLI mà skill này tham chiếu tới, nhưng bản thân skill rất gọn nhẹ. Xét dưới góc độ ra quyết định, overhead từ repo ở đây khá thấp: hướng dẫn thực tế tập trung trong SKILL.md, và không có script đi kèm hay thư mục tài nguyên nào bạn buộc phải nắm trước.

Cách cải thiện skill firecrawl-scrape

Đặt mục tiêu hẹp hơn cho firecrawl-scrape

Vấn đề chất lượng phổ biến nhất là ý định quá rộng. Kết quả tốt hơn thường đến từ các yêu cầu như:

“trích xuất bảng giá”
“trả về markdown kèm links”
“trả lời một câu hỏi này từ trang”
thay vì:
“scrape mọi thứ hữu ích”

Nhiệm vụ ở cấp trang càng hẹp, bạn càng ít phải dọn dẹp về sau.

Cải thiện đầu vào bằng chỉ dẫn bám sát trang

Đầu vào mạnh thường kết hợp URL, chế độ đầu ra và mục tiêu trích xuất. Ví dụ:

firecrawl scrape "https://example.com/docs/auth" \
  --only-main-content \
  -o .firecrawl/auth.md

Sau đó, hãy nói thật rõ agent phải làm gì với file đó:

tóm tắt các bước thiết lập
liệt kê các header bắt buộc
trích xuất ví dụ code
so sánh các phương thức auth

Mẫu hai bước này thường đáng tin hơn việc gộp scraping và phân tích vào một yêu cầu mơ hồ duy nhất.

Khắc phục thiếu nội dung trước khi thay toàn bộ workflow

Nếu đầu ra trông quá mỏng, trước tiên hãy kiểm tra xem trang có cần thời gian render hay không:

firecrawl scrape "<url>" --wait-for 3000 -o .firecrawl/page.md

Nhiều người đổi công cụ quá sớm trong khi vấn đề thật ra chỉ là trang chưa render xong.

Giảm nhiễu trước khi phân tích ở bước sau

Nếu kết quả đầy điều hướng, thông báo cookie hoặc footer, hãy chuyển sang:

firecrawl scrape "<url>" --only-main-content -o .firecrawl/page.md

Điều này thường cải thiện:

chất lượng tóm tắt
độ chính xác khi trích xuất
hiệu quả token
độ nhất quán giữa các trang tương tự

Dùng đầu ra có cấu trúc khi bạn định tự động hoá

Nếu trang được scrape sẽ được đưa sang bước khác, hãy yêu cầu định dạng có cấu trúc ngay từ đầu thay vì parse lại markdown về sau:

firecrawl scrape "<url>" --format markdown,links -o .firecrawl/page.json

Điều này cũng giúp việc ra quyết định firecrawl-scrape install dễ hơn: nếu workflow của bạn phụ thuộc vào tự động hoá có nhận biết links, skill này rõ ràng phù hợp hơn các công cụ fetch văn bản thuần.

Lặp lại sau lần chạy đầu tiên, không phải trước đó

Một mẫu firecrawl-scrape guide hiệu quả là:

chạy lệnh scrape đơn giản nhất
kiểm tra xem còn thiếu gì hoặc đang nhiễu ở đâu
thêm đúng một tuỳ chọn để sửa vấn đề cụ thể đó
chạy lại và so sánh

Lộ trình lặp thường gặp:

scrape cơ bản
thêm --only-main-content
thêm --wait-for
thêm --format markdown,links
dùng --query để trích xuất trực tiếp

Cách này nhanh hơn việc ngồi thiết kế một câu lệnh phức tạp trước khi bạn thực sự nhìn thấy đầu ra của trang.

Những lỗi thường gặp cần chú ý

Các vấn đề thực tế lớn nhất thường là:

dùng trang chủ trong khi mục tiêu thật sự là một trang con
kỳ vọng scrape hoạt động như crawl
không chờ nội dung render bằng JS
đặt câu hỏi với --query nhưng câu trả lời lại cần nhiều trang
chỉ lưu bản tóm tắt cuối cùng thay vì lưu đầu ra scrape thô

Hầu hết các lỗi này đều có thể tránh nếu xác định phạm vi rõ hơn và dành một lượt để kiểm tra đầu ra.

Cách người dùng nâng cao khai thác firecrawl-scrape tốt hơn

Người dùng nâng cao thường cải thiện kết quả bằng cách ghép firecrawl-scrape với các bước sau đó, thay vì làm phần scrape trở nên quá phức tạp. Một mẫu mạnh là:

scrape sạch các trang đích cụ thể
lưu đầu ra thô
chạy bước trích xuất, so sánh hoặc tổng hợp về sau

Cách làm này giữ cho firecrawl-scrape for Web Scraping tập trung đúng vào lớp truy xuất nội dung trang, nơi nó hoạt động tốt nhất.

Đánh giá & nhận xét

Chưa có đánh giá nào

Chia sẻ nhận xét của bạn

Đăng nhập để chấm điểm và để lại nhận xét cho skill này.

0/10000

Nhận xét mới nhất

Đang lưu...

Thêm skill trong danh mục này

huggingface-datasets

bởi huggingface

Dùng skill huggingface-datasets cho các quy trình với Hugging Face Dataset Viewer API để xác thực dataset, xử lý split, xem trước và phân trang các hàng, tìm kiếm văn bản, áp dụng bộ lọc, và lấy liên kết parquet hoặc thống kê. Đây là hướng dẫn thực dụng về huggingface-datasets cho việc khám phá dataset chỉ đọc.

Web Scraping

Yêu thích 0GitHub 10.4k

data-scraper-agent

bởi affaan-m

data-scraper-agent giúp xây dựng một pipeline dữ liệu công khai có thể lặp lại cho web scraping, làm giàu dữ liệu và lưu trữ. Skill này được thiết kế để theo dõi theo lịch các job, giá cả, tin tức, repo, thể thao và danh sách bằng GitHub Actions, với đầu ra đẩy tới Notion, Sheets hoặc Supabase. Phù hợp nhất cho việc theo dõi liên tục, không phải trích xuất một lần.

Web Scraping

Yêu thích 0GitHub 156.1k

baoyu-url-to-markdown

bởi JimLiu

baoyu-url-to-markdown chuyển URL đang hoạt động thành Markdown bằng CLI baoyu-fetch đi kèm, sử dụng Chrome CDP, adapter theo từng trang và cơ chế dự phòng chung. Tìm hiểu yêu cầu Bun runtime, thiết lập EXTEND.md cho lần dùng đầu, và cách dùng với X, YouTube, Hacker News cùng các trang đã render.

Format Conversion

Yêu thích 0GitHub 13.2k

x-twitter-scraper

bởi Xquik-dev

Dùng x-twitter-scraper để lấy dữ liệu X (Twitter) và các tác vụ có xác nhận qua Xquik. Skill này hỗ trợ tìm kiếm tweet, tra cứu người dùng, trích xuất follower, tải media, monitors, webhooks, MCP và các tác vụ ghi. Phù hợp nhất cho nghiên cứu kiểu web scraping với API key, không phải với thông tin đăng nhập X.

Web Scraping

Yêu thích 0GitHub 71

exa-search

bởi K-Dense-AI

exa-search là một skill nghiên cứu web được hỗ trợ bởi Exa, dùng để tìm thông tin mới nhất và trích xuất nội dung từ các URL. Hãy dùng nó cho tìm kiếm, khám phá nguồn, trích xuất bài viết và PDF, cũng như nghiên cứu kỹ thuật hoặc khoa học với truy xuất ngữ nghĩa, lọc kiểu học thuật và hướng dẫn cài đặt, sử dụng rõ ràng.

Web Research

Yêu thích 0GitHub 0

browser-use

bởi browser-use

browser-use là skill tự động hóa trình duyệt dùng để mở trang, kiểm tra trạng thái, nhấp vào các phần tử theo chỉ mục, nhập liệu vào trường, chụp màn hình và tái sử dụng phiên trình duyệt liên tục. Phù hợp cho điền biểu mẫu ổn định, điều hướng và các quy trình cần đăng nhập bằng browser-use CLI.

Browser Automation

Yêu thích 0GitHub 84.9k

remote-browser

bởi browser-use

remote-browser giúp các agent chạy trong môi trường sandbox điều khiển trình duyệt headless cho Browser Automation. Dùng để mở trang, kiểm tra trạng thái, nhấp vào phần tử theo chỉ mục, nhập liệu, chụp ảnh màn hình và kết nối với ứng dụng cục bộ hoặc các phiên trình duyệt dùng CDP.

Browser Automation

Yêu thích 0GitHub 84.9k

firecrawl

bởi firecrawl

Kỹ năng firecrawl để cài đặt, xác thực và sử dụng Firecrawl CLI chính thức cho web scraping, tìm kiếm, crawling và tương tác với trang. Tìm hiểu cách thiết lập, chạy `firecrawl --status`, đăng nhập, ghi file an toàn vào `.firecrawl/` và các cách dùng thực tế dựa trên repo.

Web Scraping

Yêu thích 0GitHub 234

firecrawl-search

bởi firecrawl

firecrawl-search là skill nghiên cứu web giúp tìm nguồn, chạy tìm kiếm có cấu trúc và tùy chọn trích xuất toàn bộ nội dung trang dưới dạng JSON bằng Firecrawl CLI.

Web Research

Yêu thích 0GitHub 234

parallel-web

bởi K-Dense-AI

parallel-web là một skill nghiên cứu và trích xuất nội dung web được hỗ trợ bởi parallel-cli. Skill này giúp bạn tìm kiếm web, trích xuất nội dung từ URL, làm giàu dữ liệu từ các nguồn, và thực hiện nghiên cứu chuyên sâu với ưu tiên cho nguồn học thuật và khoa học. Phù hợp khi bạn cần dùng parallel-web, nghiên cứu web, trích dẫn, và các quy trình làm việc ưu tiên bằng chứng.

Web Research

Yêu thích 0GitHub 0

geomaster

bởi K-Dense-AI

geomaster là một skill khoa học địa không gian dành cho GIS, viễn thám, phân tích không gian và các quy trình quan trắc Trái Đất. Hãy dùng nó cho các tác vụ Phân tích Dữ liệu như thao tác raster và vector, xử lý ảnh vệ tinh, chỉ số không gian và lập kế hoạch quy trình làm việc. Hướng dẫn geomaster giúp bạn cài đặt, xem xét và áp dụng skill này với ít phải đoán mò hơn.

Data Analysis

Yêu thích 0GitHub 0

asc-aso-audit

bởi rudrankriyam

asc-aso-audit giúp bạn thực hiện audit ASO ngoại tuyến trên metadata App Store chuẩn trong `./metadata`, rồi phát hiện khoảng trống từ khóa với Astro MCP. Hãy dùng kỹ năng asc-aso-audit sau `asc metadata pull` để rà soát `subtitle`, `keywords`, `description` và `whatsNew` với ít phải đoán mò hơn.

Data Analysis

Yêu thích 0GitHub 0

ffuf-web-fuzzing

bởi jthack

ffuf-web-fuzzing là một kỹ năng thực dụng để phát hiện nội dung web ẩn, kiểm tra route và tham số, đồng thời fuzz các mục tiêu đã xác thực bằng raw request, tự hiệu chuẩn và phân tích kết quả. Kỹ năng này phù hợp với người kiểm thử bảo mật cần một hướng dẫn ffuf-web-fuzzing có thể lặp lại cho kiểm thử xâm nhập và quy trình Security Audit.

Security Audit

Yêu thích 0GitHub 0

web-to-markdown

bởi softaworks

web-to-markdown là skill Format Conversion dùng để chuyển các trang web đang hoạt động thành Markdown sạch thông qua CLI `web2md` cục bộ, sử dụng trình duyệt họ Chromium cho các trang render bằng JS, luồng tương tác và chuyển đổi hàng loạt URL. Skill chỉ chạy khi được gọi đích danh.

Format Conversion

Yêu thích 0GitHub 1.3k

firecrawl-agent

bởi firecrawl

firecrawl-agent giúp trích xuất JSON có cấu trúc từ các website phức tạp, nhiều trang. Tìm hiểu khi nào nên dùng, cách chạy tác nhân Firecrawl CLI, thêm schema, đặt URL bắt đầu và lưu đầu ra để trích xuất dữ liệu về giá, sản phẩm và các danh mục dạng directory.

Web Scraping

Yêu thích 0GitHub 234

firecrawl-map

bởi firecrawl

firecrawl-map giúp agent khám phá và liệt kê URL trên một website, với các tùy chọn lọc tìm kiếm, giới hạn, xuất JSON, chế độ sitemap và kiểm soát subdomain trước khi scrape hoặc crawl sâu hơn.

Web Scraping

Yêu thích 0GitHub 234