dummy-dataset

bởi phuryn

dummy-dataset tạo dữ liệu kiểm thử chân thực ở dạng CSV, JSON, SQL hoặc script Python. Công cụ này hữu ích cho bộ dữ liệu giả, bản demo, nạp dữ liệu khởi tạo cho cơ sở dữ liệu, QA và làm sạch dữ liệu, vì bạn có thể xác định cột, số lượng dòng và các ràng buộc để tạo ra bản ghi mẫu thuyết phục.

Stars11.1k

Yêu thích0

Bình luận0

Đã thêm12 thg 5, 2026

Danh mụcData Cleaning

Lệnh cài đặt

npx skills add phuryn/pm-skills --skill dummy-dataset

Điểm tuyển chọn

Skill này đạt 68/100, nghĩa là có thể đưa vào danh mục nhưng nên kèm lưu ý. Người dùng thư mục sẽ nhận được mục đích được nêu rõ, các tham số có thể dùng ngay và quy trình tạo từng bước, giúp agent kích hoạt skill này ít phải đoán hơn so với một prompt chung chung. Tuy vậy, có vẻ nó chỉ dựa trên một tệp SKILL.md duy nhất, không có script hay tài liệu hỗ trợ, nên mức độ tin cậy để áp dụng ở mức trung bình chứ chưa thật mạnh.

68/100

Điểm mạnh

Mục đích và cách kích hoạt rõ ràng: tạo bộ dữ liệu dummy chân thực cho kiểm thử, demo và phát triển.
Cấu trúc thao tác được nêu cụ thể, với các tham số đặt tên cho product, dataset type, rows, columns, format và constraints.
Quy trình từng bước cùng các định dạng đầu ra (CSV, JSON, SQL, Python script) cho agent một lộ trình thực thi cụ thể.

Điểm cần lưu ý

Bằng chứng từ repository cho thấy không có script, tài liệu tham khảo hay tài nguyên hỗ trợ, nên độ tin cậy và chiều sâu chỉ dừng ở phần nội dung prompt.
Các tín hiệu mang tính thử nghiệm/kiểu test cho thấy skill này phù hợp nhất với tác vụ dữ liệu mẫu, không phải quy trình tạo dữ liệu đạt chuẩn production.

Dataset CSV Json Sql Python

Tổng quan

Tổng quan về skill dummy-dataset

dummy-dataset làm gì

Skill dummy-dataset giúp bạn tạo nhanh dữ liệu kiểm thử trông thực tế: CSV, JSON, SQL, hoặc một script Python có thể sinh dữ liệu về sau. Skill này phù hợp nhất cho những ai cần bản ghi mẫu đáng tin để QA, demo, seed data, hoặc dựng pipeline nguyên mẫu — chứ không chỉ là dữ liệu lấp chỗ trống ngẫu nhiên. Giá trị thật sự của dummy-dataset là cho phép bạn mô tả miền dữ liệu, các cột, số lượng dòng và ràng buộc, ताकि đầu ra dùng được thay vì nhìn là biết dữ liệu giả.

Khi nào skill này là lựa chọn phù hợp

Hãy dùng dummy-dataset cho Data Cleaning, kiểm thử sản phẩm, mockup phân tích, xác thực biểu mẫu và seed database khi bạn cần dữ liệu nhất quán giữa các trường. Đây là lựa chọn mạnh nếu bạn quan tâm đến các mối quan hệ như ngày tháng, danh mục, ID hoặc khoảng giá trị hợp lý. Skill này kém hữu ích hơn nếu bạn chỉ cần ví dụ toy một lần, hoặc nếu tác vụ của bạn đã có sẵn lược đồ thật từ production.

Điều gì làm nó khác biệt

Khác với một prompt chung chung, skill dummy-dataset ngay từ đầu đã tập trung vào định dạng đầu ra và các ràng buộc. Điều đó rất quan trọng khi bạn cần dữ liệu có thể import hoặc chạy được thật, chứ không chỉ để đọc. Điểm quyết định chính là bạn muốn file dùng được ngay hay muốn một script sinh lại được; skill này hỗ trợ cả hai.

Cách sử dụng skill dummy-dataset

Cài đặt dummy-dataset

Cài skill dummy-dataset vào môi trường skills của bạn bằng:

npx skills add phuryn/pm-skills --skill dummy-dataset

Sau khi cài, hãy mở file skill trước để hiểu đầu vào kỳ vọng và kiểu đầu ra trước khi dùng nó trong một quy trình lớn hơn.

Đọc đúng các file trước

Bắt đầu với SKILL.md, sau đó kiểm tra README.md, AGENTS.md, metadata.json, và các thư mục rules/, resources/, references/, hoặc scripts/ nếu chúng tồn tại trong môi trường của bạn. Với repository này, SKILL.md là nguồn tham chiếu chính vì skill khá gọn và không phụ thuộc vào các file hỗ trợ. Nếu bạn dùng dummy-dataset cho một workflow thực tế, hãy đọc phần template sinh dữ liệu và phần ví dụ trước khi yêu cầu đầu ra cuối cùng.

Đưa ra prompt mà skill có thể thực thi

Một yêu cầu dùng dummy-dataset tốt nên bao gồm mục đích của bộ dữ liệu, các trường, số lượng dòng, định dạng và ràng buộc. Ví dụ: “Generate a 500-row dummy-dataset for a SaaS billing app with columns for customer_id, plan, signup_date, churned, and MRR in CSV format; keep IDs unique, dates within the last 18 months, and churned consistent with subscription status.” Cách này tốt hơn nhiều so với “make sample data”, vì nó cho skill đủ cấu trúc để giữ cho bộ dữ liệu có vẻ hợp lý.

Workflow tốt nhất để tăng chất lượng đầu ra

Hãy dùng skill theo hai lượt: trước hết xác định đặc tả bộ dữ liệu, rồi tinh chỉnh đầu ra sau khi kiểm tra xem các trường và ràng buộc đã thực tế chưa. Nếu bạn cần dummy-dataset cho Data Cleaning, hãy chủ động yêu cầu các case biên như giá trị thiếu, trùng lặp, email sai định dạng, hoặc định dạng ngày không nhất quán. Nếu bạn cần một script, hãy nói rõ ngôn ngữ và môi trường thực thi ngay từ đầu để đầu ra khớp với bộ công cụ của bạn.

Câu hỏi thường gặp về skill dummy-dataset

dummy-dataset có phù hợp cho dữ liệu kiểm thử giống production không?

Có, nếu bạn cần các bản ghi mock đáng tin với cấu trúc được kiểm soát. Skill dummy-dataset hữu ích khi các công cụ phía sau phụ thuộc vào tính nhất quán của trường dữ liệu, nhưng nó vẫn là dữ liệu tổng hợp, vì vậy không nên xem như dữ liệu người dùng thật hay mô hình thống kê của doanh nghiệp bạn.

Có cần biết lập trình để dùng không?

Không. Người mới có thể dùng dummy-dataset bằng cách mô tả bộ dữ liệu bằng ngôn ngữ tự nhiên và chỉ định định dạng mong muốn. Đầu vào càng chính xác thì kết quả càng tốt, nhưng bạn không cần viết code trừ khi muốn script Python hoặc đầu ra SQL insert.

Khi nào không nên dùng skill này?

Đừng dùng dummy-dataset khi bạn cần ẩn danh bản ghi thật, sinh dữ liệu tổng hợp tuân thủ pháp lý, hoặc sao chép chính xác một schema production có các ràng buộc nhạy cảm. Trong những trường hợp đó, một data pipeline chuyên dụng hoặc công cụ có nhận thức về quyền riêng tư có thể phù hợp hơn một hướng dẫn dummy-dataset dựa trên prompt.

Nó có tốt hơn prompt thông thường không?

Thường là có, vì skill dummy-dataset buộc bạn xác định đồng thời cột dữ liệu, quy tắc nghiệp vụ và định dạng đầu ra. Prompt thông thường hay bỏ sót một trong các phần đó, khiến dữ liệu nhìn ổn lúc lướt qua nhưng lại lỗi khi import, kiểm thử hoặc xác thực.

Cách cải thiện skill dummy-dataset

Đưa đặc tả bộ dữ liệu chặt hơn

Cải thiện chất lượng lớn nhất đến từ việc mô tả miền dữ liệu theo trường và quy tắc, chứ không chỉ theo chủ đề. Thay vì “generate customer data,” hãy yêu cầu các trường cụ thể như customer_id, segment, signup_date, lifetime_value, và status, kèm các quy tắc như “lifetime_value should vary by segment” hoặc “signup_date cannot be in the future.” Cách này làm cho dummy-dataset đáng tin cậy hơn nhiều.

Thêm các ràng buộc quan trọng ở đầu ra sau cùng

Nếu bạn định làm sạch, xác thực hoặc import dữ liệu, hãy nói rõ điều gì phải đúng sau khi sinh xong. Nhắc đến tính duy nhất, tỷ lệ null, khoảng ngày, enum được phép, quan hệ kiểu foreign key, và yêu cầu định dạng. Với dummy-dataset cho Data Cleaning, hãy cố ý yêu cầu lỗi có kiểm soát để bộ dữ liệu thật sự kiểm tra logic làm sạch của bạn.

Lặp lại từ lỗi, không phải từ sở thích

Sau lần đầu tiên, hãy tập trung chỉnh những gì phá vỡ workflow: tên cột tệ, khoảng giá trị phi thực tế, thiếu case biên, hoặc định dạng khó nạp. Sau đó hãy yêu cầu một phiên bản dummy-dataset đã sửa với một hoặc hai thay đổi cụ thể thay vì nhắc lại toàn bộ yêu cầu. Cách này giữ cho đầu ra thực dụng và tránh bị tối ưu quá mức cho những chi tiết chỉ mang tính hình thức.

Đánh giá & nhận xét

Chưa có đánh giá nào

Chia sẻ nhận xét của bạn

Đăng nhập để chấm điểm và để lại nhận xét cho skill này.

0/10000

Nhận xét mới nhất

Đang lưu...

Thêm skill trong danh mục này

lamindb

bởi K-Dense-AI

Skill lamindb giúp bạn làm việc với LaminDB, một framework dữ liệu sinh học mã nguồn mở để biến dữ liệu thành dạng có thể truy vấn, truy vết, tái lập và tuân thủ FAIR. Dùng nó cho lamindb trong Phân tích dữ liệu, biên soạn metadata, chú thích dựa trên ontology, kiểm tra schema và các quy trình làm việc có nhận biết lineage trên notebook và pipeline.

Data Analysis

Yêu thích 0GitHub 0

exploratory-data-analysis

bởi K-Dense-AI

Kỹ năng exploratory-data-analysis biến các tệp khoa học thành báo cáo EDA có nhận biết định dạng. Kỹ năng này phát hiện loại tệp, tóm tắt cấu trúc và chất lượng, trích xuất siêu dữ liệu quan trọng và gợi ý hướng phân tích tiếp theo. Dùng kỹ năng exploratory-data-analysis cho Data Analysis trong các lĩnh vực hóa học, tin sinh học, hiển vi, quang phổ, proteomics, metabolomics và các định dạng tệp khoa học khác.

Data Analysis

Yêu thích 0GitHub 0

read-file

bởi duckdb

read-file giúp tác nhân đọc và kiểm tra các file CSV, JSON, Parquet, Avro, Excel, SQLite, file không gian địa lý hoặc URL từ xa bằng DuckDB. Dùng nó để xem trước vài dòng, kiểm tra schema, phân tích dữ liệu và trả lời câu hỏi “trong file này có gì”. Phù hợp nhất cho việc dùng read-file với dữ liệu thực tế, không phải mã nguồn.

Office Documents

Yêu thích 0GitHub 443

data-quality-frameworks

bởi wshobson

Skill data-quality-frameworks giúp các nhóm lập kế hoạch kiểm định dữ liệu production bằng dbt tests, Great Expectations và data contracts. Hãy dùng skill này để chọn đúng loại kiểm tra, ánh xạ chúng vào testing pyramid và định hướng quy trình data quality sẵn sàng cho CI/CD nhằm phục vụ Data Cleaning và tăng độ tin cậy của pipeline.

Data Cleaning

Yêu thích 0GitHub 32.6k

data-analyst

bởi Shubhamsaboo

data-analyst là một skill GitHub tối giản, định hướng tác nhân sử dụng SQL, pandas và phân tích thống kê cơ bản để khám phá dữ liệu. Phù hợp nhất với người dùng muốn truy vấn, biến đổi và diễn giải có mã nguồn hỗ trợ chỉ từ một lớp prompt SKILL.md duy nhất.

Data Analysis

Yêu thích 0GitHub 104.2k

frontend-design

bởi anthropics

frontend-design giúp biến ý tưởng UI mơ hồ thành giao diện khác biệt, sẵn sàng production, với frontend code thực tế, định hướng thẩm mỹ rõ ràng và ít kiểu AI chung chung.

UI Design

Yêu thích 1GitHub 105.2k

create-colleague

bởi titanwings

create-colleague biến tài liệu đồng nghiệp, chat, email, ảnh chụp màn hình, dữ liệu Feishu và DingTalk thành một AI skill có thể chỉnh sửa, với đầu ra tách riêng phần công việc và chân dung, kèm các luồng cập nhật để tiếp tục tinh chỉnh theo thời gian.

Skill Authoring

Yêu thích 1GitHub 747

hyperframes

bởi heygen-com

hyperframes là một skill quy trình để xây dựng các bố cục video dựa trên HTML trong HyperFrames. Hãy dùng nó cho thẻ tiêu đề, lớp phủ, phụ đề, lồng tiếng, chuyển động phản ứng theo âm thanh và chuyển cảnh khi bạn cần hyperframes có cấu trúc, ưu tiên mã nguồn cho Video Editing. Skill này đề cao quyết định về bố cục, thời gian và hoạt ảnh hơn là các yêu cầu video chung chung chỉ dựa trên prompt.

Video Editing

Yêu thích 0GitHub 2.7k

kreuzberg

bởi kreuzberg-dev

Kreuzberg skill giúp bạn cài đặt và dùng Kreuzberg để trích xuất tài liệu trên hơn 91 định dạng, bao gồm PDF, file Office, hình ảnh, HTML, email và archive. Nội dung bao phủ các quy trình với Python, Node.js/TypeScript, Rust và CLI cho OCR, bảng biểu, metadata, xử lý hàng loạt và hướng dẫn phân tích cú pháp thực tế.

PDF Processing

Yêu thích 0GitHub 0

skill-creator

bởi anthropics

skill-creator là meta-skill soạn thảo skill, dùng để tạo skill mới, chỉnh sửa file SKILL.md hiện có, chạy eval, so sánh các biến thể và cải thiện mô tả trigger bằng script trong repo cùng công cụ review.

Skill Authoring

Yêu thích 2GitHub 105.1k

azure-identity-py

bởi microsoft

azure-identity-py giúp thiết lập xác thực Azure trong Python với Microsoft Entra ID. Hãy dùng skill này để chọn giữa DefaultAzureCredential, managed identity hoặc xác thực bằng service principal, cấu hình biến môi trường và xử lý các vấn đề về kiểm soát truy cập cũng như chuỗi credential. Hướng dẫn cài đặt, mẫu sử dụng và các lưu ý thiết lập thực tế đều được xây dựng dựa trên file skill của repo.

Access Control

Yêu thích 0GitHub 2.2k

claude-api

bởi anthropics

claude-api là kỹ năng thực tiễn để cài đặt và sử dụng Claude API cùng các Anthropic SDK. Nội dung giúp lập trình viên chọn đúng SDK hoặc dùng HTTP thô, tìm tài liệu theo ngôn ngữ, và triển khai streaming, tool use, files, batches cùng xử lý lỗi với ít phỏng đoán hơn.

API Development

Yêu thích 0GitHub 105k

wrangler

bởi cloudflare

wrangler skill giúp bạn tìm đúng lệnh CLI, cấu trúc cấu hình và các bước triển khai cho Cloudflare Workers. Hãy dùng nó khi cần tra cứu cách dùng wrangler, kiểm tra cài đặt wrangler, hoặc cần một hướng dẫn wrangler thực tế khi xây dựng hay phát hành Workers cho Backend Development.

Backend Development

Yêu thích 0GitHub 1.3k

clickhouse-best-practices

bởi ClickHouse

clickhouse-best-practices là skill best practices cho ClickHouse dành cho Database Engineering. Skill này hướng dẫn thiết kế schema, tối ưu truy vấn, chiến lược insert và kết nối agent bằng các khuyến nghị theo quy tắc, giúp việc kích hoạt, rà soát và trích dẫn cách dùng clickhouse-best-practices trong các workflow ClickHouse trở nên dễ dàng hơn.

Database Engineering

Yêu thích 0GitHub 412

clickhouse-architecture-advisor

bởi ClickHouse

clickhouse-architecture-advisor giúp thiết kế workload ClickHouse với các quyết định dựa trên đặc tính tải như ingest, phân vùng, join, dictionary, upsert và pre-aggregation. Skill này đặc biệt hữu ích cho Backend Development, observability, SIEM, product analytics, IoT telemetry và các pipeline tài chính. Skill cũng gắn nhãn khuyến nghị theo mức độ official, derived hoặc field.

Backend Development

Yêu thích 0GitHub 412

figma-generate-library

bởi figma

figma-generate-library giúp bạn xây dựng hoặc cập nhật một hệ thống thiết kế Figma từ một codebase, theo quy trình có thứ tự cho tokens, thư viện component, tài liệu và theming sáng/tối. Hãy dùng skill figma-generate-library khi bạn cần một hướng dẫn thực chiến cho Design Systems, không phải một mockup làm một lần. Skill này bổ trợ cho figma-use khi cần gọi Plugin API.

Design Systems

Yêu thích 0GitHub 0