healthcare-eval-harness

bởi affaan-m

healthcare-eval-harness là một bộ đánh giá an toàn bệnh nhân cho các triển khai ứng dụng y tế. Nó giúp nhóm kiểm tra độ chính xác của CDSS, nguy cơ lộ PHI, tính toàn vẹn dữ liệu, hành vi quy trình lâm sàng và mức độ tuân thủ tích hợp trước khi phát hành. Các lỗi nghiêm trọng sẽ chặn triển khai, vì vậy healthcare-eval-harness hữu ích cho Model Evaluation và các cổng an toàn CI.

Stars156.2k

Yêu thích0

Bình luận0

Đã thêm15 thg 4, 2026

Danh mụcModel Evaluation

Lệnh cài đặt

npx skills add affaan-m/everything-claude-code --skill healthcare-eval-harness

Điểm tuyển chọn

Skill này đạt 78/100, nghĩa là đây là một lựa chọn khá tốt cho người dùng thư mục đang tìm bộ kiểm thử an toàn triển khai trong y tế. Repository thể hiện một quy trình làm việc thực tế, có thể kích hoạt được để đánh giá các thay đổi EMR/EHR, cùng các cổng an toàn rõ ràng cho độ chính xác CDSS, lộ PHI, tính toàn vẹn dữ liệu, quy trình lâm sàng và tuân thủ tích hợp. Đây là lựa chọn đáng cài nếu bạn muốn một bộ test có cấu trúc thay vì một prompt chung chung, dù cần lưu ý rằng nó thiên về framework kiểm thử và không đi kèm script hỗ trợ hay tài liệu tham chiếu.

78/100

Điểm mạnh

Điều kiện kích hoạt rất rõ theo ngữ cảnh y tế: dùng trước khi triển khai EMR/EHR, thay đổi CDSS, thay đổi schema liên quan đến dữ liệu bệnh nhân và thay đổi xác thực.
Các cổng kiểm soát có ý nghĩa vận hành: lỗi nghiêm trọng sẽ chặn triển khai, với ngưỡng đạt cụ thể cho các nhóm tiêu chí tập trung vào an toàn.
Định hướng quy trình tốt: nội dung mô tả các nhóm kiểm thử theo thứ tự và hướng dẫn thích ứng độc lập với framework, giúp agent thực thi ít phải đoán hơn.

Điểm cần lưu ý

Không có lệnh cài đặt, script hay file tham chiếu hỗ trợ, nên khi áp dụng người dùng phải tự chuyển bộ harness sang framework kiểm thử của mình.
Repository được gắn tín hiệu thử nghiệm/test, vì vậy người dùng nên xác minh nó phù hợp với tiêu chuẩn CI/CD và thẩm định lâm sàng trước khi dựa vào.

Testing Evaluation Ci Cd Medical Regression Testing Jest

Tổng quan

Tổng quan về skill healthcare-eval-harness

healthcare-eval-harness là gì

healthcare-eval-harness là một skill an toàn triển khai dành cho các đội ngũ phần mềm y tế cần xác minh thay đổi trước khi phát hành cho người dùng bệnh nhân. Skill này tập trung vào đánh giá dựa trên mô hình và quy tắc cho hỗ trợ quyết định lâm sàng, rò rỉ PHI, tính toàn vẹn dữ liệu, tính đúng của luồng công việc, và hành vi tích hợp. Mục tiêu không phải QA chung chung; mục tiêu là ngăn các thay đổi y tế không an toàn được đưa lên production.

Ai nên dùng

Skill healthcare-eval-harness này phù hợp với kỹ sư, lead QA, team MLOps, và team tin học lâm sàng đang làm việc trên EMR, EHR, CDSS, hoặc các ứng dụng y tế liên quan. Nó hữu ích nhất khi một lỗi có thể ảnh hưởng đến liều dùng, phân luồng, kiểm soát truy cập, hoặc dữ liệu bệnh nhân thuộc diện quản lý chặt. Nếu bạn chỉ cần một prompt nhẹ cho ứng dụng không mang tính lâm sàng, thì skill này có lẽ quá nghiêm ngặt.

Điều gì làm nó khác biệt

Repository này xem các cổng an toàn như tiêu chí phát hành bắt buộc: lỗi nghiêm trọng sẽ chặn triển khai thay vì chỉ được ghi như cảnh báo. Điều đó khiến healthcare-eval-harness hữu ích khi bạn cần một mẫu đánh giá có thể cài đặt và áp dụng được, chứ không chỉ là một checklist. Nó cũng yêu cầu bạn điều chỉnh harness theo test runner của mình, nhờ vậy có thể dùng linh hoạt với Jest, Vitest, pytest, hoặc PHPUnit.

Cách dùng skill healthcare-eval-harness

Cài đặt và kiểm tra skill

Cài bằng npx skills add affaan-m/everything-claude-code --skill healthcare-eval-harness. Sau đó đọc trước skills/healthcare-eval-harness/SKILL.md, rồi đến bất kỳ hướng dẫn nào được liên kết ở root repo nếu bạn đang dùng gói rộng hơn. Với skill này, giá trị chính nằm ở các quy tắc đánh giá và ngưỡng chặn, nên đừng bỏ qua các phần “When to Use” và “How It Works”.

Biến tác vụ của bạn thành một prompt hữu ích

Một prompt tốt cho healthcare-eval-harness nên nêu rõ hệ thống đang kiểm thử, loại thay đổi, test runner, và mối lo an toàn. Ví dụ: “Apply healthcare-eval-harness to our EHR medication order flow in pytest. We changed dose validation and role-based access, and I need the critical gates to block release on PHI leakage or unsafe dosing failures.” Như vậy tốt hơn rất nhiều so với “Run the healthcare skill.”

Quy trình khuyến nghị

Hãy dùng skill này khi thay đổi chạm đến dữ liệu bệnh nhân, logic lâm sàng, hoặc cơ chế kiểm soát triển khai. Trước hết, map tính năng của bạn vào năm nhóm đánh giá, rồi xác định nhóm nào là critical và nhóm nào là high priority. Tiếp theo, chuyển các quy tắc đó vào framework và pipeline CI hiện có của bạn, rồi mới chạy kiểm tra. Quyết định quan trọng nhất là bộ test của bạn có thật sự phản ánh kiểu lỗi lâm sàng mà bạn muốn ngăn chặn hay không.

Nên đọc gì trước

Hãy bắt đầu với SKILL.md để nắm cấu trúc gate, ngưỡng pass, và giới hạn sử dụng. Đặc biệt chú ý các ví dụ dùng Jest chỉ như tài liệu tham chiếu; skill này độc lập với framework, nên bạn cần điều chỉnh file paths, commands, và assertions cho phù hợp với stack của mình. Nếu repo của bạn đã có cách tổ chức test riêng, hãy bám theo cấu trúc đó thay vì ép nó vào một layout chung chung.

Câu hỏi thường gặp về skill healthcare-eval-harness

healthcare-eval-harness có chỉ dùng cho Jest không?

Không. Jest chỉ được dùng làm ví dụ, còn healthcare-eval-harness được thiết kế để hoạt động với bất kỳ test runner nghiêm túc nào. Điều quan trọng là giữ logic critical gate, thứ tự các nhóm đánh giá, và pass thresholds trong công cụ của riêng bạn.

Đây có giống một prompt QA y tế thông thường không?

Không. Một prompt thông thường có thể sinh test, nhưng skill healthcare-eval-harness cho bạn một mô hình đánh giá có thể cài đặt được với hành vi chặn rõ ràng. Điều đó rất quan trọng khi bạn cần quyết định triển khai đáng tin cậy cho thay đổi trong ứng dụng y tế.

Khi nào không nên dùng?

Đừng dùng healthcare-eval-harness cho thay đổi nội dung ít rủi ro, trang marketing, hoặc các tính năng không chạm đến an toàn bệnh nhân, quy trình lâm sàng, hay dữ liệu được quản lý. Nó cũng có thể là quá mức nếu team của bạn không đủ kỷ luật để duy trì bộ test phản ánh đúng rủi ro lâm sàng thực tế.

Có thân thiện với người mới không?

Có, nếu bạn đã biết các khái niệm cơ bản về testing và CI. Tuy nhiên, đây không phải là bài hướng dẫn về tuân thủ y tế, nên người mới vẫn sẽ cần review từ chuyên môn để xác định ngưỡng, edge case, và điều gì được tính là lỗi nghiêm trọng.

Cách cải thiện skill healthcare-eval-harness

Cung cấp ngữ cảnh lâm sàng sắc nét hơn

Kết quả tốt nhất với healthcare-eval-harness đến từ đầu vào cụ thể: quy trình bệnh nhân, lỗi bạn lo ngại, các trường dữ liệu liên quan, và hành vi an toàn mong đợi. “Test the app” là quá yếu; “test that a medication order with an allergy match blocks submission and logs the reason” mới là yêu cầu có thể hành động được.

Làm rõ các cổng chặn lỗi

Hãy nêu rõ lỗi nào phải chặn triển khai và lỗi nào chỉ cần cảnh báo mức ưu tiên cao. Nếu bạn muốn skill này đánh giá healthcare AI cho Model Evaluation, hãy nói rõ bạn quan tâm nhiều hơn đến hallucination risk, PHI leakage, guideline adherence, hay workflow breakage. Cổng càng rõ, đầu ra càng ít phải đoán mò.

Lặp lại dựa trên các lỗi thực tế

Sau lần chạy đầu tiên, hãy đối chiếu output của harness với các sự cố thật, near miss, hoặc phản hồi của bác sĩ lâm sàng. Siết chặt các assertion ở nơi hành vi không an toàn đã lọt qua, và chỉ nới lỏng những kiểm tra tạo ra nhiễu mà không cải thiện an toàn. Chính vòng phản hồi này mới khiến healthcare-eval-harness hữu ích vượt ra ngoài phạm vi của một prompt dùng một lần.

Đánh giá & nhận xét

Chưa có đánh giá nào

Chia sẻ nhận xét của bạn

Đăng nhập để chấm điểm và để lại nhận xét cho skill này.

0/10000

Nhận xét mới nhất

Đang lưu...

Thêm skill trong danh mục này

evaluation-methodology

bởi wshobson

Skill evaluation-methodology giải thích cách chấm điểm PluginEval cho Model Evaluation, bao gồm các lớp đánh giá, rubric, điểm tổng hợp, ngưỡng badge và hướng dẫn thực tế để đọc kết quả cũng như cải thiện các khía cạnh còn yếu.

Model Evaluation

Yêu thích 0GitHub 32.6k

self-eval

bởi alirezarezvani

self-eval là một Claude Code skill dạng prompt-only để rà soát công việc một cách trung thực sau khi hoàn tất. Skill này dùng chấm điểm theo hai trục, lập luận kiểu devil's advocate, lưu lịch sử điểm và kiểm tra chống nâng điểm để đánh giá chất lượng công việc AI sau các tác vụ, code review hoặc phiên làm việc.

Model Evaluation

Yêu thích 0GitHub 22.2k

eval-harness

bởi affaan-m

Skill eval-harness là một khung đánh giá chính thức cho các phiên Claude Code và quy trình phát triển theo eval. Nó giúp bạn xác định tiêu chí đạt/không đạt, xây dựng các eval về năng lực và hồi quy, đồng thời đo độ tin cậy của agent trước khi triển khai các thay đổi về prompt hoặc workflow.

Model Evaluation

Yêu thích 0GitHub 156.1k

agent-eval

bởi affaan-m

agent-eval là skill dùng để benchmark các coding agent theo kiểu đối đầu trên những tác vụ có thể tái lập, so sánh tỷ lệ pass, chi phí, thời gian và độ ổn định. Hãy dùng skill agent-eval để đánh giá Claude Code, Aider, Codex hoặc agent khác ngay trong repo của bạn với cơ sở rõ ràng hơn nhiều so với cách prompt thủ công, rời rạc.

Model Evaluation

Yêu thích 0GitHub 156k

huggingface-community-evals

bởi huggingface

huggingface-community-evals giúp bạn chạy đánh giá model trên Hugging Face Hub ngay trên máy cục bộ với inspect-ai hoặc lighteval. Dùng khi cần chọn backend, chạy smoke test, và xem hướng dẫn thực tế cho vLLM, Transformers hoặc accelerate. Không phù hợp cho điều phối HF Jobs, tạo PR cho model card, xuất bản .eval_results, hay tự động hóa community-evals.

Model Evaluation

Yêu thích 0GitHub 10.4k

huggingface-best

bởi huggingface

Kỹ năng huggingface-best giúp bạn tìm model phù hợp nhất cho một tác vụ bằng cách kiểm tra bảng xếp hạng benchmark trên Hugging Face và lọc theo giới hạn thiết bị cũng như kích thước model. Hãy dùng khi cần gợi ý model cho lập trình, suy luận, chat, OCR, RAG, giọng nói, thị giác máy tính hoặc tác vụ đa phương thức, và bạn muốn một danh sách rút gọn thực dụng thay vì một danh sách model chung chung.

Model Evaluation

Yêu thích 0GitHub 10.4k

libafl

bởi trailofbits

Skill libafl giúp bạn lập kế hoạch và xây dựng các fuzzer mô-đun bằng LibAFL cho target tùy biến, chiến lược mutation riêng và quy trình kiểm thử bảo mật. Dùng hướng dẫn libafl này để đi từ thông tin target đến một harness thực tế, mô hình feedback và kế hoạch chạy với ít giả định hơn.

Security Audit

Yêu thích 0GitHub 5k

evaluation

bởi muratcankoylan

Skill evaluation giúp bạn thiết kế và chạy đánh giá agent cho các hệ thống không xác định. Dùng cho lập kế hoạch cài đặt evaluation, xây dựng rubric, kiểm tra hồi quy, thiết lập quality gate và evaluation cho Skill Testing. Skill này phù hợp với quy trình LLM-as-judge, chấm điểm đa chiều và các nhu cầu evaluation thực tế khi bạn cần kết quả có thể lặp lại.

Skill Testing

Yêu thích 0GitHub 0

judge-with-debate

bởi NeoLabHQ

judge-with-debate đánh giá các giải pháp thông qua tranh luận đa tác nhân có cấu trúc, sử dụng một đặc tả chung, phản biện dựa trên bằng chứng và tối đa 3 vòng để đi đến đồng thuận. Kỹ năng này rất phù hợp cho code review, đánh giá theo rubric, và quy trình judge-with-debate trong Multi-Agent Systems.

Multi-Agent Systems

Yêu thích 0GitHub 982

gws-modelarmor

bởi googleworkspace

gws-modelarmor giúp bạn làm việc với Google Model Armor trong hệ sinh thái googleworkspace/cli. Dùng nó để làm sạch prompt, làm sạch phản hồi của model và tạo template với ít phải đoán mò hơn so với một prompt chung chung. Kỹ năng này được thiết kế cho các quy trình sử dụng lặp lại, có nhận biết chính sách và cho các luồng công việc Security Audit.

Security Audit

Yêu thích 0GitHub 25.5k

analyzing-campaign-attribution-evidence

bởi mukul975

analyzing-campaign-attribution-evidence giúp analyst cân nhắc độ chồng lấn hạ tầng, mức độ nhất quán với ATT&CK, độ tương đồng của malware, thời điểm và dấu vết ngôn ngữ để đưa ra kết luận quy kết chiến dịch có cơ sở vững chắc. Dùng hướng dẫn analyzing-campaign-attribution-evidence này cho CTI, phân tích sự cố và rà soát Security Audit.

Security Audit

Yêu thích 0GitHub 6.1k

detecting-ai-model-prompt-injection-attacks

bởi mukul975

detecting-ai-model-prompt-injection-attacks là một skill an ninh mạng dùng để sàng lọc văn bản không đáng tin cậy trước khi nội dung đó đến LLM. Skill này kết hợp regex nhiều lớp, chấm điểm theo heuristic và phân loại dựa trên DeBERTa để phát hiện các tấn công prompt injection trực tiếp lẫn gián tiếp. Hữu ích cho kiểm tra đầu vào chatbot, nạp tài liệu và Threat Modeling.

Threat Modeling

Yêu thích 0GitHub 0

honeyhive-automation

bởi ComposioHQ

honeyhive-automation giúp Claude tự động hóa quy trình Honeyhive thông qua Composio Rube MCP, với kiểm tra thiết lập, xác minh kết nối đang hoạt động và khám phá công cụ theo schema trước khi thực hiện hành động.

Workflow Automation

Yêu thích 0GitHub 67.5k

llm-evaluation

bởi wshobson

Dùng kỹ năng llm-evaluation để thiết kế kế hoạch đánh giá có thể lặp lại cho ứng dụng LLM, prompt, hệ thống RAG và các thay đổi mô hình với metric, đánh giá thủ công, benchmarking và kiểm tra hồi quy.

Model Evaluation

Yêu thích 0GitHub 32.6k

ai-prompt-engineering-safety-review

bởi github

ai-prompt-engineering-safety-review là kỹ năng kiểm tra prompt giúp rà soát prompt LLM về độ an toàn, thiên lệch, điểm yếu bảo mật và chất lượng đầu ra trước khi đưa vào production, đánh giá hoặc dùng cho khách hàng.

Model Evaluation

Yêu thích 0GitHub 27.8k

agentic-eval

bởi github

agentic-eval là một skill GitHub Copilot minh họa cách xây dựng các vòng lặp đánh giá cho đầu ra AI bằng reflection, phê bình theo rubric và các mô hình evaluator-optimizer.

Model Evaluation

Yêu thích 0GitHub 27.8k