작성자 affaan-m
healthcare-eval-harness는 의료 앱 배포를 위한 환자 안전 평가 하니스입니다. 릴리스 전에 팀이 CDSS 정확도, PHI 노출, 데이터 무결성, 임상 워크플로 동작, 통합 준수 여부를 검증하는 데 도움이 됩니다. 치명적 실패가 배포를 차단하므로, Model Evaluation과 CI 안전 게이트에서 healthcare-eval-harness를 활용하기에 유용합니다.
작성자 affaan-m
healthcare-eval-harness는 의료 앱 배포를 위한 환자 안전 평가 하니스입니다. 릴리스 전에 팀이 CDSS 정확도, PHI 노출, 데이터 무결성, 임상 워크플로 동작, 통합 준수 여부를 검증하는 데 도움이 됩니다. 치명적 실패가 배포를 차단하므로, Model Evaluation과 CI 안전 게이트에서 healthcare-eval-harness를 활용하기에 유용합니다.
작성자 affaan-m
eval-harness 스킬은 Claude Code 세션과 eval-driven development를 위한 정식 평가 프레임워크입니다. 패스/실패 기준을 정의하고, capability 및 regression eval을 구축하며, 프롬프트나 워크플로 변경을 배포하기 전에 에이전트의 신뢰성을 측정하는 데 도움이 됩니다.
작성자 affaan-m
agent-eval은 재현 가능한 작업으로 코딩 에이전트를 일대일로 벤치마킹하는 스킬로, 통과율, 비용, 시간, 일관성을 비교합니다. 이 agent-eval 스킬을 사용하면 Claude Code, Aider, Codex 또는 다른 에이전트를 자신의 repo에서 평가할 수 있으며, 즉흥적인 프롬프트 실험보다 더 명확한 근거를 얻을 수 있습니다.
작성자 wshobson
evaluation-methodology 스킬은 Model Evaluation을 위한 PluginEval 점수 체계를 설명합니다. 평가 레이어, 루브릭, 종합 점수 산정, 배지 기준점은 물론, 결과를 해석하고 취약한 평가 차원을 개선하는 실무적인 방법까지 다룹니다.
작성자 wshobson
llm-evaluation 스킬을 사용하면 메트릭, 사람 검토, 벤치마킹, 회귀 점검을 바탕으로 LLM 앱, 프롬프트, RAG 시스템, 모델 변경에 대한 반복 가능한 평가 계획을 설계할 수 있습니다.
작성자 github
ai-prompt-engineering-safety-review는 운영 배포, 평가, 또는 고객 대상 사용 전에 LLM 프롬프트를 점검해 안전성, 편향, 보안 취약점, 출력 품질을 검토하는 프롬프트 감사 스킬입니다.
작성자 github
agentic-eval은 reflection, rubric 기반 비평, evaluator-optimizer 패턴을 활용해 AI 출력에 대한 evaluation loop를 구축하는 방법을 보여주는 GitHub Copilot 스킬입니다.
작성자 googleworkspace
gws-modelarmor는 googleworkspace/cli 생태계에서 Google Model Armor를 다룰 수 있게 도와줍니다. 프롬프트 정제, 모델 응답 정제, 템플릿 생성에 활용할 수 있으며, 일반적인 프롬프트보다 훨씬 적은 추측으로 작업할 수 있습니다. 반복 가능하고 정책을 고려한 사용, 그리고 Security Audit 워크플로에 맞게 설계되었습니다.
작성자 huggingface
huggingface-community-evals는 inspect-ai 또는 lighteval로 Hugging Face Hub 모델 평가를 로컬에서 실행할 수 있게 도와줍니다. 백엔드 선택, 스모크 테스트, 그리고 vLLM, Transformers, accelerate 활용 가이드를 확인할 때 유용합니다. HF Jobs 오케스트레이션, model-card PR, .eval_results 게시, community-evals 자동화 용도에는 맞지 않습니다.
작성자 huggingface
huggingface-best 스킬은 Hugging Face 벤치마크 리더보드를 확인하고 기기 제한과 모델 크기를 기준으로 필터링해, 작업에 가장 적합한 모델을 찾는 데 도움을 줍니다. 코딩, 추론, 채팅, OCR, RAG, 음성, 비전, 멀티모달 작업에서, 일반적인 모델 목록이 아니라 실용적인 후보군이 필요할 때 사용하세요.
작성자 mukul975
analyzing-campaign-attribution-evidence는 분석가가 인프라 중복, ATT&CK 일관성, 멀웨어 유사성, 시점, 언어적 흔적을 함께 검토해 방어 가능한 캠페인 귀속 판단을 내리도록 돕습니다. CTI, 인시던트 분석, Security Audit 검토에 이 analyzing-campaign-attribution-evidence 가이드를 활용하세요.
작성자 trailofbits
libafl 스킬은 맞춤형 타깃, 변이 전략, 보안 감사 워크플로를 위한 LibAFL 기반 모듈형 퍼저를 계획하고 구축하는 데 도움을 줍니다. 이 libafl 가이드를 활용하면 타깃 세부 정보에서 실용적인 하니스, 피드백 모델, 실행 계획으로 더 적은 가정으로 이어갈 수 있습니다.
작성자 NeoLabHQ
judge-with-debate는 공유된 사양, 근거 기반 반박, 최대 3라운드의 토론을 통해 다중 에이전트 토론 방식으로 솔루션을 평가합니다. 코드 리뷰, 루브릭 기반 평가, 그리고 Multi-Agent Systems 워크플로우에서의 judge-with-debate에 특히 적합합니다.
작성자 muratcankoylan
evaluation 스킬은 비결정적 시스템을 위한 에이전트 평가를 설계하고 실행하는 데 도움이 됩니다. 평가 설치 계획, 루브릭, 회귀 점검, 품질 게이트, Skill Testing용 평가에 활용하세요. LLM-as-judge 워크플로, 다차원 스코어링, 그리고 반복 가능한 결과가 필요할 때의 실용적인 평가 사용에 잘 맞습니다.
작성자 mukul975
detecting-ai-model-prompt-injection-attacks는 LLM에 닿기 전에 신뢰할 수 없는 텍스트를 선별하는 보안 skill입니다. 레이어드 정규식, 휴리스틱 점수화, DeBERTa 기반 분류를 활용해 직접적·간접적 프롬프트 인젝션 공격을 탐지합니다. 챗봇 입력 검증, 문서 수집, 위협 모델링에 특히 유용합니다.
작성자 wshobson
ml-pipeline-workflow는 데이터 준비, 학습, 검증, 배포, 모니터링까지 아우르는 엔드투엔드 MLOps 파이프라인을 설계할 때 참고하기 좋은 실무형 가이드입니다. 반복 가능한 워크플로 자동화를 위한 오케스트레이션 패턴도 함께 다룹니다.