作者 affaan-m
healthcare-eval-harness 是一個用於醫療應用部署的病人安全評估 harness。它能協助團隊在發布前驗證 CDSS 準確性、PHI 暴露、資料完整性、臨床工作流程行為,以及整合合規性。重大失敗會阻擋部署,因此它很適合用於 healthcare-eval-harness 的 Model Evaluation 與 CI 安全閘門。
作者 affaan-m
healthcare-eval-harness 是一個用於醫療應用部署的病人安全評估 harness。它能協助團隊在發布前驗證 CDSS 準確性、PHI 暴露、資料完整性、臨床工作流程行為,以及整合合規性。重大失敗會阻擋部署,因此它很適合用於 healthcare-eval-harness 的 Model Evaluation 與 CI 安全閘門。
作者 affaan-m
eval-harness 技能是一套正式的評估框架,適用於 Claude Code 工作階段與 eval-driven development。它能幫助你定義通過/失敗標準、建立能力與回歸評測,並在正式推出提示詞或工作流程變更前,衡量 agent 的可靠性。
作者 affaan-m
continuous-agent-loop 可協助 agents 以可重複的自主迴圈執行工作,並搭配品質關卡、evals、復原步驟與清楚的停止規則,提升任務完成的可靠性。
作者 muratcankoylan
context-degradation 是一個實用技能,用於診斷長流程中的上下文失效,包括 lost-in-the-middle、poisoning、distraction、confusion 和 clash。可用來找出上下文在哪裡斷裂、判斷應先改什麼,並套用可重複使用的 context-degradation 指南,支援 Skill Authoring、prompt 放置與 production agent debugging。
作者 huggingface
huggingface-community-evals 可協助你在本機使用 inspect-ai 或 lighteval 執行 Hugging Face Hub 模型評測。適合用於後端選擇、冒煙測試,以及了解 vLLM、Transformers 或 accelerate 的實作指南。不適用於 HF Jobs 協調、model-card PR、.eval_results 發佈,或 community-evals 自動化。
作者 microsoft
azure-ai-projects-py 是 Microsoft Foundry 專案用戶端的 Azure AI Projects Python SDK 技能。適合用於安裝、驗證、用戶端設定、使用 PromptAgentDefinition 的版本化 agent,以及評估、連線、部署、資料集、索引與相容 OpenAI 的存取。最適合 Python 後端開發流程。
作者 mcollina
skill-optimizer 協助作者提升 AI 技能的啟動率、清晰度與跨模型可靠性。適合用於 Skill Authoring:當技能已寫好卻不夠穩定地被遵循、觸發條件太弱、出現迴歸,或需要壓低上下文成本時。它支援基準測試迴圈、發布閘門,以及更高的使用一致性。
作者 NeoLabHQ
tree-of-thoughts 是一種推理工作流程技能,能協助代理探索多種做法、修剪較弱的分支,並整合出更好的答案。它適合困難的除錯、規劃、架構取捨,以及用於 Agent Orchestration 的 tree-of-thoughts。
作者 NeoLabHQ
Judge 是一個兩階段評估技能,會先啟動 meta-judge,再由 judge 子代理在隔離上下文中,依據證據與明確標準替工作內容打分。當你需要一份可辯護的 judge 指南,而不是隨性意見時,可用於程式碼、寫作、分析或 Skill Authoring 的報告式審查。
作者 NeoLabHQ
judge-with-debate 透過結構化的多代理辯論來評估解決方案,使用共享規格、以證據為基礎的反駁,以及最多 3 輪討論來達成共識。它很適合用於程式碼審查、依評分規準的評估,以及 Multi-Agent Systems 工作流程中的 judge-with-debate。
作者 NeoLabHQ
do-and-judge 技能會以子代理的實作步驟、獨立判定者與重試驗證機制來執行單一任務,直到通過或達到最大重試次數為止。當你需要明確的驗收標準、隔離式執行,以及比通用提示詞更少的猜測時,可在 Workflow Automation 中使用 do-and-judge。
作者 NeoLabHQ
do-competitively 協助你透過平行候選生成、依評分準則判斷,以及以證據為本的綜合,來解決重要任務。它最適合 Workflow Automation 與其他高風險請求,這類工作比速度更重視品質、穩健性與權衡取捨。
作者 K-Dense-AI
scholar-evaluation 可用結構化評分來評估學術與研究工作,涵蓋問題界定、方法論、分析、寫作與發表準備度。適合用於學術審稿、修訂規劃,以及對論文、提案、文獻回顧與其他學術草稿提供一致的回饋。
作者 muratcankoylan
evaluation 技能可協助你為非決定性系統設計並執行 agent 評估。可用於評估安裝規劃、評分規準、回歸檢查、品質把關,以及 Skill Testing 的評估工作。它適合 LLM-as-judge 工作流程、多維度評分,以及需要可重複結果時的實務評估使用。
作者 NeoLabHQ
critique 是一個僅回報結果的 review 技能,透過多個專門評審、辯論與共識機制來評估已完成的工作。它可協助 Code Review 的 critique,並在合併前檢查正確性、品質與可能漏掉的問題。將 critique 安裝到 NeoLabHQ context-engineering-kit 中,並搭配檔案路徑、commit 或 context 使用。