W
llm-evaluation
作者 wshobson使用自動化指標、人類反饋與基準測試,為大型語言模型(LLM)應用建立完善的評估流程。非常適合需要測試 LLM 效能、比較模型或驗證 AI 改進的團隊。
Stars0
收藏0
評論0
加入時間2026年3月28日
分類Skill 测试
安裝指令
npx skills add https://github.com/wshobson/agents --skill llm-evaluation
總覽
概覽
什麼是 llm-evaluation?
llm-evaluation 是一套專門用於系統性測試與基準評估大型語言模型(LLM)應用的技能。它幫助 AI 與機器學習團隊衡量 LLM 效能、比較模型或提示詞、偵測回歸問題,並透過自動化指標與人類反饋驗證改進成果。此技能對於維護高品質 AI 系統及建立可靠評估架構至關重要。
誰適合使用這個技能?
- 開發 LLM 應用的 AI/ML 工程師與資料科學家
- 負責提示詞工程或模型選擇的團隊
- 在部署前驗證 LLM 輸出的品質保證專業人員
- 需要追蹤 LLM 效能變化或排查異常模型行為的任何人
它解決了哪些問題?
- 提供可重複執行的 LLM 評估流程
- 支援模型、提示詞或系統版本間的比較
- 協助偵測回歸並驗證改進
- 幫助建立對生產 AI 系統的信心
使用說明
安裝步驟
-
將技能加入您的代理環境:
npx skills add https://github.com/wshobson/agents --skill llm-evaluation -
閱讀
SKILL.md中的主要文件,了解高階工作流程與評估策略。 -
探索
README.md、AGENTS.md與metadata.json等輔助檔案,掌握整合細節與背景資訊。 -
查看
rules/、resources/、references/與scripts/目錄,取得可重用的評估元件與輔助腳本。
核心評估類型
自動化指標
- 文本生成: BLEU、ROUGE、METEOR、BERTScore、Perplexity
- 分類: Accuracy、Precision/Recall/F1、Confusion Matrix、AUC-ROC
- 檢索(RAG): MRR、NDCG、Precision@K、Recall@K
人類評估
- 針對準確性、相關性、流暢度及其他主觀標準進行人工審查
- 適用於自動指標難以涵蓋的評估面向
適應您的工作流程
- 以提供的評估策略為範本,根據您的代碼庫、工具與運作需求進行調整。
- 建立基準並持續追蹤進展,確保持續改進。
常見問題
什麼時候適合使用 llm-evaluation?
當您需要系統性測試、比較或驗證 LLM 應用效能,尤其是在部署到生產環境前,llm-evaluation 是理想選擇。
我應該先查看哪些檔案?
建議先從 SKILL.md 瞭解整體概念,再查看 README.md 與 metadata.json 以掌握整合細節。也可探索 rules/ 與 scripts/ 以獲得實用範例。
llm-evaluation 是否同時支援自動化與人類評估?
是的,它提供自動指標與人工審查的指導與範本,涵蓋廣泛的 LLM 評估需求。
如何自訂評估流程?
您可以根據特定模型、提示詞與應用需求調整策略與腳本。此技能設計靈活,適用於不同 AI 工作流程。
我在哪裡可以找到更多資源?
請瀏覽此代碼庫的檔案結構,尋找更多參考資料、輔助腳本與相關文件。
評分與評論
尚無評分
分享你的評論
登入後即可為這項技能評分並留言。
G
0/10000
最新評論
儲存中...
