W

llm-evaluation

作者 wshobson

使用自動化指標、人類反饋與基準測試,為大型語言模型(LLM)應用建立完善的評估流程。非常適合需要測試 LLM 效能、比較模型或驗證 AI 改進的團隊。

Stars0
收藏0
評論0
加入時間2026年3月28日
分類Skill 测试
安裝指令
npx skills add https://github.com/wshobson/agents --skill llm-evaluation
總覽

概覽

什麼是 llm-evaluation?

llm-evaluation 是一套專門用於系統性測試與基準評估大型語言模型(LLM)應用的技能。它幫助 AI 與機器學習團隊衡量 LLM 效能、比較模型或提示詞、偵測回歸問題,並透過自動化指標與人類反饋驗證改進成果。此技能對於維護高品質 AI 系統及建立可靠評估架構至關重要。

誰適合使用這個技能?

  • 開發 LLM 應用的 AI/ML 工程師與資料科學家
  • 負責提示詞工程或模型選擇的團隊
  • 在部署前驗證 LLM 輸出的品質保證專業人員
  • 需要追蹤 LLM 效能變化或排查異常模型行為的任何人

它解決了哪些問題?

  • 提供可重複執行的 LLM 評估流程
  • 支援模型、提示詞或系統版本間的比較
  • 協助偵測回歸並驗證改進
  • 幫助建立對生產 AI 系統的信心

使用說明

安裝步驟

  1. 將技能加入您的代理環境:

    npx skills add https://github.com/wshobson/agents --skill llm-evaluation

  2. 閱讀 SKILL.md 中的主要文件,了解高階工作流程與評估策略。

  3. 探索 README.mdAGENTS.mdmetadata.json 等輔助檔案,掌握整合細節與背景資訊。

  4. 查看 rules/resources/references/scripts/ 目錄,取得可重用的評估元件與輔助腳本。

核心評估類型

自動化指標

  • 文本生成: BLEU、ROUGE、METEOR、BERTScore、Perplexity
  • 分類: Accuracy、Precision/Recall/F1、Confusion Matrix、AUC-ROC
  • 檢索(RAG): MRR、NDCG、Precision@K、Recall@K

人類評估

  • 針對準確性、相關性、流暢度及其他主觀標準進行人工審查
  • 適用於自動指標難以涵蓋的評估面向

適應您的工作流程

  • 以提供的評估策略為範本,根據您的代碼庫、工具與運作需求進行調整。
  • 建立基準並持續追蹤進展,確保持續改進。

常見問題

什麼時候適合使用 llm-evaluation?

當您需要系統性測試、比較或驗證 LLM 應用效能,尤其是在部署到生產環境前,llm-evaluation 是理想選擇。

我應該先查看哪些檔案?

建議先從 SKILL.md 瞭解整體概念,再查看 README.mdmetadata.json 以掌握整合細節。也可探索 rules/scripts/ 以獲得實用範例。

llm-evaluation 是否同時支援自動化與人類評估?

是的,它提供自動指標與人工審查的指導與範本,涵蓋廣泛的 LLM 評估需求。

如何自訂評估流程?

您可以根據特定模型、提示詞與應用需求調整策略與腳本。此技能設計靈活,適用於不同 AI 工作流程。

我在哪裡可以找到更多資源?

請瀏覽此代碼庫的檔案結構,尋找更多參考資料、輔助腳本與相關文件。

評分與評論

尚無評分
分享你的評論
登入後即可為這項技能評分並留言。
G
0/10000
最新評論
儲存中...