llm-evaluation

作者 wshobson

使用 llm-evaluation skill，為 LLM 應用、提示詞、RAG 系統與模型變更設計可重複執行的評估方案，涵蓋指標、人工作業審查、基準測試與回歸檢查。

Stars32.6k

評論0

加入時間2026年3月30日

分類模型評測

安裝指令

npx skills add wshobson/agents --skill llm-evaluation

編輯評分

此 skill 評分為 68/100，代表它可列入目錄，適合想為 LLM 應用評估建立結構化方法的使用者；但也要預期它偏向文件導向的框架，而非具備可直接執行資產或明確操作步驟的高度實務型 skill。

68/100

亮點

觸發情境明確：skill 清楚說明適用時機，包括回歸測試、模型／提示詞比較，以及正式上線前的驗證。
工作流程內容扎實：文件涵蓋多種評估模式，例如自動化指標、人工評估、基準測試與 A/B 測試，而不只是停留在佔位層級。
概念框架實用：它為文字生成、分類與 RAG 任務提供可重複套用的評估分類法，結構性明顯優於一般泛用提示。

注意事項

由於缺少安裝／執行指引、腳本與文中提到的支援檔案，實際操作層面的清晰度有限，代理仍需自行推斷實作細節。
從現有證據來看，文件幾乎未提供明確限制條件或決策規則，可能導致不同實際專案在指標選擇與執行方式上出現不一致。

Llm 测试 Ai Metrics Reliability 工作流

總覽

`llm-evaluation` 技能總覽

llm-evaluation 技能是一套很實用的框架，用來為 LLM 應用、提示詞與模型變更設計評估方案。它特別適合不想只憑「感覺有比較好」來做判斷的開發者，而是需要一套可重複執行的方法，來衡量品質、比較不同版本，並在上線前抓出退步與回歸問題。

這個 `llm-evaluation` 技能適合誰

這個 llm-evaluation 技能很適合正在處理以下工作的團隊與個人開發者：

prompt iteration
model comparison
RAG quality checks
classification or extraction tasks
production QA for LLM features
benchmark creation for ongoing releases

如果你想回答的是「這次改動到底有沒有真的讓系統變好？」那這個技能就很適合你。

這個技能實際幫你完成什麼工作

llm-evaluation 真正解決的，不是泛泛而談的測試建議，而是把模糊的品質疑慮整理成一套可執行的評估計畫。你可以用 llm-evaluation 來選對評估類型、定義指標、在自動化評估不足時加入人工審查，並把不同版本之間的比較方式規劃清楚。

`llm-evaluation` 和一般泛用 prompt 有什麼不同

一般 prompt 可能只會給你像是「用 BLEU、F1，再加人工評估」這類通用建議。但當你需要把評估方法對應到自己應用的實際結構時，llm-evaluation skill 會更有用：

text generation tasks need different metrics than classification
RAG systems need retrieval metrics, not just output judgments
some qualities like helpfulness or tone need human evaluation
A/B tests and regression checks need baselines, not one-off scores

因此，它比起隨口問一句「我要怎麼評估我的 LLM？」更偏向協助你做出可執行決策。

安裝前最需要先想清楚的事

在使用 llm-evaluation 之前，最好先釐清三件事：

你要評估的是什麼任務
對這個任務來說，「好」代表什麼
你需要的是自動化指標、人工審查，還是兩者都要

如果這些還不夠明確，這個技能還是能幫上忙，但產出的內容會維持在較高層次，較難直接落地。

主要取捨與限制

這個技能提供的是評估策略，不是打包完成的 evaluation runner。它擅長幫你設計整體框架與挑選方法，但資料集、工具鏈與執行環境還是要你自己準備。如果你要找的是內建 pipeline、可以直接執行的全自動框架，應把它視為前期規劃指引，而不是可直接替換上的基礎設施。

如何使用 `llm-evaluation` 技能

如何安裝 `llm-evaluation` 技能

使用標準的 skill 安裝流程：

npx skills add https://github.com/wshobson/agents --skill llm-evaluation

安裝完成後，當你需要替 LLM 應用設計或改善評估方案時，就可以呼叫它。

repository 先看哪裡最有幫助

這個技能的內容相對高度集中。建議先看：

plugins/llm-application-dev/skills/llm-evaluation/SKILL.md

因為看起來沒有明顯的輔助腳本或額外資源檔，多數價值都集中在這份書面框架本身。建議先讀 “When to Use This Skill” 與 “Core Evaluation Types” 這兩個段落。

要讓技能發揮作用，需要提供哪些輸入

llm-evaluation usage 的品質，很大程度取決於你提供的上下文。建議至少提供：

your application type: summarization, chatbot, RAG, extraction, classification, etc.
the change being evaluated: new prompt, model swap, retrieval update, policy change
sample inputs and expected outputs
current failure modes
deployment constraints: speed, cost, safety, review bandwidth
whether you need offline benchmarking, human review, or online testing

如果沒有這些背景，技能的回覆自然會停留在通用層次，這其實是合理的結果。

如何把模糊需求變成高品質 prompt

較弱的需求寫法：

“Help me evaluate my LLM app.”

較強的需求寫法：

“Use the llm-evaluation skill to design an evaluation plan for a customer-support RAG assistant. We are comparing two prompts and one retriever change. We need offline metrics for retrieval quality, human review dimensions for answer quality, and a regression checklist we can run before deployment.”

這種較完整的寫法，能清楚告訴技能：系統哪裡變了、需要哪一類評估，以及評估結果要支援什麼決策。

`llm-evaluation` 使用時的 prompt 範本

你可以用這樣的請求結構：

task type
system architecture
variants being compared
evaluation dataset size and source
key risks
preferred metrics
acceptable tradeoffs

範例結構：

“Use llm-evaluation for Model Evaluation of a RAG assistant. Recommend automated metrics, human evaluation criteria, and an A/B testing approach. We care most about factual accuracy, citation usefulness, and regression detection. Suggest a minimal first version and an expanded version.”

如何選對評估類型

這個技能涵蓋多種評估模式。實務上可以這樣分：

用 automated metrics 取得可重複、可擴展的衡量方式
用 human evaluation 評估主觀或細膩的品質面向
用 benchmarking 追蹤不同版本在一段時間內的表現
當真實使用者行為很重要時，再用 A/B testing

常見錯誤是過度依賴單一方法。比如生成式任務只看 BLEU，或大規模回歸檢查完全只靠人工審查。

依任務選指標：`llm-evaluation` 的實用核心

指標應由任務本身來決定：

text generation: BLEU, ROUGE, METEOR, BERTScore, perplexity
classification: accuracy, precision, recall, F1, confusion matrix, AUC-ROC
retrieval / RAG: MRR, NDCG, Precision@K, Recall@K

實務上最重要的一點是：不要把 text-generation metrics 硬套到 retrieval 問題上，反之亦然。llm-evaluation guide 最有價值的地方，就在於它會幫你把指標對準真正被測試的系統層。

什麼情況下要加入人工評估

當你的成功標準包含以下面向時，就應該加入 human review：

factual accuracy in open-ended answers
helpfulness
coherence
tone
instruction-following
safety or policy compliance

當自動化分數看起來不錯，但實際答案品質仍然不好時，人工評估尤其重要。

一套能降低猜測成本的實用 workflow

對 llm-evaluation install 使用者來說，一個很好的起手 workflow 是：

定義一個任務與一個使用者成果
蒐集一小組但具代表性的測試資料
選 2–4 個適合該任務的 automated metrics
定義 3–5 個 human review 維度
先替 baseline system 打分
一次只比較一個改動
記錄失敗案例，不只看平均值

這樣能讓評估流程足夠輕量、容易導入，同時又保有必要的嚴謹度。

這個技能最擅長幫你的地方

當你需要處理以下事項時，這個 llm-evaluation skill 特別有用：

selecting evaluation methods
structuring a benchmark
combining human and automated assessment
planning comparisons between prompts or models
building confidence before deployment

如果你只需要一句 prompt 來「評分輸出」，或者你已經有成熟的 evaluation harness、只差實作程式碼，那它的幫助就相對有限。

常見使用錯誤：沒有 baseline 就開始評估

很多團隊會問 version B 是不是「夠好」。但更有價值的問題其實是：version B 是否在真正重要的案例上，比 version A 更好。你在 prompt 裡應該要求技能定義：

baseline metrics
comparison rules
pass/fail thresholds
regression criteria

這樣 llm-evaluation for Model Evaluation 的結果才會更能直接拿來行動。

`llm-evaluation` 技能 FAQ

`llm-evaluation` 適合初學者嗎？

適合，前提是你已經知道自己的 app 類型，以及你想改善的是什麼。這個技能對主要評估類別的說明算清楚；但如果你連任務、資料集或成功標準都還沒定義好，對新手來說就沒那麼友善。

我一定要先有正式的 benchmark dataset 嗎？

不一定，但你至少要有一些案例。即使只是小型、人工整理的測試集，也比每次都用臨時想到的 prompts 來評估要好得多。當你能拿出具代表性的案例與預期行為時，這個技能才最能發揮價值。

這個技能只適合學術式評估嗎？

不是。repository 裡的內容很偏實務：model comparison、prompt validation、regression detection、production confidence，以及 A/B testing。它不只適合研究流程，也適合產品團隊直接使用。

什麼情況下不該用 `llm-evaluation`？

如果你的需求完全偏向實作層，例如串接某個 evaluation SDK，或執行某個特定 framework command，那就不必用 llm-evaluation。這個技能的重點是策略與設計，不是 turnkey code integration。

`llm-evaluation` 和直接叫 LLM 幫自己打分有什麼不同？

讓模型自評可以是 workflow 的一部分，但那不等於完整的評估策略。llm-evaluation 會幫你把適合任務的 metrics、人工判斷、baseline 與版本比較整合起來，避免只依賴單一且雜訊高的訊號。

我可以把 `llm-evaluation` 用在 RAG 系統嗎？

可以，而且很適合。因為它明確涵蓋了 MRR、NDCG、Precision@K、Recall@K 這些 retrieval metrics。這點很重要，因為很多品質不佳的評估只看回答文字本身，卻忽略了 retrieval quality。

如何改進 `llm-evaluation` 技能的使用效果

提供任務層級的細節，不要只給籠統的 app 描述

較好的輸入：

“Support chatbot that answers billing questions from a knowledge base”

較差的輸入：

“AI assistant”

你的任務定義越具體，技能就越能推薦正確的 metrics 與 review dimensions。

在 prompt 中把系統元件拆開來

想讓 llm-evaluation usage 更扎實，應該要求技能分層評估：

retrieval quality
generation quality
classification accuracy
safety behavior

這樣可以避免把多種不同失敗來源混成一個模糊分數。

提供真實的失敗案例

請附上 5–10 個不良輸出，並說明它們為什麼失敗。例如：

hallucinated product policy
missed relevant retrieved document
correct answer with poor tone
refusal when the query was actually safe

這能幫助技能推薦真正對應你風險的評估維度。

先要求 minimum viable evaluation

一開始不要直接做成龐大的框架。你可以先要求：

the smallest useful benchmark
the fewest metrics worth tracking
the minimum human review rubric
a simple regression process

這樣更容易落地，也能避免做出看起來很完整、實際上卻從來沒跑過的評估計畫。

用具體標準建立 scorecards

如果你要做人工作業評估，請要求技能定義：

rating dimensions
scoring scales
examples of pass/fail
tie-break rules for ambiguous cases

這能降低 reviewer 之間的不一致，讓重複評估更值得信任。

一次只比較一個變動

常見失敗情況是同時改了 prompt、model、retriever 和 post-processing。這樣就算做完評估，也很難知道結果到底是誰造成的。請讓 llm-evaluation 幫你設計實驗，盡可能讓每次測試只隔離一個變因。

不只追蹤平均提升，也要追蹤回歸

平均值很容易掩蓋重要損失。請要求技能協助辨識：

worst-case categories
high-risk slices
user-critical scenarios
safety-sensitive prompts

這是 llm-evaluation 相較於表層評估計畫，最有實務價值的升級之一。

在第一次評估後再迭代一次

跑完第一輪後，把結果帶回來，再請技能幫你精修：

which metrics were noisy
which human dimensions overlapped
where the dataset was too narrow
which failure clusters deserve new test cases

很多時候，llm-evaluation 真正開始產生高價值，不是在第一次規劃，而是在這第二輪迭代。

用決策導向的請求，改善 `llm-evaluation` 輸出品質

不要只問廣泛概述，改成直接要一份可決策的產出：

“Create a release-gate evaluation plan”
“Design a prompt-comparison benchmark”
“Build a human review rubric for hallucination risk”
“Recommend metrics for RAG retrieval regression checks”

決策導向的 prompt，通常會產出你可以立刻拿去用的內容。

了解這個技能的上限

llm-evaluation 能提升的是規劃品質，但它不能取代具代表性的資料、嚴謹的標註，或有紀律的審查流程。如果你的案例本身很弱，或成功標準彼此矛盾，那產出自然也會偏弱。要最快提升這個技能的實用性，最有效的方法就是讓你的 evaluation brief 更具體、也更貼近真實情境。

評分與評論

尚無評分

分享你的評論

登入後即可為這項技能評分並留言。

0/10000

此分類中的更多技能

evaluation-methodology

作者 wshobson

evaluation-methodology 技能說明 Model Evaluation 中的 PluginEval 評分方法，涵蓋評估層級、評分規準、綜合計分、徽章門檻，以及如何解讀結果並改善較弱面向的實務建議。

模型評測

收藏 0GitHub 32.6k

healthcare-eval-harness

作者 affaan-m

healthcare-eval-harness 是一個用於醫療應用部署的病人安全評估 harness。它能協助團隊在發布前驗證 CDSS 準確性、PHI 暴露、資料完整性、臨床工作流程行為，以及整合合規性。重大失敗會阻擋部署，因此它很適合用於 healthcare-eval-harness 的 Model Evaluation 與 CI 安全閘門。

模型評測

收藏 0GitHub 156.2k

eval-harness

作者 affaan-m

eval-harness 技能是一套正式的評估框架，適用於 Claude Code 工作階段與 eval-driven development。它能幫助你定義通過／失敗標準、建立能力與回歸評測，並在正式推出提示詞或工作流程變更前，衡量 agent 的可靠性。

模型評測

收藏 0GitHub 156.1k

agent-eval

作者 affaan-m

agent-eval 是一款用來讓程式代理在可重現任務上進行正面比較的 skill，可比對通過率、成本、耗時與一致性。若你想在自己的 repo 中評估 Claude Code、Aider、Codex 或其他代理，agent-eval skill 能提供比臨時下提示更清楚、更有依據的評估結果。

模型評測

收藏 0GitHub 156k

huggingface-community-evals

作者 huggingface

huggingface-community-evals 可協助你在本機使用 inspect-ai 或 lighteval 執行 Hugging Face Hub 模型評測。適合用於後端選擇、冒煙測試，以及了解 vLLM、Transformers 或 accelerate 的實作指南。不適用於 HF Jobs 協調、model-card PR、.eval_results 發佈，或 community-evals 自動化。

模型評測

收藏 0GitHub 10.4k

huggingface-best

作者 huggingface

huggingface-best 技能可透過檢查 Hugging Face 基準排行榜，並依裝置限制與模型大小篩選，幫你找到某項任務的最佳模型。當你需要的是實用的候選清單，而不是泛用模型列表時，它很適合用在程式撰寫、推理、聊天、OCR、RAG、語音、視覺或多模態工作上的模型推薦。

模型評測

收藏 0GitHub 10.4k

libafl

作者 trailofbits

libafl 技能可協助你用 LibAFL 規劃並打造模組化 fuzzing 工具，適用於自訂目標、突變策略與資安稽核流程。使用這份 libafl 指南，你可以從目標細節出發，建立實用的 harness、回饋模型與執行規劃，減少先入為主的假設。

安全稽核

收藏 0GitHub 5k

judge-with-debate

作者 NeoLabHQ

judge-with-debate 透過結構化的多代理辯論來評估解決方案，使用共享規格、以證據為基礎的反駁，以及最多 3 輪討論來達成共識。它很適合用於程式碼審查、依評分規準的評估，以及 Multi-Agent Systems 工作流程中的 judge-with-debate。

多 Agent 系统

收藏 0GitHub 982

gws-modelarmor

作者 googleworkspace

gws-modelarmor 可協助你在 googleworkspace/cli 生態系中使用 Google Model Armor。可用來清理 prompts、清理模型回應，並建立比通用 prompt 更少猜測的 templates。它適合重複執行、符合政策意識的使用情境，以及 Security Audit 工作流程。

安全稽核

收藏 0GitHub 25.5k

analyzing-campaign-attribution-evidence

作者 mukul975

analyzing-campaign-attribution-evidence 協助分析人員綜合評估基礎架構重疊、ATT&CK 一致性、惡意程式相似度、時間線與語言特徵，進而做出有理有據的活動歸因。可用這份 analyzing-campaign-attribution-evidence 指南來支援 CTI、事件分析與 Security Audit 審查。

安全稽核

收藏 0GitHub 6.1k

ai-prompt-engineering-safety-review

作者 github

ai-prompt-engineering-safety-review 是一項提示詞稽核技能，可在正式上線、評估或面向客戶使用前，檢查 LLM 提示詞的安全性、偏誤、資安弱點與輸出品質。

模型評測

收藏 0GitHub 27.8k

agentic-eval

作者 github

agentic-eval 是一個 GitHub Copilot skill，示範如何運用反思、依 rubric 進行評論，以及 evaluator-optimizer 模式，為 AI 輸出建立評估迴圈。

模型評測

收藏 0GitHub 27.8k

ml-pipeline-workflow

作者 wshobson

ml-pipeline-workflow 是一份實用指南，聚焦如何設計涵蓋資料準備、訓練、驗證、部署與監控的端到端 MLOps pipeline，並提供可重複執行的工作流程自動化編排模式。

工作流自動化

收藏 0GitHub 0

frontend-design

作者 anthropics

frontend-design 協助你把模糊的 UI 構想變成具有明確美感方向的獨特、可上線前端介面，產出真實可用的 frontend 程式碼，減少千篇一律的 AI 風格。

UI 設計

收藏 1GitHub 105.2k

create-colleague

作者 titanwings

create-colleague 可將同事文件、聊天紀錄、電子郵件、截圖、Feishu 與 DingTalk 資料整理成可編輯的 AI 技能，並分別產出工作與人物設定內容，也提供後續持續優化的更新流程。

Skill 編寫

收藏 1GitHub 747

hyperframes

作者 heygen-com

hyperframes 是一個工作流程技能，用於在 HyperFrames 中建立以 HTML 為基礎的影片組成內容。當你需要結構化、以程式碼為核心的 hyperframes 來處理影片剪輯時，可用於標題卡、疊加圖層、字幕、旁白、音訊反應動態，以及場景轉場。它更重視版面配置、時間安排與動畫決策，而不是泛用的、只靠提示詞的影片需求。

视频编辑

收藏 0GitHub 2.7k

llm-evaluation

llm-evaluation 技能總覽

這個 llm-evaluation 技能適合誰

這個技能實際幫你完成什麼工作

llm-evaluation 和一般泛用 prompt 有什麼不同

安裝前最需要先想清楚的事

主要取捨與限制

如何使用 llm-evaluation 技能

如何安裝 llm-evaluation 技能

repository 先看哪裡最有幫助

要讓技能發揮作用，需要提供哪些輸入

如何把模糊需求變成高品質 prompt

llm-evaluation 使用時的 prompt 範本

如何選對評估類型

依任務選指標：llm-evaluation 的實用核心

什麼情況下要加入人工評估

一套能降低猜測成本的實用 workflow

這個技能最擅長幫你的地方

常見使用錯誤：沒有 baseline 就開始評估

llm-evaluation 技能 FAQ

llm-evaluation 適合初學者嗎？

我一定要先有正式的 benchmark dataset 嗎？

這個技能只適合學術式評估嗎？

什麼情況下不該用 llm-evaluation？

llm-evaluation 和直接叫 LLM 幫自己打分有什麼不同？

我可以把 llm-evaluation 用在 RAG 系統嗎？

如何改進 llm-evaluation 技能的使用效果

提供任務層級的細節，不要只給籠統的 app 描述

在 prompt 中把系統元件拆開來

提供真實的失敗案例

先要求 minimum viable evaluation

用具體標準建立 scorecards

一次只比較一個變動

不只追蹤平均提升，也要追蹤回歸

在第一次評估後再迭代一次

用決策導向的請求，改善 llm-evaluation 輸出品質

了解這個技能的上限

評分與評論

`llm-evaluation` 技能總覽

這個 `llm-evaluation` 技能適合誰

`llm-evaluation` 和一般泛用 prompt 有什麼不同

如何使用 `llm-evaluation` 技能

如何安裝 `llm-evaluation` 技能

`llm-evaluation` 使用時的 prompt 範本

依任務選指標：`llm-evaluation` 的實用核心

`llm-evaluation` 技能 FAQ

`llm-evaluation` 適合初學者嗎？

什麼情況下不該用 `llm-evaluation`？

`llm-evaluation` 和直接叫 LLM 幫自己打分有什麼不同？

我可以把 `llm-evaluation` 用在 RAG 系統嗎？

如何改進 `llm-evaluation` 技能的使用效果

用決策導向的請求，改善 `llm-evaluation` 輸出品質