benchmark

作成者 affaan-m

benchmark skill を使ってパフォーマンス基準を測定し、PR の前後で回帰を検知し、ページ・API・ビルド全体でスタック候補を比較して、Performance Optimization に役立てます。

スター156.1k

お気に入り0

追加日2026年4月15日

カテゴリーPerformance Optimization

インストールコマンド

npx skills add affaan-m/everything-claude-code --skill benchmark

編集スコア

この skill のスコアは 67/100 で、ディレクトリ掲載には十分ですが、実行面ではいくつかの不足があります。リポジトリからは、ベンチマークをいつ使うべきか、ページ・API・ビルドのパフォーマンスで何を測るべきかが概ね把握できるため、エージェントは適切なタイミングで起動しやすいでしょう。ただし、実際の運用では、どのツールを使うか、どのコマンドで実行するか、どのようにレポートするかは利用者側で用意する必要があります。つまり、この skill は完成した手順書というより、測定フレームワークとしての性格が強いです。

67/100

強み

トリガー条件が明確で、「When to Use」セクションが PR の前後チェック、基準値の設定、速度低下の調査、リリース前確認、スタック比較をはっきり示している。
ベンチマークの対象範囲が広く、ページ、API、開発ループのパフォーマンスについて、Core Web Vitals やレイテンシのパーセンタイルまで具体的に押さえている。
エージェントにとって扱いやすい構成で、番号付きの測定手順と目標しきい値があり、単なる性能評価のプロンプトよりも作業の筋道が立てやすい。

注意点

運用面の明確さは限定的で、browser MCP や benchmarking モードへの言及はあるものの、インストールコマンド、サポートファイル、テスト実行の具体的なコマンド例はない。
信頼性や導入の厚みは控えめで、再現可能なワークフローやサンプル出力を示すスクリプト、参考資料、関連アセットがない。

Claude Code Metrics Performance Testing API Browser Automation

概要

ベンチマーク skill の概要

benchmark skill でできること

benchmark skill は、パフォーマンスの基準値を測定し、回帰を見つけ、アドホックな確認ではなく再現性のあるワークフローで代替案を比較するための skill です。Web ページ、API、ビルドパイプライン、変更前後の比較にわたる Performance Optimization のための benchmark に向いています。

どんな人に benchmark skill を入れるべきか

この benchmark skill は、「遅くなったか？」や「この PR でパフォーマンスは改善したか？」を示す根拠が必要なエンジニア、テックリード、AI 支援開発者に最適です。特に、リリース前、ユーザーからの苦情の後、あるいはスタック変更を評価する場面で、共通の測定方法が必要なときに役立ちます。

一般的なプロンプトより何が便利か

通常のプロンプトでは、エージェントに「パフォーマンスを確認して」と指示するだけになりがちです。この skill が優れているのは、具体的なベンチマークの枠組みを与えるからです。たとえば、Core Web Vitals やページ重量のようなページ指標、API のレイテンシ分位点や同時実行チェック、build と test の所要時間のような開発ループ指標まで含められます。この構造があることで、迷いが減り、結果を時系列で比較しやすくなります。

benchmark skill の使い方

インストール時の前提と、最初に読むべきもの

benchmark install では、skills/benchmark を含むリポジトリから skill を追加し、まず SKILL.md を開きます。この skill は自己完結しているため、実際に使ううえで重要な案内はほとんどそのファイルにまとまっています。読む順番は次のとおりです。

SKILL.md
“When to Use” セクション
タスクに合うモード: page, API, build, before/after comparison

benchmark skill に必要な入力

良い benchmark の使い方は、実在する対象と成功条件をきちんと渡すことにかかっています。役立つ入力は次のとおりです。

対象の URL または API エンドポイント
環境: local, staging, preview, production
検証対象の変更: branch, PR, commit, stack option
期待値: LCP, INP, p95 latency, build time, bundle size
テスト条件: auth, seed data, region, device assumptions

弱い依頼は「アプリを benchmark して」です。
より強い依頼は、「この 3 つの staging URL に benchmark skill を使い、LCP/CLS/INP、page weight、request count を収集したうえで production と比較し、10% を超える regressions を指摘して」です。

ざっくりした目的を強い benchmark プロンプトに変える

benchmark ガイドでは、次のようなプロンプトテンプレートが有効です。

Scope: page, API, build, before/after
Targets: 具体的な URLs, endpoints, commands, branches
Metrics: 計測項目と閾値
Comparison: baseline と candidate
Output: summary table, regressions, likely causes, next actions

例:
「benchmark skill を使って、この PR branch を main と比較してください。page performance では preview deployment の /, /pricing, /checkout をテストし、LCP, FCP, CLS, INP, TTFB, total page weight, JS weight, request count を報告してください。5% を超える regressions は明示し、上位 3 件の修正案も提案してください。」

出力品質を上げる実践ワークフロー

benchmark usage で信頼できる結果を得るには、次の流れが効果的です。

まずは 1 つのモードだけに絞る。
安定した環境で baseline を確立する。
同じ benchmark を変更後の版に対して実行する。
比較表と regression 要約を依頼する。
そのあとで診断と最適化案を求める。

この順番には意味があります。baseline を飛ばすと、もっともらしいが信頼度の低い提案が返ってきやすくなります。結果のばらつきが大きい場合は、対象を絞り込み、より制御された条件で再実行してください。

benchmark skill の FAQ

benchmark skill はページ、API、build のどれ向けですか？

3 つすべてに対応します。この skill は page performance、API performance、build/developer-loop performance を明示的にカバーしています。そのため、Lighthouse だけのワークフローよりも範囲が広く、frontend、backend、tooling にまたがる性能問題を扱うときに実用的です。

通常のパフォーマンス用プロンプトではなく benchmark を使うべきなのはどんなときですか？

再現可能な計測、変更前後の比較、回帰検知が必要なときは benchmark を使ってください。アイデア出しや最適化案のブレストなら一般的なプロンプトでも十分ですが、実際の仕事が「意見」ではなく「計測」であるなら、この skill のほうが適しています。

benchmark skill は初心者でも使いやすいですか？

はい、明確な対象を指定できるなら使いやすいです。すべての metric を最初から知っている必要はありませんが、何をどこで benchmark するのかは把握している必要があります。初心者は、まず 1 ページか 1 エンドポイントから始め、最初の実行結果を理解できてから広げると、最も価値を得やすいです。

これはどんな場合に向いていませんか？

測定ではなく、一般的なパフォーマンス学習だけを求めているなら、この benchmark skill は外してください。さらに、環境が不安定すぎて run ごとの比較ができない場合や、アクセス可能な URL、呼び出し可能な endpoint、実行できる build command を用意できない場合も、適した選択ではありません。

benchmark skill をもっと良く使うには

よりよい benchmark 結果のために入力を整える

いちばん効く改善は、入力の質を上げることです。Performance Optimization のための benchmark では、次を明確にしてください。

具体的な対象
production か staging かという環境
baseline と candidate の版
チームにとって重要な閾値
必要な auth や setup

「API を benchmark して」は曖昧です。
「staging 上の POST /search と GET /products/:id を 100 リクエスト、10 同時実行で benchmark し、p95 SLA 300ms に対する p50/p95/p99 を報告して」は実行可能です。

よくある benchmark の失敗パターンを避ける

よくある問題は次のとおりです。

異なる環境を比較してしまう
複数の変更を 1 回のテストに混ぜる
現実離れしたページや endpoint を使う
計測より先に診断を求める
許容できる regression の閾値を定義しない

こうした失敗は、benchmark の出力をノイズだらけにし、信頼しにくくします。まず setup を制御し、そのあとで結果を解釈してください。

単独の数値ではなく比較を求める

1 つの metric のスナップショットより、相対変化のほうが有用です。benchmark skill の出力を改善するには、次のような依頼を入れてください。

baseline と candidate の表
変化率
閾値に対する pass/fail
上位の regression だけに絞った原因候補

こうすると、エージェントは単なるデータの羅列ではなく、意思決定を支える情報を返しやすくなります。

1 回目の benchmark 実行後に反復する

最初の実行のあとで、対象をさらに絞り込みます。最も遅いページ、最悪の API 分位点、最も重い build step だけを再実行するように依頼してください。そのうえで、「render-blocking assets に注目して」や「p99 が p50 より大きく悪化している理由を調べて」のような具体的な追加調査を求めます。この反復ループこそが benchmark guide の真価で、1 回の広い計測を、実際に使える最適化計画へ変えてくれます。

評価とレビュー

まだ評価がありません

レビューを投稿

このスキルの評価やコメントを投稿するにはサインインしてください。

0/10000

新着レビュー

保存中...

このカテゴリーの他のスキル

vercel-react-best-practices

作成者 vercel-labs

vercel-react-best-practices は、Vercel Engineering が提供するスキルで、AI エージェントが React と Next.js のパフォーマンスを最適化できるよう、waterfalls・bundle size・rendering などの優先度付きルールでガイドします。

Frontend Development

お気に入り 0GitHub 24k

performance-optimization

作成者 addyosmani

performance-optimization スキルは、まず計測し、真のボトルネックを特定して修正し、結果を検証するためのガイドです。性能要件があるとき、回帰を疑うとき、または Core Web Vitals、読み込み時間、操作時の遅延を改善したいときに使います。

Performance Optimization

お気に入り 0GitHub 18.7k

supabase-postgres-best-practices

作成者 supabase

supabase-postgres-best-practices は、クエリチューニング、インデックス設計、スキーマ設計、RLS パフォーマンス、ロック制御、接続管理を扱う Supabase Postgres 最適化スキルです。

Database Engineering

お気に入り 0GitHub 1.7k

wp-performance

作成者 WordPress

wp-performance を使うと、ブラウザ UI を使わずにバックエンドから WordPress のパフォーマンスを調査・改善できます。遅いフロントエンドリクエスト、管理画面、REST ルート、WP-Cron を対象に、まず測定してから原因を絞り込む診断を支援します。WP-CLI の profile/doctor、REST ヘッダー経由の Query Monitor、Server-Timing、DB クエリ、autoloaded options、オブジェクトキャッシュ、cron、外部 HTTP 呼び出しまで扱えます。

Performance Optimization

お気に入り 0GitHub 1.4k

web-perf

作成者 cloudflare

web-perf は Chrome DevTools MCP を使って Web パフォーマンスを分析します。Core Web Vitals、トレースベースの読み込み問題、レンダリングを妨げるリソース、レイアウトシフト、キャッシュの問題、アクセシビリティのギャップを測定します。Performance Optimization、遅いページのデバッグ、そして最新ドキュメントと実際のトレースに基づく web-perf のガイド型ワークフローに使ってください。

Performance Optimization

お気に入り 0GitHub 1.3k

react-native-best-practices

作成者 callstackincubator

react-native-best-practices は、起動が遅い、フレーム落ち、重い描画、メモリリーク、バンドル肥大化、アニメーションのカクつきに効く、実践的な React Native パフォーマンス最適化ガイドです。Hermes、bridge のオーバーヘッド、FlashList、ネイティブモジュール、リリース後の回帰をプロファイルして根拠ある修正を行いたいときに使えます。

Performance Optimization

お気に入り 0GitHub 1.3k

swift-nio

作成者 Joannis

swift-nio は、SwiftNIO を使ったバックエンド開発のためのスキルです。サーバー、クライアント、パイプライン、バッファ、コーデック、そして EventLoop で安全に動く非同期コードまで幅広くカバーします。swift-nio の使い方に関する疑問、プロトコル解析、TCP/UDP サービス、NIOAsyncChannel の統合、EventLoop 上でのブロッキング処理のデバッグに役立ちます。正しいアーキテクチャと実装を導く、実践的な SwiftNIO ガイドです。

Backend Development

お気に入り 0GitHub 0

audit-website

作成者 squirrelscan

audit-website skillは、`squirrel` CLIを使ってWebサイトやWebアプリを230以上のルールで監査し、SEO、技術面、コンテンツ、パフォーマンス、セキュリティ、リンク、サイト健全性を幅広くチェックしたうえで、LLMで扱いやすい実用的なレポートを返します。

UX Audit

お気に入り 0GitHub 68

autoresearch

作成者 github

autoresearch は、測定可能な成果があるコーディング作業向けの自律的な実験ループです。開発者が目標・ベースライン・指標・対象範囲を定義し、git ベースのチェックポイントを使いながら、コード変更、テスト、結果を残すか元に戻すかの判断を反復的に進めるのに役立ちます。

Workflow Automation

お気に入り 0GitHub 0

godot-gdscript-patterns

作成者 wshobson

godot-gdscript-patterns は、Godot 4 ユーザーがシーン構成、signals、state machines、autoloads、async loading のパターンを踏まえて、より整理された GDScript を生成・レビューするのに役立ちます。ゲームプレイシステム、UI フロー、保守しやすいプロジェクトコードに、実績のある Godot アーキテクチャを導入したいときに有用です。

Frontend Development

お気に入り 0GitHub 32.5k

pytorch-patterns

作成者 affaan-m

pytorch-patterns は、デバイス非依存のパターン、再現性の高い実験、明示的な tensor 扱いを通じて、PyTorch コードの記述・レビュー・デバッグを支援します。よりきれいな学習ループ、モデルのリファクタリング、実践的な PyTorch ガイダンスが必要な場面で、この pytorch-patterns スキルを使ってください。

Code Editing

お気に入り 0GitHub 156.2k

nextjs-turbopack

作成者 affaan-m

nextjs-turbopackスキルを使うと、Next.js 16+でTurbopackを活用し、ローカル開発の高速化、HMR、バンドラーの使い分けを実践的に進められます。インストール、使い方、Frontend Developmentのワークフローでwebpackに戻すべきタイミングまでを整理した、実用的なnextjs-turbopackガイドとして使えます。

Frontend Development

お気に入り 0GitHub 156.2k

jpa-patterns

作成者 affaan-m

jpa-patterns は、Spring Boot のバックエンド開発に役立つ実践的な JPA/Hibernate ガイドです。エンティティ設計、リレーション、クエリ最適化、トランザクション、監査、ページネーション、プーリングまでを扱い、ORM のミスを減らし、永続化性能を高めるのに役立ちます。

Backend Development

お気に入り 0GitHub 156.2k

rust-async-patterns

作成者 wshobson

rust-async-patternsは、Tokioを使った非同期Rustを実践的に学べるスキルです。タスク、チャネル、ストリーム、タイムアウト、キャンセル、トレーシング、エラーハンドリングまでをカバーし、バックエンド開発に役立ちます。

Backend Development

お気に入り 0GitHub 32.6k

go-concurrency-patterns

作成者 wshobson

go-concurrency-patterns は、worker pool、pipeline、channel、sync primitives、context ベースの cancellation など、Go らしい並行処理パターンの実践に役立つスキルです。SKILL.md のガイダンスをもとに、より安全なバックエンドサービスの設計、race condition の調査、graceful shutdown の改善を進めたい場合に適しています。

Backend Development

お気に入り 0GitHub 32.6k

async-python-patterns

作成者 wshobson

async-python-patternsは、I/OバウンドなPythonシステムで安全なasyncioパターンを選ぶための実践ガイドです。導入前の判断材料として活用でき、使いどころの確認、イベントループをブロックしない設計、bounded concurrency・cancellation・syncとasyncのトレードオフを踏まえた async API、worker、scraper、バックエンドサービスの設計に役立ちます。

Backend Development

お気に入り 0GitHub 32.6k