detecting-ai-model-prompt-injection-attacks

作成者 mukul975

detecting-ai-model-prompt-injection-attacks は、LLM に届く前の信頼できないテキストを選別するためのサイバーセキュリティスキルです。階層化された正規表現、ヒューリスティック評価、DeBERTa ベースの分類を使って、直接的・間接的なプロンプトインジェクション攻撃を検出します。チャットボットの入力検証、文書取り込み、Threat Modeling に役立ちます。

スター0

お気に入り0

追加日2026年5月12日

カテゴリーThreat Modeling

インストールコマンド

npx skills add mukul975/Anthropic-Cybersecurity-Skills --skill detecting-ai-model-prompt-injection-attacks

編集スコア

このスキルの評価は74/100で、具体的なプロンプトインジェクション検出ワークフローを求める利用者には掲載候補ですが、現時点では高確度の“そのまま使える”導入先とは言い切れません。リポジトリには採用を後押しできる運用情報がありますが、実際にはある程度の統合作業と、モデル／ランタイム設定の確認が必要です。

74/100

強み

トリガー条件が明確です。説明文に、プロンプトインジェクション検出、入力サニタイズ、AI セキュリティスキャン、プロンプト攻撃分類で動作することがはっきり書かれています。
運用フローが実在し、しかも多層です。ドキュメントとスクリプトには、正規表現、ヒューリスティック評価、DeBERTa ベースの分類、そして構造化された DetectionResult が示されています。
導入判断の材料として有用です。`PromptInjectionDetector` の API 参照とスクリプト実装があるため、どう動かすのか、どんな出力が得られるのかを事前に確認できます。

注意点

SKILL.md にインストールコマンドやパッケージング手順がないため、実行環境や依存関係は自分で組み立てる必要があるかもしれません。
リポジトリは検出ロジックと参照情報が中心で、抜粋されたドキュメントからは、本番利用に向けたエンドツーエンドのデプロイ手順や検証例までは確認できません。

Prompt Injection Llm Ai Security Anthropic

概要

detecting-ai-model-prompt-injection-attacks スキルの概要

このスキルでできること

detecting-ai-model-prompt-injection-attacks スキルは、テキストが LLM に届く前にふるいにかけるためのもので、既知の注入フレーズ、構造上の異常、分類器ベースのスコアリングを組み合わせた多層チェックを行います。チャットボット、エージェント入力、ドキュメント取り込み、あるいは信頼できないテキストがシステム指示を書き換えようとするあらゆるパイプラインで、実用的な制御を導入したいときに特に役立ちます。

どんな人に向いているか

AI セキュリティ、アプリケーションのハードニング、または LLM システムの Threat Modeling に取り組んでいて、単なる汎用的なプロンプトチェック以上のものが欲しいなら、detecting-ai-model-prompt-injection-attacks スキルを導入する価値があります。高速な一次判定器、再現可能なレビュー手順、あるいは自分たちのモデレーション層や検証層に組み込める参照実装を必要とするチームに向いています。

何が違うのか

このスキルは単なるプロンプトテンプレートではありません。リポジトリでは scripts/agent.py に多層設計が示され、references/api-reference.md に方法の参照情報が載っています。そのため、検出器がどんな入力を想定し、出力がどう構造化されるのかを把握しやすくなっています。detecting-ai-model-prompt-injection-attacks スキルが理論上読めるだけでなく、実際のワークフローに組み込めるかを見極めたい場合、この点は重要です。

detecting-ai-model-prompt-injection-attacks スキルの使い方

スキルをインストールする

以下でインストールします。
npx skills add mukul975/Anthropic-Cybersecurity-Skills --skill detecting-ai-model-prompt-injection-attacks

インストール後は、これを一発回答を返す生成器ではなく、信頼できないテキストに対して呼び出すセキュリティワークフローとして扱ってください。detecting-ai-model-prompt-injection-attacks のインストールは、テキストの出所、モデルに許可されている動作、何を誤検知とみなすかといった周辺のアプリ文脈まで渡してはじめて意味があります。

まず確認すべきファイル

最初に SKILL.md を読み、想定ユースケースとワークフローを把握します。次に references/api-reference.md を確認して、PromptInjectionDetector、その mode、threshold、device オプション、そして analyze(text) が何を返すのかを理解します。動作を調整したり自動化に組み込みたいなら、その次に scripts/agent.py を見ると、実際の検出レイヤーと結果の組み立て方が分かります。

スキルには完全な入力を与える

detecting-ai-model-prompt-injection-attacks の使い方は、プロンプトに以下を含めると最も効果的です。

検査するテキスト
それがユーザー入力、取得したコンテンツ、ツール出力のどれか
チャットボット、RAG パイプライン、エージェントなどの製品文脈
flag、explain、classify など、求めるアクション

たとえば、「サポートチャットボット内のこの顧客メッセージを prompt injection চেষ্টাいかを分析してください。攻撃パターンの可能性、confidence、ブロック対象かどうかを返してください。」のように依頼するとよいでしょう。単に「このテキストを確認して」よりも、実際のセキュリティ判断に合わせてスキルの評価を揃えやすくなります。

一度だけ通すのではなく、ワークフローとして使う

最良の結果を得るには、まず疑わしいコンテンツをスキャンし、次にどの層が反応したかを確認します。regex マッチ、heuristic シグナル、classifier スコアのどれが引き金になったかを見るのです。一次判定のノイズが多いなら、direct-injection の検出に絞って範囲を狭めるか、エンコードや難読化されたテキストの indirect injection パターンまで広げるかを調整してください。こうすると、detecting-ai-model-prompt-injection-attacks のガイドが実運用のトリアージにより使いやすくなります。

detecting-ai-model-prompt-injection-attacks スキル FAQ

これは prompt security review だけのためのものですか？

いいえ。detecting-ai-model-prompt-injection-attacks スキルは、Threat Modeling、導入前レビュー、レッドチーム風の検証、LLM の入力チャネル周辺にガードレールを作る用途にも関係します。どこに検証境界を置くべきかを判断する役割なら、相性のよいスキルです。

通常のプロンプトと何が違いますか？

通常のプロンプトでは LLM に「注入を監視して」と頼むだけかもしれませんが、このスキルは明示的なレイヤーと構造化された出力を持つ、具体的な検出ワークフローを実装しているように見えます。入力を比較したり、しきい値を調整したり、なぜそのテキストがフラグされたのかを説明したりする場面では、この違いが推測を減らします。

ML の経験がなくても使えますか？

必ずしも必要ではありません。サンプルテキストと明確なセキュリティ目的を用意できるなら、初心者でも detecting-ai-model-prompt-injection-attacks スキルをガイド付きレビューの道具として使えます。より上級のユーザーは、detector モード、threshold 調整、API リファレンスにあるレイヤー分解から、さらに大きな価値を得られます。

どんなときに使わないほうがいいですか？

高リスクのアプリケーションや adversarial traffic にさらされる環境で、これだけを唯一の防御にするのは避けてください。単純なベンテキスト向け content filter だけが必要なら、これは過剰に複雑かもしれません。強みが出るのは、一般的なモデレーションではなく、LLM 入力向けのセキュリティ重視の検出器が必要なときです。

detecting-ai-model-prompt-injection-attacks スキルを改善する方法

現実的な攻撃コンテキストを与える

最も良い入力は、チャネルと脅威モデルを含んでいます。たとえば「user chat」「retrieved web page」「email body」「tool output」といった形です。そうした文脈があると、detecting-ai-model-prompt-injection-attacks スキルは、通常の指示と、モデルの挙動を乗っ取ろうとするテキストを見分けやすくなります。Threat Modeling では、system prompts、tool calls、private retrieval data など、何が守るべき資産なのかも明示してください。

使える出力を求める

「安全か危険か」だけを聞かないでください。運用上の判断に必要な検出シグナル、つまり attack type、confidence、フラグされた理由を尋ねます。パイプラインの調整中なら、短い根拠と、どのレイヤーが原因らしいかも要求してください。そうすると、誤検知をどこまで許容できるかという自分たちの基準に合わせて、最初の結果を合わせ込みやすくなります。

既知のエッジケースで検証する

detecting-ai-model-prompt-injection-attacks のガイドは、直接的な上書き、role-play の回避、区切り文字トリック、エンコードされたペイロード、多言語の難読化などで試すと改善しやすくなります。サンプルが誤ってフラグされたら、意図した正当な文脈を添えて再投入し、より狭い分類を求めてください。見逃しがある場合は、regex-only、heuristic-only、full layered analysis のどれを使いたいかを明示し、弱点を切り分けられるようにします。

評価とレビュー

まだ評価がありません

レビューを投稿

このスキルの評価やコメントを投稿するにはサインインしてください。

0/10000

新着レビュー

保存中...

このカテゴリーの他のスキル

security-threat-model

作成者 openai

AppSec の脅威モデリング向けに、リポジトリに基づいて使う security-threat-model スキルです。信頼境界、資産、攻撃者の目的、悪用経路、対策を、簡潔な Markdown の脅威モデルとして整理します。特定のリポジトリやパスに対して Threat Modeling を行いたいときに使うもので、一般的なアーキテクチャレビューやコードチェック向けではありません。

Threat Modeling

お気に入り 0GitHub 0

solana-vulnerability-scanner

作成者 trailofbits

solana-vulnerability-scanner は、ネイティブ Rust と Anchor プログラムに特化した Solana セキュリティ監査スキルです。CPI ロジック、PDA 検証、署名者と所有権のチェック、sysvar なりすましを確認し、デプロイ前に Solana 特有の6つの重大な脆弱性を見つけるのに役立ちます。

Security Audit

お気に入り 0GitHub 4.9k

exploiting-insecure-data-storage-in-mobile

作成者 mukul975

exploiting-insecure-data-storage-in-mobile skill は、Android と iOS アプリ内の安全でないローカルストレージから証拠を評価・抽出するのに役立ちます。SharedPreferences、SQLite データベース、plist ファイル、world-readable ファイル、バックアップ露出、そして弱い keychain/keystore の扱いまでカバーしており、モバイルペンテストや Security Audit のワークフローに適しています。

Security Audit

お気に入り 0GitHub 6.2k

algorand-vulnerability-scanner

作成者 trailofbits

algorand-vulnerability-scanner は、Algorand の TEAL と PyTeal 向けのセキュリティ監査スキルです。リキーイング攻撃、手数料検証の抜け、フィールドチェック、アクセス制御の不備など、よくある 11 種類の問題の検出に役立ちます。手動監査の前に、実用的な一次レビューとして algorand-vulnerability-scanner スキルを活用してください。

Security Audit

お気に入り 0GitHub 4.9k

evaluating-threat-intelligence-platforms

作成者 mukul975

evaluating-threat-intelligence-platforms は、フィード取り込み、STIX/TAXII 対応、自動化、アナリストの作業フロー、各種連携、そして総保有コストの観点から TIP 製品を比較するのに役立ちます。調達、移行、成熟度評価のためにこの evaluating-threat-intelligence-platforms ガイドを活用してください。プラットフォーム選定がトレーサビリティや証跡共有に影響する Threat Modeling の場面でも使えます。

Threat Modeling

お気に入り 0GitHub 0

detecting-insider-threat-behaviors

作成者 mukul975

detecting-insider-threat-behaviors は、通常と異なるデータアクセス、時間外の活動、一括ダウンロード、権限の悪用、退職前後の不正持ち出しなど、インサイダーリスクの兆候を追跡するのに役立ちます。脅威ハンティング、UEBA 風のトリアージ、脅威モデリングに使えるこの detecting-insider-threat-behaviors ガイドには、ワークフローテンプレート、SIEM のクエリ例、リスク重み付けが含まれています。

Threat Modeling

お気に入り 0GitHub 0

detecting-credential-dumping-techniques

作成者 mukul975

detecting-credential-dumping-techniques スキルは、Sysmon のイベント ID 10、Windows のセキュリティログ、SIEM の相関ルールを使って、LSASS へのアクセス、SAM のエクスポート、NTDS.dit の窃取、comsvcs.dll を使った MiniDump の悪用を検知するのに役立ちます。脅威ハンティング、検知エンジニアリング、Security Audit のワークフロー向けに設計されています。

Security Audit

お気に入り 0GitHub 0

collecting-threat-intelligence-with-misp

作成者 mukul975

collecting-threat-intelligence-with-misp スキルは、MISP で脅威インテリジェンスを収集・正規化・検索・エクスポートするのに役立ちます。この collecting-threat-intelligence-with-misp ガイドでは、フィード、PyMISP のワークフロー、イベントの絞り込み、warninglist の削減、そして Threat Modeling と CTI 運用に実用的な collecting-threat-intelligence-with-misp の活用方法を扱います。

Threat Modeling

お気に入り 0GitHub 0

analyzing-threat-intelligence-feeds

作成者 mukul975

analyzing-threat-intelligence-feeds は、CTI フィードの取り込み、インジケーターの正規化、フィード品質の評価、STIX 2.1 ワークフロー向けの IOC 強化を支援します。脅威インテリジェンス運用とデータ分析向けに設計された analyzing-threat-intelligence-feeds スキルで、TAXII、MISP、商用フィードを使う実務に役立つガイドが含まれています。

Data Analysis

お気に入り 0GitHub 0

cosmos-vulnerability-scanner

作成者 trailofbits

cosmos-vulnerability-scanner は、Cosmos SDK モジュール、CosmWasm コントラクト、IBC 統合、Cosmos EVM スタックに潜むコンセンサス重大バグを見つけます。セキュリティ監査のワークフロー、チェーン停止リスク、資金流出につながる経路、リリース前レビューでは、この cosmos-vulnerability-scanner ガイドを活用してください。

Security Audit

お気に入り 0GitHub 4.9k

detecting-process-injection-techniques

作成者 mukul975

detecting-process-injection-techniques は、疑わしいインメモリ活動の分析、EDRアラートの検証、プロセスホローイング、APCインジェクション、スレッドハイジャック、リフレクティブローディング、従来型のDLLインジェクションの特定を支援し、Security Audit やマルウェアトリアージに役立ちます。

Security Audit

お気に入り 0GitHub 0

detecting-email-forwarding-rules-attack

作成者 mukul975

detecting-email-forwarding-rules-attack スキルは、Security Audit、脅威ハンティング、インシデント対応チームが、永続化やメール収集に悪用される悪意あるメールボックス転送ルールを見つけるのを支援します。Microsoft 365 と Exchange の証跡、不審なルールパターン、forwarding、redirect、delete、hide の各動作を対象にした実践的なトリアージを案内します。

Security Audit

お気に入り 0GitHub 0

analyzing-ios-app-security-with-objection

作成者 mukul975

analyzing-ios-app-security-with-objection skill は、正当な権限を持つテスターが Objection と Frida を使って iOS アプリのランタイム・セキュリティチェックを行うための skill です。Security Audit の一環として、キーチェーンの露出、ファイルシステム上の保存状況、Cookie、SSL pinning、脱獄検知、その他のクライアント側防御を確認する際に役立ちます。ワークフローの案内、インストール手順、実運用での注意点も含まれます。

Security Audit

お気に入り 0GitHub 0

analyzing-heap-spray-exploitation

作成者 mukul975

analyzing-heap-spray-exploitation は、Volatility3 を使ってメモリダンプ内の heap spray exploit を解析するスキルです。NOP sled のパターン、不審な大容量アロケーション、shellcode の着地領域、プロセス VAD の証跡を特定し、Security Audit、マルウェアの初動トリアージ、exploit 検証に役立ちます。

Security Audit

お気に入り 0GitHub 0

detecting-supply-chain-attacks-in-ci-cd

作成者 mukul975

GitHub Actions と CI/CD 設定を監査するための detecting-supply-chain-attacks-in-ci-cd skill です。固定されていない actions、スクリプト注入、dependency confusion、シークレット露出、Security Audit ワークフローにおける危険な権限を見つけるのに役立ちます。リポジトリ、ワークフローファイル、または不審なパイプライン変更を確認する際に、明確な検出結果と修正案を得るために使えます。

Security Audit

お気に入り 0GitHub 0

detecting-api-enumeration-attacks

作成者 mukul975

detecting-api-enumeration-attacks は、連続するID、404の集中、認可失敗、ドキュメント探索パスを分析して、Security Audit チームが API のプロービング、BOLA、IDOR を検知するのを支援します。ログ駆動の検知指針、ルール作成、API 悪用パターンの実務レビューに向けて設計されています。

Security Audit

お気に入り 0GitHub 0