detecting-ai-model-prompt-injection-attacks

bởi mukul975

detecting-ai-model-prompt-injection-attacks là một skill an ninh mạng dùng để sàng lọc văn bản không đáng tin cậy trước khi nội dung đó đến LLM. Skill này kết hợp regex nhiều lớp, chấm điểm theo heuristic và phân loại dựa trên DeBERTa để phát hiện các tấn công prompt injection trực tiếp lẫn gián tiếp. Hữu ích cho kiểm tra đầu vào chatbot, nạp tài liệu và Threat Modeling.

Stars0

Yêu thích0

Bình luận0

Đã thêm12 thg 5, 2026

Danh mụcThreat Modeling

Lệnh cài đặt

npx skills add mukul975/Anthropic-Cybersecurity-Skills --skill detecting-ai-model-prompt-injection-attacks

Điểm tuyển chọn

Skill này đạt 74/100, nghĩa là đủ tốt để đưa vào danh mục cho người dùng cần một quy trình phát hiện prompt injection cụ thể, nhưng chưa phải kiểu cài vào là chạy ngay với độ tin cậy cao. Repository cung cấp đủ chi tiết vận hành để cân nhắc áp dụng, dù người dùng vẫn nên chuẩn bị tinh thần tích hợp thêm và tự kiểm tra thiết lập model/runtime.

74/100

Điểm mạnh

Khả năng kích hoạt rõ ràng: phần mô tả nêu trực tiếp các mục đích phát hiện prompt injection, làm sạch đầu vào, quét an ninh AI và phân loại tấn công prompt.
Quy trình vận hành có thật và theo nhiều lớp: tài liệu và script cho thấy regex, chấm điểm heuristic và phân loại dựa trên DeBERTa cùng một `DetectionResult` có cấu trúc.
Giá trị ra quyết định cài đặt tốt: có API reference cho `PromptInjectionDetector` và phần triển khai script, nên người dùng có thể xem skill sẽ chạy thế nào và đầu ra cần mong đợi là gì.

Điểm cần lưu ý

Không có lệnh cài đặt hay hướng dẫn đóng gói trong `SKILL.md`, nên người dùng có thể phải tự ghép runtime và các dependency.
Repository tập trung vào logic phát hiện và phần tham chiếu, nhưng các tài liệu được trích xuất chưa cho thấy quy trình triển khai end-to-end hay ví dụ kiểm thử đủ cho môi trường production.

Prompt Injection Llm Ai Security Anthropic

Tổng quan

Tổng quan về skill detecting-ai-model-prompt-injection-attacks

Skill này làm gì

Skill detecting-ai-model-prompt-injection-attacks giúp bạn sàng lọc văn bản trước khi nó đi vào LLM, với các lớp kiểm tra cho cụm từ injection đã biết, bất thường về cấu trúc và chấm điểm dựa trên bộ phân loại. Skill này hữu ích nhất khi bạn cần một cơ chế kiểm soát thực tế cho chatbot, đầu vào của agent, nạp tài liệu, hoặc bất kỳ pipeline nào nơi văn bản không đáng tin có thể cố ghi đè hướng dẫn hệ thống.

Ai nên cài đặt

Hãy dùng detecting-ai-model-prompt-injection-attacks nếu bạn đang làm AI security, hardening ứng dụng, hoặc Threat Modeling cho hệ thống LLM và muốn nhiều hơn một checklist prompt chung chung. Skill này phù hợp với các nhóm cần một bộ phát hiện nhanh ở vòng đầu, một quy trình rà soát lặp lại được, hoặc một bản triển khai tham chiếu để tùy biến thành lớp moderation hay validation của riêng mình.

Vì sao nó khác biệt

Skill này không chỉ là một prompt template. Repository dẫn tới thiết kế nhiều lớp trong scripts/agent.py và một tài liệu tham chiếu phương thức trong references/api-reference.md, nên bạn có thể nhìn rõ detector cần đầu vào gì và đầu ra được cấu trúc ra sao. Điều đó quan trọng nếu bạn muốn quyết định detecting-ai-model-prompt-injection-attacks có thực sự cài được vào một workflow thật hay chỉ đọc cho biết về mặt lý thuyết.

Cách dùng skill detecting-ai-model-prompt-injection-attacks

Cài đặt skill

Cài bằng:
npx skills add mukul975/Anthropic-Cybersecurity-Skills --skill detecting-ai-model-prompt-injection-attacks

Sau khi cài, hãy xem skill này như một workflow bảo mật để gọi với văn bản không đáng tin, chứ không phải một công cụ sinh câu trả lời một lần là xong. Bước cài đặt detecting-ai-model-prompt-injection-attacks chỉ thực sự hữu ích nếu bạn cũng cung cấp ngữ cảnh ứng dụng xung quanh: văn bản đến từ đâu, model được phép làm gì, và thế nào được xem là false positive.

Bắt đầu từ đúng file

Đọc SKILL.md trước để nắm các use case và workflow dự kiến. Sau đó xem references/api-reference.md để hiểu PromptInjectionDetector, các tùy chọn mode, threshold, và device, cùng việc analyze(text) trả về gì. Nếu bạn muốn điều chỉnh hành vi hoặc tích hợp vào tự động hóa, hãy xem tiếp scripts/agent.py vì file này cho thấy các lớp phát hiện thực tế và cách kết quả được ghép lại.

Cung cấp đầu vào đầy đủ cho skill

Cách dùng detecting-ai-model-prompt-injection-attacks hiệu quả nhất là khi prompt của bạn bao gồm:

đoạn văn bản cần kiểm tra
đó là input của người dùng, nội dung được truy xuất, hay output của tool
ngữ cảnh sản phẩm, chẳng hạn chatbot, pipeline RAG, hoặc agent
hành động bạn muốn, như gắn cờ, giải thích, hoặc phân loại

Một prompt mạnh hơn sẽ là: “Phân tích tin nhắn khách hàng này xem có dấu hiệu prompt injection trong chatbot hỗ trợ hay không. Trả về các mẫu tấn công có khả năng xảy ra, độ tin cậy, và có nên chặn hay không.” Cách này tốt hơn nhiều so với “Kiểm tra đoạn text này,” vì skill có thể bám vào đúng quyết định bảo mật cần đưa ra.

Dùng theo workflow, không chỉ một lượt quét

Để có kết quả tốt nhất, hãy quét nội dung đáng ngờ trước, rồi xem lớp nào đã kích hoạt: khớp regex, tín hiệu heuristic, hay điểm số của classifier. Nếu lượt đầu quá nhiễu, hãy thu hẹp phạm vi bằng cách yêu cầu chỉ phát hiện direct injection, hoặc mở rộng bằng cách hỏi thêm về indirect injection trong văn bản mã hóa hay bị làm rối. Điều này khiến hướng dẫn detecting-ai-model-prompt-injection-attacks trở nên thực dụng hơn cho triage trong môi trường thật.

Câu hỏi thường gặp về skill detecting-ai-model-prompt-injection-attacks

Đây chỉ dành cho rà soát bảo mật prompt thôi sao?

Không. Skill detecting-ai-model-prompt-injection-attacks cũng phù hợp cho Threat Modeling, rà soát trước triển khai, kiểm thử kiểu red-team, và xây lớp bảo vệ quanh các kênh đầu vào của LLM. Nếu công việc của bạn là xác định nên đặt ranh giới validation ở đâu, skill này là một lựa chọn rất hợp.

Nó khác gì một prompt bình thường?

Một prompt bình thường có thể chỉ bảo LLM “hãy để ý injection,” nhưng skill này dường như triển khai một workflow phát hiện cụ thể với các lớp rõ ràng và đầu ra có cấu trúc. Điều đó giảm phần phải đoán khi bạn cần so sánh đầu vào, tinh chỉnh ngưỡng, hoặc giải thích vì sao một đoạn text bị gắn cờ.

Tôi có cần kinh nghiệm ML để dùng không?

Không nhất thiết. Người mới vẫn có thể dùng skill detecting-ai-model-prompt-injection-attacks như một công cụ rà soát có hướng dẫn nếu họ cung cấp được đoạn văn bản mẫu và mục tiêu bảo mật rõ ràng. Người dùng nâng cao sẽ khai thác thêm được các chế độ detector, tinh chỉnh threshold, và phần phân tách lớp trong API reference.

Khi nào không nên dùng?

Đừng dựa vào nó như lớp phòng thủ duy nhất nếu ứng dụng của bạn có mức rủi ro cao hoặc tiếp xúc với lưu lượng tấn công chủ đích. Nếu bạn chỉ cần một bộ lọc nội dung đơn giản cho văn bản lành tính, công cụ này có thể phức tạp hơn mức cần thiết. Nó mạnh nhất khi bạn cần một detector định hướng bảo mật cho đầu vào LLM, không phải một hệ thống moderation chung chung.

Cách cải thiện skill detecting-ai-model-prompt-injection-attacks

Cung cấp bối cảnh tấn công sát thực tế

Đầu vào tốt nhất luôn có kênh và threat model: “user chat,” “trang web được truy xuất,” “email body,” hoặc “tool output.” Bối cảnh đó giúp detecting-ai-model-prompt-injection-attacks phân biệt giữa chỉ dẫn bình thường và đoạn text đang cố chiếm quyền hành vi của model. Với Threat Modeling, cũng nên nêu rõ tài sản đang có nguy cơ, như system prompts, tool calls, hoặc dữ liệu truy xuất riêng tư.

Yêu cầu đầu ra có thể hành động được

Đừng chỉ hỏi “an toàn hay không an toàn.” Hãy yêu cầu các tín hiệu phát hiện mà bạn cần để ra quyết định vận hành: loại tấn công, độ tin cậy, và lý do bị gắn cờ. Nếu bạn đang tinh chỉnh pipeline, hãy yêu cầu thêm một giải thích ngắn và lớp phát hiện có khả năng chịu trách nhiệm. Như vậy kết quả đầu tiên sẽ dễ hiệu chỉnh hơn theo mức chấp nhận false positive của riêng bạn.

Kiểm thử với các ca biên đã biết

Hãy cải thiện hướng dẫn detecting-ai-model-prompt-injection-attacks bằng cách thử nó với direct override, role-play escape, mẹo dùng delimiter, payload đã mã hóa, và obfuscation đa ngôn ngữ. Nếu một mẫu bị gắn cờ sai, hãy gửi lại cùng ngữ cảnh hợp lệ dự kiến và yêu cầu phân loại hẹp hơn. Nếu nó bỏ sót một ca, hãy nói rõ bạn muốn regex-only, heuristic-only, hay full layered analysis để cô lập đúng điểm yếu.

Đánh giá & nhận xét

Chưa có đánh giá nào

Chia sẻ nhận xét của bạn

Đăng nhập để chấm điểm và để lại nhận xét cho skill này.

0/10000

Nhận xét mới nhất

Đang lưu...

Thêm skill trong danh mục này

security-threat-model

bởi openai

Skill security-threat-model bám theo repository để hỗ trợ mô hình hóa mối đe dọa trong AppSec. Skill này giúp chuyển các ranh giới tin cậy, tài sản, mục tiêu của kẻ tấn công, đường đi lạm dụng và biện pháp giảm thiểu thành một threat model Markdown ngắn gọn. Hãy dùng khi bạn cần security-threat-model cho Threat Modeling trên một repo hoặc đường dẫn cụ thể, không phải để review kiến trúc chung hay kiểm tra code.

Threat Modeling

Yêu thích 0GitHub 0

solana-vulnerability-scanner

bởi trailofbits

solana-vulnerability-scanner là một skill kiểm toán bảo mật Solana chuyên sâu dành cho các chương trình native Rust và Anchor. Skill này hỗ trợ rà soát logic CPI, xác thực PDA, kiểm tra signer và quyền sở hữu, cùng nguy cơ giả mạo sysvar để phát hiện sáu lỗ hổng nghiêm trọng đặc thù Solana trước khi triển khai.

Security Audit

Yêu thích 0GitHub 4.9k

exploiting-insecure-data-storage-in-mobile

bởi mukul975

Kỹ năng khai thác lưu trữ dữ liệu không an toàn trên mobile giúp đánh giá và trích xuất bằng chứng từ bộ nhớ cục bộ kém an toàn trong ứng dụng Android và iOS. Kỹ năng này bao phủ SharedPreferences, cơ sở dữ liệu SQLite, file plist, file có thể đọc công khai, rò rỉ qua bản sao lưu, và cách xử lý yếu keychain/keystore trong các workflow pentest mobile và Security Audit.

Security Audit

Yêu thích 0GitHub 6.2k

algorand-vulnerability-scanner

bởi trailofbits

algorand-vulnerability-scanner là một skill kiểm toán bảo mật cho Algorand TEAL và PyTeal. Nó giúp phát hiện 11 vấn đề phổ biến, bao gồm tấn công rekeying, lỗ hổng kiểm tra phí, kiểm tra field và các lỗi kiểm soát truy cập. Hãy dùng algorand-vulnerability-scanner như một bước rà soát sơ bộ thực tế trước khi audit thủ công.

Security Audit

Yêu thích 0GitHub 4.9k

evaluating-threat-intelligence-platforms

bởi mukul975

evaluating-threat-intelligence-platforms giúp bạn so sánh các sản phẩm TIP theo khả năng nạp feed, hỗ trợ STIX/TAXII, tự động hóa, quy trình làm việc của nhà phân tích, tích hợp và tổng chi phí sở hữu. Hãy dùng hướng dẫn evaluating-threat-intelligence-platforms này cho mua sắm, di chuyển nền tảng hoặc lập kế hoạch trưởng thành, bao gồm cả evaluating-threat-intelligence-platforms cho Threat Modeling khi lựa chọn nền tảng ảnh hưởng đến khả năng truy vết và chia sẻ bằng chứng.

Threat Modeling

Yêu thích 0GitHub 0

detecting-insider-threat-behaviors

bởi mukul975

detecting-insider-threat-behaviors giúp nhà phân tích truy tìm các tín hiệu rủi ro nội bộ như truy cập dữ liệu bất thường, hoạt động ngoài giờ, tải xuống hàng loạt, lạm dụng đặc quyền và hành vi đánh cắp gắn với việc nghỉ việc. Hãy dùng hướng dẫn detecting-insider-threat-behaviors này cho threat hunting, triage kiểu UEBA và threat modeling, với các mẫu quy trình, ví dụ truy vấn SIEM và trọng số rủi ro.

Threat Modeling

Yêu thích 0GitHub 0

detecting-credential-dumping-techniques

bởi mukul975

Skill detecting-credential-dumping-techniques giúp bạn phát hiện truy cập LSASS, xuất SAM, đánh cắp NTDS.dit và lạm dụng comsvcs.dll MiniDump bằng Sysmon Event ID 10, Windows Security logs và các quy tắc tương quan SIEM. Skill này được xây dựng cho các quy trình threat hunting, detection engineering và Security Audit.

Security Audit

Yêu thích 0GitHub 0

collecting-threat-intelligence-with-misp

bởi mukul975

Skill collecting-threat-intelligence-with-misp giúp bạn thu thập, chuẩn hóa, tìm kiếm và xuất threat intelligence trong MISP. Dùng hướng dẫn collecting-threat-intelligence-with-misp này cho feeds, quy trình PyMISP, lọc sự kiện, giảm warninglist và các thao tác collecting-threat-intelligence-with-misp thực tế cho Threat Modeling và vận hành CTI.

Threat Modeling

Yêu thích 0GitHub 0

analyzing-threat-intelligence-feeds

bởi mukul975

Analyzing-threat-intelligence-feeds giúp bạn nạp các CTI feeds, chuẩn hóa chỉ báo, đánh giá chất lượng feed và làm giàu IOC cho quy trình STIX 2.1. Skill analyzing-threat-intelligence-feeds này được xây dựng cho nghiệp vụ threat intel và Data Analysis, với hướng dẫn thực hành cho TAXII, MISP và các feed thương mại.

Data Analysis

Yêu thích 0GitHub 0

cosmos-vulnerability-scanner

bởi trailofbits

cosmos-vulnerability-scanner tìm các lỗi nghiêm trọng với cơ chế đồng thuận trong các module Cosmos SDK, hợp đồng CosmWasm, tích hợp IBC và các stack Cosmos EVM. Hãy dùng hướng dẫn cosmos-vulnerability-scanner này cho quy trình kiểm toán bảo mật, đánh giá rủi ro gây dừng chuỗi, đường dẫn dẫn tới thất thoát tiền và rà soát trước khi ra mắt.

Security Audit

Yêu thích 0GitHub 4.9k

detecting-process-injection-techniques

bởi mukul975

detecting-process-injection-techniques giúp phân tích hoạt động bất thường trong bộ nhớ, xác thực cảnh báo EDR, và nhận diện process hollowing, APC injection, thread hijacking, reflective loading, cùng DLL injection cổ điển cho kiểm toán bảo mật và sàng lọc malware.

Security Audit

Yêu thích 0GitHub 0

detecting-email-forwarding-rules-attack

bởi mukul975

Kỹ năng phát hiện tấn công quy tắc chuyển tiếp email giúp các nhóm Security Audit, threat hunting và incident response tìm ra các quy tắc chuyển tiếp hộp thư độc hại được dùng để duy trì hiện diện và thu thập email. Kỹ năng này hướng dẫn nhà phân tích xem xét bằng chứng trong Microsoft 365 và Exchange, nhận diện các mẫu quy tắc đáng ngờ, và triage thực tế cho các hành vi chuyển tiếp, chuyển hướng, xóa và ẩn.

Security Audit

Yêu thích 0GitHub 0

analyzing-ios-app-security-with-objection

bởi mukul975

Skill phân tích bảo mật app iOS với Objection giúp tester được ủy quyền thực hiện các kiểm tra bảo mật runtime trên ứng dụng iOS bằng Objection và Frida. Dùng skill này để rà soát rò rỉ Keychain, lưu trữ filesystem, cookie, SSL pinning, phát hiện jailbreak và các lớp phòng vệ phía client khác trong quá trình Security Audit. Bao gồm hướng dẫn quy trình, các bước cài đặt và ghi chú sử dụng thực tế.

Security Audit

Yêu thích 0GitHub 0

analyzing-heap-spray-exploitation

bởi mukul975

analyzing-heap-spray-exploitation giúp phân tích khai thác heap spray trong memory dump bằng Volatility3. Skill này nhận diện mẫu NOP sled, các vùng cấp phát lớn đáng ngờ, vùng đáp của shellcode và bằng chứng VAD của tiến trình, phù hợp cho Security Audit, sàng lọc malware và xác thực exploit.

Security Audit

Yêu thích 0GitHub 0

detecting-supply-chain-attacks-in-ci-cd

bởi mukul975

Kỹ năng phát hiện tấn công chuỗi cung ứng trong CI/CD dành cho việc kiểm tra GitHub Actions và cấu hình CI/CD. Kỹ năng này giúp phát hiện action chưa ghim phiên bản, chèn script, nhầm lẫn phụ thuộc, lộ bí mật và quyền hạn rủi ro trong các quy trình Security Audit. Dùng nó để rà soát một repo, file workflow hoặc thay đổi pipeline đáng ngờ, kèm phát hiện và cách khắc phục rõ ràng.

Security Audit

Yêu thích 0GitHub 0

detecting-api-enumeration-attacks

bởi mukul975

detecting-api-enumeration-attacks giúp các nhóm Kiểm toán An ninh phát hiện dò quét API, BOLA và IDOR bằng cách phân tích ID tuần tự, các đợt 404 dồn dập, lỗi xác thực và các đường dẫn khám phá tài liệu. Kỹ năng này được xây dựng cho hướng dẫn phát hiện dựa trên log, soạn thảo rule và rà soát thực tế các mẫu lạm dụng API.

Security Audit

Yêu thích 0GitHub 0