Multimodal

Multimodal skills and workflows surfaced by the site skill importer.

4 skills
G
gemini-interactions-api

bởi google-gemini

Dùng skill gemini-interactions-api để xây dựng code Gemini API cho chat, prompt đa phương thức, streaming, đầu ra có cấu trúc, gọi tool và tạo ảnh. Skill này cũng hỗ trợ chuyển đổi từ các mẫu generateContent cũ và cung cấp hướng dẫn thực tế cho phát triển API bằng Python và TypeScript.

API Development
Yêu thích 0GitHub 3.4k
M
azure-ai-contentunderstanding-py

bởi microsoft

azure-ai-contentunderstanding-py là skill Python cho Azure AI Content Understanding. Nó trích xuất nội dung có cấu trúc từ tài liệu, hình ảnh, âm thanh và video để phục vụ RAG và tự động hóa. Hãy dùng khi bạn cần trích xuất đa phương thức đáng tin cậy, xác thực Azure và đầu ra lặp lại, sẵn sàng cho pipeline.

RAG Workflows
Yêu thích 0GitHub 2.2k
M
azure-ai-vision-imageanalysis-java

bởi microsoft

azure-ai-vision-imageanalysis-java giúp bạn xây dựng ứng dụng phân tích ảnh bằng Java với Azure AI Vision. Phù hợp cho captioning, OCR, phát hiện đối tượng, gắn thẻ, phát hiện người, cắt ảnh thông minh và phát triển API, với thiết lập SDK, xác thực và ví dụ minh họa.

API Development
Yêu thích 0GitHub 2.2k
T
transform-generate-image-with-transloadit

bởi transloadit

transform-generate-image-with-transloadit là một skill tạo ảnh dùng một lần, giúp tạo file ảnh cục bộ từ một prompt văn bản hoặc prompt kèm ảnh tham chiếu bằng Transloadit thông qua CLI transloadit. Phù hợp khi bạn cần tạo ảnh nhanh theo prompt, kiểm soát rõ đường dẫn đầu ra và có thể chọn model nếu cần.

Image Generation
Yêu thích 0GitHub 0
Multimodal