Multimodal

Multimodal skills and workflows surfaced by the site skill importer.

4 skills

gemini-interactions-api

par google-gemini

Utilisez le skill gemini-interactions-api pour créer du code API Gemini pour le chat, les prompts multimodaux, le streaming, les sorties structurées, l’utilisation d’outils et la génération d’images. Il aide aussi à migrer depuis les anciens schémas `generateContent` et fournit des conseils pratiques pour le développement d’API en Python et en TypeScript.

API Development

Favoris 0GitHub 3.4k

azure-ai-contentunderstanding-py

par microsoft

azure-ai-contentunderstanding-py est le skill Python pour Azure AI Content Understanding. Il extrait du contenu structuré à partir de documents, d’images, d’audio et de vidéos pour les workflows RAG et l’automatisation. Utilisez-le lorsque vous avez besoin d’une extraction multimodale fiable, de l’authentification Azure et d’une sortie répétable, prête pour les pipelines.

RAG Workflows

Favoris 0GitHub 2.2k

azure-ai-vision-imageanalysis-java

par microsoft

azure-ai-vision-imageanalysis-java vous aide à créer des applications Java d’analyse d’images avec Azure AI Vision. Utilisez-le pour la génération de légendes, l’OCR, la détection d’objets, le balisage, la détection de personnes, le recadrage intelligent et le développement d’API avec configuration du SDK, authentification et exemples.

API Development

Favoris 0GitHub 2.2k

transform-generate-image-with-transloadit

par transloadit

transform-generate-image-with-transloadit est une compétence ponctuelle de génération d’images pour créer un fichier image local à partir d’un prompt texte, ou d’un prompt accompagné d’images de référence, en utilisant Transloadit via la CLI transloadit. Utilisez-la pour générer rapidement des images à partir d’instructions, avec un contrôle clair du chemin de sortie et, en option, la sélection du modèle.

Image Generation

Favoris 0GitHub 0