Multimodal

Multimodal skills and workflows surfaced by the site skill importer.

4 skills

gemini-interactions-api

por google-gemini

Usa la skill gemini-interactions-api para crear código de la Gemini API para chat, prompts multimodales, streaming, salida estructurada, uso de herramientas y generación de imágenes. También ayuda a migrar desde patrones antiguos de generateContent y ofrece orientación práctica para el desarrollo de API en Python y TypeScript.

API Development

Favoritos 0GitHub 3.4k

azure-ai-contentunderstanding-py

por microsoft

azure-ai-contentunderstanding-py es la skill de Python para Azure AI Content Understanding. Extrae contenido estructurado de documentos, imágenes, audio y video para flujos de trabajo RAG y automatización. Úsala cuando necesites extracción multimodal fiable, autenticación con Azure y resultados repetibles, listos para integrar en pipelines.

RAG Workflows

Favoritos 0GitHub 2.2k

azure-ai-vision-imageanalysis-java

por microsoft

azure-ai-vision-imageanalysis-java te ayuda a crear aplicaciones Java de análisis de imágenes con Azure AI Vision. Úsalo para generar descripciones, hacer OCR, detectar objetos, etiquetar imágenes, detectar personas, recorte inteligente y desarrollo con API, con configuración del SDK, autenticación y ejemplos.

API Development

Favoritos 0GitHub 2.2k

transform-generate-image-with-transloadit

por transloadit

transform-generate-image-with-transloadit es una habilidad de generación de imágenes de uso puntual para crear un archivo de imagen local a partir de un prompt de texto o de un prompt junto con imágenes de referencia, usando Transloadit mediante la CLI de transloadit. Úsala para generar imágenes rápidamente a partir de prompts, con control claro de la ruta de salida y selección opcional del modelo.

Image Generation

Favoritos 0GitHub 0