Multimodal

Multimodal skills and workflows surfaced by the site skill importer.

4 skills

gemini-interactions-api

por google-gemini

Use a skill gemini-interactions-api para criar código da Gemini API para chat, prompts multimodais, streaming, saída estruturada, uso de ferramentas e geração de imagens. Ela também ajuda na migração de padrões antigos de `generateContent` e traz orientações práticas para desenvolvimento de APIs em Python e TypeScript.

API Development

Favoritos 0GitHub 3.4k

azure-ai-contentunderstanding-py

por microsoft

azure-ai-contentunderstanding-py é a skill em Python para o Azure AI Content Understanding. Ela extrai conteúdo estruturado de documentos, imagens, áudio e vídeo para fluxos de trabalho de RAG e automação. Use-a quando precisar de extração multimodal confiável, autenticação com Azure e saídas repetíveis prontas para pipeline.

RAG Workflows

Favoritos 0GitHub 2.2k

azure-ai-vision-imageanalysis-java

por microsoft

azure-ai-vision-imageanalysis-java ajuda você a criar apps Java de análise de imagens com o Azure AI Vision. Use para gerar legendas, fazer OCR, detectar objetos, marcar imagens, detectar pessoas, fazer smart cropping e desenvolver APIs, com configuração do SDK, autenticação e exemplos.

API Development

Favoritos 0GitHub 2.2k

transform-generate-image-with-transloadit

por transloadit

transform-generate-image-with-transloadit é uma skill de geração de imagem pontual para criar um arquivo de imagem local a partir de um prompt de texto ou de um prompt com imagens de referência, usando o Transloadit via o CLI `transloadit`. Use-a para geração rápida de imagens orientada por prompt, com controle claro do caminho de saída e seleção opcional de modelo.

Image Generation

Favoritos 0GitHub 0