Multimodal

Multimodal skills and workflows surfaced by the site skill importer.

4 Skills

gemini-interactions-api

von google-gemini

Nutze das gemini-interactions-api skill, um Gemini API-Code für Chat, multimodale Prompts, Streaming, strukturiertes Output, Tool-Nutzung und Bilderzeugung zu erstellen. Es hilft auch bei der Migration von älteren generateContent-Mustern und bietet praxisnahe Orientierung für API-Entwicklung in Python und TypeScript.

API Development

Favoriten 0GitHub 3.4k

azure-ai-contentunderstanding-py

von microsoft

azure-ai-contentunderstanding-py ist das Python-Skill für Azure AI Content Understanding. Es extrahiert strukturierte Inhalte aus Dokumenten, Bildern, Audio und Video für RAG-Workflows und Automatisierung. Nutzen Sie es, wenn Sie zuverlässige multimodale Extraktion, Azure-Authentifizierung und reproduzierbare, pipelinefähige Ausgaben benötigen.

RAG Workflows

Favoriten 0GitHub 2.2k

azure-ai-vision-imageanalysis-java

von microsoft

azure-ai-vision-imageanalysis-java hilft dir beim Erstellen von Java-Apps für die Bildanalyse mit Azure AI Vision. Nutze es für Bildbeschreibungen, OCR, Objekterkennung, Tagging, Personenerkennung, Smart Cropping und API-Entwicklung mit SDK-Setup, Authentifizierung und Beispielen.

API Development

Favoriten 0GitHub 2.2k

transform-generate-image-with-transloadit

von transloadit

transform-generate-image-with-transloadit ist ein Einmal-Image-Generierungsskill, mit dem du aus einem Text-Prompt oder aus Prompt plus Referenzbildern über Transloadit per `transloadit` CLI eine lokale Bilddatei erzeugst. Geeignet für schnelle, promptgesteuerte Bildgenerierung mit klarer Steuerung des Ausgabepfads und optionaler Modellauswahl.

Image Generation

Favoriten 0GitHub 0