多模态

由站点技能导入器展示的多模态技能与工作流。

4 个技能

gemini-interactions-api

作者 google-gemini

使用 gemini-interactions-api 技能构建 Gemini API 代码，覆盖聊天、多模态提示、流式输出、结构化输出、工具调用和图像生成。它也能帮助你从较旧的 generateContent 模式迁移，并为 Python 和 TypeScript 的 API 开发提供实用指导。

API 开发

收藏 0GitHub 3.4k

azure-ai-contentunderstanding-py

作者 microsoft

azure-ai-contentunderstanding-py 是 Azure AI Content Understanding 的 Python 技能。它可从文档、图像、音频和视频中提取结构化内容，适用于 RAG 工作流和自动化场景。若你需要可靠的多模态提取、Azure 身份验证以及可重复、可直接接入流水线的输出，就适合使用它。

RAG 工作流

收藏 0GitHub 2.2k

azure-ai-vision-imageanalysis-java

作者 microsoft

azure-ai-vision-imageanalysis-java 可帮助你用 Azure AI Vision 构建 Java 图像分析应用。适用于图像描述、OCR、目标检测、标签识别、人物检测、智能裁剪以及 API 开发，并提供 SDK 配置、身份验证和示例。

API 开发

收藏 0GitHub 2.2k

transform-generate-image-with-transloadit

作者 transloadit

transform-generate-image-with-transloadit 是一个一次性的图片生成技能，可通过 Transloadit 和 transloadit CLI，依据文本提示词或提示词加参考图片生成本地图片文件。适合需要快速、以提示词驱动的图片生成场景，支持清晰的输出路径控制，并可按需选择模型。

图像生成

收藏 0GitHub 0