多模态

由站点技能导入器展示的多模态技能与工作流。

4 个技能
G
gemini-interactions-api

作者 google-gemini

使用 gemini-interactions-api 技能构建 Gemini API 代码,覆盖聊天、多模态提示、流式输出、结构化输出、工具调用和图像生成。它也能帮助你从较旧的 generateContent 模式迁移,并为 Python 和 TypeScript 的 API 开发提供实用指导。

API 开发
收藏 0GitHub 3.4k
M
azure-ai-contentunderstanding-py

作者 microsoft

azure-ai-contentunderstanding-py 是 Azure AI Content Understanding 的 Python 技能。它可从文档、图像、音频和视频中提取结构化内容,适用于 RAG 工作流和自动化场景。若你需要可靠的多模态提取、Azure 身份验证以及可重复、可直接接入流水线的输出,就适合使用它。

RAG 工作流
收藏 0GitHub 2.2k
M
azure-ai-vision-imageanalysis-java

作者 microsoft

azure-ai-vision-imageanalysis-java 可帮助你用 Azure AI Vision 构建 Java 图像分析应用。适用于图像描述、OCR、目标检测、标签识别、人物检测、智能裁剪以及 API 开发,并提供 SDK 配置、身份验证和示例。

API 开发
收藏 0GitHub 2.2k
T
transform-generate-image-with-transloadit

作者 transloadit

transform-generate-image-with-transloadit 是一个一次性的图片生成技能,可通过 Transloadit 和 transloadit CLI,依据文本提示词或提示词加参考图片生成本地图片文件。适合需要快速、以提示词驱动的图片生成场景,支持清晰的输出路径控制,并可按需选择模型。

图像生成
收藏 0GitHub 0
多模态