多模态

由站点技能导入器展示的多模态技能与工作流。

4 個技能
G
gemini-interactions-api

作者 google-gemini

使用 gemini-interactions-api 技能來建立 Gemini API 程式碼,涵蓋聊天、多模態提示、串流、結構化輸出、工具使用與圖片生成。它也能協助從舊版 generateContent 模式遷移,並提供 Python 與 TypeScript 的 API 開發實務指引。

API 开发
收藏 0GitHub 3.4k
M
azure-ai-contentunderstanding-py

作者 microsoft

azure-ai-contentunderstanding-py 是 Azure AI Content Understanding 的 Python 技能。它可從文件、圖片、音訊與影片中擷取結構化內容,適合 RAG 工作流程與自動化。當你需要可靠的多模態擷取、Azure 驗證,以及可重複、可直接接入管線的輸出時,這個技能很合適。

RAG 工作流
收藏 0GitHub 2.2k
M
azure-ai-vision-imageanalysis-java

作者 microsoft

azure-ai-vision-imageanalysis-java 可協助你用 Azure AI Vision 建立 Java 影像分析應用程式。適合用於圖片說明、OCR、物件偵測、標籤、人物偵測、智慧裁切,以及 API 開發;同時提供 SDK 設定、驗證與範例。

API 开发
收藏 0GitHub 2.2k
T
transform-generate-image-with-transloadit

作者 transloadit

transform-generate-image-with-transloadit 是一個一次性圖片生成技能,可透過 Transloadit 搭配 transloadit CLI,根據文字提示詞或提示詞加參考圖片,建立本機圖片檔案。適合需要快速、以提示詞驅動的圖片生成,同時又想明確控制輸出路徑,並可視需要選擇模型的情境。

影像生成
收藏 0GitHub 0
多模态