多模态

由站点技能导入器展示的多模态技能与工作流。

4 個技能

gemini-interactions-api

作者 google-gemini

使用 gemini-interactions-api 技能來建立 Gemini API 程式碼，涵蓋聊天、多模態提示、串流、結構化輸出、工具使用與圖片生成。它也能協助從舊版 generateContent 模式遷移，並提供 Python 與 TypeScript 的 API 開發實務指引。

API 开发

收藏 0GitHub 3.4k

azure-ai-contentunderstanding-py

作者 microsoft

azure-ai-contentunderstanding-py 是 Azure AI Content Understanding 的 Python 技能。它可從文件、圖片、音訊與影片中擷取結構化內容，適合 RAG 工作流程與自動化。當你需要可靠的多模態擷取、Azure 驗證，以及可重複、可直接接入管線的輸出時，這個技能很合適。

RAG 工作流

收藏 0GitHub 2.2k

azure-ai-vision-imageanalysis-java

作者 microsoft

azure-ai-vision-imageanalysis-java 可協助你用 Azure AI Vision 建立 Java 影像分析應用程式。適合用於圖片說明、OCR、物件偵測、標籤、人物偵測、智慧裁切，以及 API 開發；同時提供 SDK 設定、驗證與範例。

API 开发

收藏 0GitHub 2.2k

transform-generate-image-with-transloadit

作者 transloadit

transform-generate-image-with-transloadit 是一個一次性圖片生成技能，可透過 Transloadit 搭配 transloadit CLI，根據文字提示詞或提示詞加參考圖片，建立本機圖片檔案。適合需要快速、以提示詞驅動的圖片生成，同時又想明確控制輸出路徑，並可視需要選擇模型的情境。

影像生成

收藏 0GitHub 0