baoyu-danger-gemini-web

作者 JimLiu

baoyu-danger-gemini-web 是一個 Gemini Web 用戶端封裝，可用於文字生成、圖片生成、參考圖片視覺理解與多輪對話。它可從本機 skill repo 透過 bun 或 npx 執行，使用 `scripts/` 目錄下的腳本，並在首次安裝與使用前要求先完成使用者同意確認。

Stars13.2k

評論0

加入時間2026年4月5日

分類影像生成

安裝指令

npx skills add JimLiu/baoyu-skills --skill baoyu-danger-gemini-web

編輯評分

這個 skill 的評分為 74/100，代表它值得收錄，對需要以 Gemini 為基礎進行文字或圖片生成的 agents 來說，應該具有實用價值；不過目錄使用者也應預期會有一定設定門檻，且涉及對政策較敏感的使用情境。從 repository 來看，這個專案具備真實的工作流內容：有相當完整的 SKILL.md、明確的觸發語、針對 reverse-engineered API 使用的同意門檻，以及不算簡單的 TypeScript 實作、CLI 入口點與 Gemini web client library。

74/100

亮點

觸發性良好：描述中清楚列出 Gemini 文字生成、圖片生成、vision/reference-image 輸入與多輪對話等使用情境。
具備實際操作內容：repo 內含規模不小的 scripts 目錄與 main.ts，另有完整的 gemini-webapi client、types、utilities 與 error handling，而不只是薄薄一層 prompt wrapper。
對高風險工作流有一定信任訊號：SKILL.md 明確要求在首次使用 reverse-engineered API 前，必須先進行使用者同意確認。

注意事項

導入阻力仍在：SKILL.md 雖提供 runtime 解析相關指引，但沒有直接的安裝指令，而且整體流程很可能仰賴外部環境或 browser cookie 設定，而這些資訊目前只看得到一部分。
這是一個 reverse-engineered 的「danger」整合，因此在穩定性與政策適配性上，可能比官方 API 更脆弱。

Gemini Google Ai Cli TypeScript Node.js 工作流

總覽

baoyu-danger-gemini-web skill 概覽

baoyu-danger-gemini-web skill 可以做什麼

baoyu-danger-gemini-web skill 是一個 Gemini Web client wrapper，讓代理可以透過逆向工程出的網頁流程，而不是官方 API，來產生文字、生成圖片、使用參考圖片，並延續多輪對話。它真正的價值在於實用性：如果你需要在技能工作流程中使用 Gemini 風格的圖片生成，或具備 vision 能力的提示操作，這個 skill 提供的是一條可在本機執行的路徑，而不是要你自己手寫脆弱又容易失效的 web requests。

什麼人適合安裝

最適合：已經在使用本機 AI skills、習慣執行 bun 或 npx -y bun，而且明確想要使用 baoyu-danger-gemini-web for Image Generation 或 vision 輸入支援的使用者。若你的團隊需要官方供應商支援、穩定的 API 契約，或容易部署到雲端的方案，這個 skill 就沒那麼適合。這個 repo 本身也要求第一次使用前先完成 consent check，這已經很明確地說明：它是為了解狀況、願意動手處理細節的使用者而設計。

為什麼大家會選它，而不是只寫一段 prompt

一般 prompt 並不能幫你處理 transport layer、cookie handling、upload flow、token refresh 行為，或 chat/image request 結構。baoyu-danger-gemini-web skill 把這些細節包進 scripts/main.ts 與 scripts/gemini-webapi/ 的 client code 裡。這能大幅減少摸索成本，特別是在你的任務是「把 Gemini Web 當成後端來用」，而不只是「寫出一句看起來不錯的 prompt」時。

採用前要權衡的重點

它最突出的差異在於能力涵蓋面夠廣：同一條 code path 裡就包含文字、圖片生成、參考圖輸入、聊天延續，以及 gem 相關 client support。最大的取捨也從名稱與程式碼就看得出來：這套東西依賴逆向工程出的 Gemini Web 行為，所以功能失效、驗證摩擦、rate limits，以及暫時封鎖，都不是小機率意外，而是你必須正視的風險。如果這些風險對你的使用情境不可接受，就不要安裝。

如何使用 baoyu-danger-gemini-web skill

安裝情境與執行環境需求

baoyu-danger-gemini-web install 的前提，是 skill repo 加上一個 JS runtime。這個 skill 的 frontmatter 預期使用 bun 或 npx。實際上，建議你先看這些檔案：

SKILL.md
scripts/package.json
scripts/main.ts
scripts/gemini-webapi/client.ts
scripts/gemini-webapi/constants.ts
scripts/gemini-webapi/exceptions.ts

repo 已寫明所有可執行邏輯都在 scripts/ 底下。有安裝 bun 就直接用；沒有的話，這個 skill 也明確支援 npx -y bun。不要略過 SKILL.md 裡提到的 consent 步驟，因為首次使用前先取得同意，本來就是它預設工作流程的一部分。

baoyu-danger-gemini-web 需要什麼輸入

若想讓 baoyu-danger-gemini-web usage 更穩定、結果更好，請提供：

明確的任務類型：text、image generation、vision with reference image，或 multi-turn chat
一句話說清楚實際使用者目標
輸出限制，例如風格、長寬比、格式、目標受眾，或變體數量
任何參考圖片路徑或先前對話脈絡
失敗容忍度：你要的是一次最佳嘗試，還是接受反覆修正

一個弱的請求會是：「Make an image with Gemini.」

更強的請求會是：「Use baoyu-danger-gemini-web to generate 3 product-hero concepts for a matte black coffee grinder on a white seamless background, premium e-commerce style, front 3/4 angle, soft studio shadows, no text overlays.」

把模糊需求整理成可執行的 invocation

這個 skill 最適合的用法，是先把意圖整理成可直接執行的 brief。實務上可以用這個模板：

先說明模式：image、text，或 vision
定義主體與用途
補上風格與限制條件
加入參考資料或聊天歷史
說明什麼結果才算成功

baoyu-danger-gemini-web for Image Generation 的範例 prompt：
「Generate an image. Subject: futuristic hiking backpack for a landing page hero. Style: outdoor editorial photography, sunrise rim light, realistic materials. Constraints: no people, centered composition, 16:9, high detail, brand-safe. Return the best result plus a short revision note if the scene looks too cluttered.」

若要搭配參考圖片：
「Analyze the attached product photo and generate a cleaner marketing version that preserves silhouette, zipper placement, and color blocking, but improves lighting and background.」

建議工作流程與除錯路徑

先從簡單開始：先跑純文字或單張圖片請求，等 transport 確定正常後，再加入參考圖與聊天延續。如果出錯，建議依照這個順序檢查可能的層次：

SKILL.md：確認 consent 與 runtime 規則
scripts/main.ts：確認 CLI 行為
scripts/gemini-webapi/utils/load-browser-cookies.ts 與 cookie-file.ts：檢查 auth/cookie handling
get-access-token.ts 與 rotate-1psidts.ts：排查 token refresh 問題
exceptions.ts：看可能的失敗類型，例如 AuthError、UsageLimitExceeded、TemporarilyBlocked 或 ImageGenerationError

如果你把這個 repo 當成一個 operational connector，而不是泛用 prompt pack，整體上會更容易上手，也更容易判斷它是否適合你的流程。

baoyu-danger-gemini-web skill 常見問題

baoyu-danger-gemini-web skill 適合新手嗎？

只有在你願意讀 TypeScript，並能自己處理本機 runtime 問題的前提下才算適合。baoyu-danger-gemini-web guide 在概念上不算難，但它絕對不是那種「按一下就能跑」的新手工具。你很可能需要自己排查 cookies、browser session state，或模型行為相關問題。

什麼情況下，它比官方 API 或一般 prompting 更好？

當你明確需要 Gemini Web 的行為、想透過這條路徑做圖片生成，或需要一個能把文字、圖片與聊天整合在同一流程中的本機 skill 時，baoyu-danger-gemini-web skill 會更適合。若你要的是可支援性、明確契約、更清楚的 quota，或正式環境可靠性，請選官方 API。若你根本不需要可執行整合，只是想寫 prompt，那一般 prompting 就夠了。

安裝前最主要的風險是什麼？

最大的風險包括驗證失效、服務端行為變更、使用量限制，以及 IP 或帳號的暫時限制。程式碼裡已經先定義了這些錯誤情境，這點固然有幫助，但也代表這些並不是少見的邊緣案例，而是這類工具本來就必須面對的現實。

什麼情況下不該用 baoyu-danger-gemini-web for Image Generation？

如果你的環境不能使用逆向工程出的 web access、你的法遵或資安團隊要求只能連官方 endpoints，或你的工作流程非常依賴可高度預測的 uptime，就不該用它。如果你只需要基礎文字生成，而官方 SDK 已經能穩定處理，那它也不是理想選擇。

如何改善 baoyu-danger-gemini-web skill 的使用效果

提供更完整的任務 brief，不是單純把 prompt 寫更長

baoyu-danger-gemini-web usage 最快的品質提升方式，來自結構化輸入。做圖片任務時，請清楚指定主體、場景、構圖、光線、寫實程度、排除項，以及用途。做 vision 任務時，請明確指出哪些部分必須維持不變，哪些可以重新設計。這樣能降低結果漂移，也能讓第一輪輸出就更接近可用。

降低常見失敗模式

常見失敗包括：prompt 太模糊、缺少參考圖限制，或一次想做太多事。建議把工作拆成階段：

先生成或先分析
再細修構圖／風格
最後再要求最終清理

如果圖片結果不符合品牌風格，就加入明確的 negatives，例如「no text, no watermark, no extra objects, no exaggerated stylization」。如果聊天脈絡開始混亂，不要假設 session 會自己理解，直接重述目前目標會更有效。

用 repo 內部實作做更聰明的排查

想改善 baoyu-danger-gemini-web skill 的結果，不要只反覆重跑同一段 prompt，應該去看真正決定行為的程式碼。constants.ts 能看出 endpoints 與 model definitions。client.ts 展示了 retry、timeout、upload 與 parsing 邏輯。exceptions.ts 則讓你知道工具如何分類失敗原因。這些資訊比一再重試更有行動價值。

看到第一版輸出後就繼續迭代

不要只跑一次就下結論。更好的做法是提出明確的修正要求：

「keep composition, reduce background clutter」
「preserve product shape, improve material realism」
「same scene, but cleaner color palette and softer shadows」

這會比單純說「make it better」有效得多，因為 baoyu-danger-gemini-web 最擅長的情境，就是目標明確、修改方向也同樣明確。

評分與評論

尚無評分

分享你的評論

登入後即可為這項技能評分並留言。

0/10000

此分類中的更多技能

openclaw-persona-forge

作者 affaan-m

openclaw-persona-forge 是一個以工作流程為核心的技能，可從零開始建立完整的 OpenClaw 人設套件。它會產出身份張力、SOUL.md 風格框架、邊界規則、命名選項，以及可選的頭像提示詞指引。最適合 OpenClaw 角色設計、角色扮演代理，以及與 UI Design 相鄰的人設工作，不適合拿來對既有人設做小幅修改。

UI 設計

收藏 0GitHub 156.2k

baoyu-imagine

作者 JimLiu

baoyu-imagine 是一個支援多家供應商的圖像生成 skill，提供具型別的 CLI、必要的 EXTEND.md 設定、參考圖片支援、長寬比控制，以及可在 OpenAI、Azure OpenAI、Google、OpenRouter、DashScope、MiniMax、Jimeng、Seedream 與 Replicate 間執行批次產圖。

影像生成

收藏 0GitHub 13.2k

baoyu-comic

作者 JimLiu

baoyu-comic 是一項可將來源文字轉成教育漫畫或傳記風格漫畫的技能，涵蓋分鏡規劃、角色一致性、分格版面配置，以及分階段圖像生成。它支援可安裝的 CLI 用法，提供風格與版面選項，也支援如 `--storyboard-only`、`--prompts-only` 與 `--regenerate` 等局部工作流，讓漫畫製作過程更可控。

影像生成

收藏 0GitHub 13.2k

shader-dev

作者 MiniMax-AI

shader-dev 是一套實用的 GLSL 著色器技能，適用於 ShaderToy 風格的即時視覺效果。使用 shader-dev 技能可建立或除錯 ray marching、SDF 場景、光照、粒子、流體動態、後製，以及 UI Design 的 shader-dev，且比泛用提示詞更少憑空猜測。

UI 設計

收藏 0GitHub 11.7k

videoagent-video-studio

作者 pexoai

videoagent-video-studio 是一個可依文字、圖片與參考素材生成短篇 AI 影片的技能。可用來測試 text-to-video 與 image-to-video 工作流程、比較支援模型，並以 Node 18+ 執行代管 proxy 或自行部署的 self-hosted 設定。

视频编辑

收藏 0GitHub 456

seo-image-gen

作者 AgriciDaniel

seo-image-gen 是一個 GitHub skill，可將 SEO 圖像需求轉化為可直接上線使用的提示詞與設定，適用於 OG 圖、社群預覽、Hero 橫幅、產品視覺、資訊圖表與縮圖。它透過 nanobanana-mcp 使用 Gemini，並假設已安裝 banana extension，提供一份實用的 seo-image-gen 使用指南與工作流程。

影像生成

收藏 0GitHub 0

baoyu-xhs-images

作者 JimLiu

baoyu-xhs-images 可將文章或筆記轉成小紅書資訊圖卡輪播，提供預設、風格、版型與設定指引。它能幫助使用者安裝技能、選擇合適輸入內容，並執行 `/baoyu-xhs-images` 來產出結構化的多頁社群貼文。

UI 設計

收藏 0GitHub 13.2k

baoyu-cover-image

作者 JimLiu

baoyu-cover-image 可協助代理生成結構化的文章封面圖片提示詞，涵蓋類型、配色、渲染、文字與氛圍等維度。支援 2.35:1、16:9 與 1:1 格式，並提供自動選擇規則與相容性指引，適合需要可重複執行的編輯與 UI Design 封面製作流程。

UI 設計

收藏 0GitHub 13.2k

meme-factory

作者 softaworks

meme-factory 可協助代理透過免費的 memegen.link API 製作模板式迷因，也支援對 Markdown 友善的文字迷因。你可以用它產生適合分享的迷因 URL、挑選合適模板、正確處理文字格式，並透過內附的 Python helper 自動化輸出。

影像生成

收藏 0GitHub 1.3k

logo-creator

作者 ReScienceLab

logo-creator 是一套用於 AI 標誌製作的工作流程，支援產生概念稿、比較不同版本、裁切、去背，以及匯出 SVG 素材。它結合風格參考、範例提示詞與輔助腳本，可在 ReScienceLab/opc-skills 中用於建立 logo、icon、favicon 與品牌標記。

品牌設計

收藏 0GitHub 0

scientific-schematics

作者 K-Dense-AI

scientific-schematics 可將自然語言提示詞轉成可達到出版等級的科學圖表，並透過智慧型迭代精修持續提升成品。它以 Nano Banana 2 進行生成，並使用 Gemini 3.1 Pro Preview 進行審查；只有當輸出低於你文件類型所需門檻時才會重新生成。這套流程特別適合神經網路架構、系統圖、流程圖、生物路徑，以及其他複雜的科學視覺化內容。

影像生成

收藏 0GitHub 0

banner-creator

作者 ReScienceLab

banner-creator 透過結構化流程協助製作橫幅、頁首圖與 hero images：先蒐集需求、產生多個版本、依回饋細修，再用內附腳本裁切成各平台所需比例。

UI 設計

收藏 0GitHub 0

baoyu-article-illustrator

作者 JimLiu

baoyu-article-illustrator 可協助代理將文章草稿轉成結構化的插圖提示、插圖放置位置，以及一致的圖像類型與風格選擇，適合用於解說文、教學內容、圖解與多圖文章。

影像生成

收藏 0GitHub 13.2k

nanobanana

作者 ReScienceLab

nanobanana 是一個用於 Google Gemini 3 Pro Image 的 Python CLI skill，支援文生圖、圖片編輯、長寬比設定、2K/4K 輸出，以及透過簡單本機腳本進行批次生成。

影像生成

收藏 0GitHub 654

sound-fx

作者 NoizAI

使用 sound-fx 技能把文字提示轉成音效、擬音、環境底音、怪物聲，以及 UI 音效。它很適合 Audio Editing 的 sound-fx、快速原型製作與可下載的音訊素材。先用 NoizAI/skills 安裝，再透過腳本式工作流程搭配有效的 Noiz API key 使用。**不適用於**語音、歌詞、旋律或聲音複製。

音频编辑

收藏 0GitHub 498

chat-with-anyone

作者 NoizAI

chat-with-anyone 可讓你從公開音訊複製真實人物的聲音，或根據圖片設計相符的聲音，接著用 TTS 生成合成回覆。它支援角色扮演、敘事與語音生成等實用工作流程，並提供安裝、來源選擇與安全使用的指引。

語音生成

收藏 0GitHub 498