AI Search Hub 是一套開源 skill,把 Gemini、Grok、豆包、元寶、LongCat、通義千問、MiniMax、Kimi 的原生搜尋與資料抽取整合成單一介面。一個查詢同時送進多個平台,無需為每個來源維護爬蟲、瀏覽器自動化或登入流程。
要取得微信公眾號、抖音、微博、X 的即時資料,傳統做法是為每個平台撰寫爬蟲、維護瀏覽器自動化、處理登入與驗證碼。AI Search Hub 採用不同路徑:這些大廠的 AI 助手(豆包、元寶、Kimi、Grok…)本身具備原生搜尋與資料抽取能力,本工具直接借用它們的搜尋介面,而不是另行建置一套抓取系統。
專案定位明確:它不繞過平台,而是站在平台官方搜尋之上。將 Gemini、Grok、豆包、元寶、LongCat、通義千問、MiniMax、Kimi 八個平台的搜尋能力整合成統一介面。一個查詢送入後,路由到合適的平台,各平台以自己的生態回答,結果收斂成 Agent / workflow 可直接消費的格式。
核心入口是 Python 腳本 scripts/run_web_chat.py,搭配 ROUTING.md 決定哪類問題指向哪個平台,agents/openai.yaml 則提供 Agent 隱式呼叫設定。設計目標是以大廠原生搜尋框架取代自建爬蟲,覆蓋 Google、X 即時、抖音/微博趨勢、微信公眾號等一般難以直接抓取的內容。
環境需求:Python 3、Chrome 瀏覽器(供自動化使用)、以及目標平台帳號。clone 後,所有查詢透過 scripts/run_web_chat.py 執行,以 --site 指定平台、--prompt 傳入查詢、--output 指定輸出檔案路徑。
第一次跑某個平台時,腳本會開一個 Chrome debug session 等你登入該平台;登入過後即可正常呼叫。下面是 README 給的範例:
agents/openai.yaml 是 Agent 介面設定範例,定義顯示名稱、描述,以及 Chrome debug 啟動與等待登入的行為。配置好之後,Agent 可以在 workflow 裡隱式觸發 AI Search Hub,而不必每次手敲腳本參數。
八個平台各有不同的資料生態:部分擅長即時社群、部分覆蓋中文趨勢、部分接入 Google 網頁結果。以 --site 選擇正確平台,即選定了對應的內容來源。Perplexity 與 Claude 已標註為計畫支援項目。
這是 ROUTING.md 的核心:依問題型態與目標資料生態選平台。以下對應依 README 所述的內容覆蓋與範例整理,實際路由規則以 ROUTING.md 為準。
| 你想找什麼 | 資料生態 | 建議平台 |
|---|---|---|
| 即時社群動態、人物近況 | X / Twitter 即時 | grok |
| 國際網頁、英文資料 | Google 網頁結果 | gemini |
| 中文趨勢、抖音/微博熱點 | 中文社群趨勢 | doubao · tongyi |
| 微信公眾號內容 | 騰訊 / 微信生態 | yuanbao |
| 影音榜單、Bilibili 熱門 | 影音內容趨勢 | minimax |
以下操作要點全部來自 README 與專案文件。核心問題是:同一個問題應送往哪個平台。依 ROUTING.md 的策略選對生態,是取得有效結果的前提。
依 README 說明,關鍵字優化仍有必要,但比傳統做法省力。決定結果品質的關鍵是 --site 選對生態。查 X 即時用 grok、查微信公眾號用 yuanbao。平台選錯,關鍵字再精確也無法取得正確資料。
因為站在平台官方搜尋之上,你不需要處理 CAPTCHA、反爬、IP 封鎖這些傳統爬蟲的噩夢。代價是:它依賴平台 API 與帳號可用性,而不是繞過它們。
來源 · 官方 README · 定位說明抖音、微博、微信公眾號的資料,一般工具不易直接取得。透過豆包、元寶、通義的原生搜尋可直接存取,對中文市場研究有具體幫助。
來源 · 官方 README · 內容生態把 agents/openai.yaml 設好顯示名稱與描述,Agent 就能在 workflow 裡自動觸發 AI Search Hub,不必每次手敲 run_web_chat.py 參數。這是接進自動化流程的關鍵設定。
腳本會開 Chrome debug session 等你登入該平台。先把每個要用的平台手動登入過一輪,後續 Agent 隱式呼叫才不會卡在登入畫面。
來源 · 官方 README · Configuration新增平台或調整路由邏輯,依 ROUTING.md 的擴充指引處理:依問題型態與資料生態定義規則。Perplexity 與 Claude 已被標為未來支援,擴充模式是現成的。
以「新疆旅遊」市場研究為例,需要旅遊路線、即時社群討論、影音趨勢三類資料。以下示範如何以 run_web_chat.py 依資料型態分別送往豆包、Grok、MiniMax,再將三份輸出收入同一個 workflow。指令與輸出特性依 README 範例。
同一個 Python 入口,只切換 --site,即可跨越三個各自需要不同抓取方案的資料生態。豆包回傳結構化路線、Grok 提供即時社群貼文、MiniMax 提供影音榜單。傳統做法需要三套爬蟲、三組登入維護、三種反爬對策。
三份輸出落在 out/*.txt,Agent 直接作為統一脈絡消費。本工具讓你維護的是查詢與路由邏輯,而非底層抓取基礎設施。
AI-Search-Hub 的實用性在於它是可被其他系統消費的一層:查詢送入、純文字輸出、落到 out/*.txt。接上 Agent 後,即可得到一個跨 8+ 平台、無需自行維護爬蟲的即時情報來源。
1. 讓 Agent 隱式調用。repo 內建 agents/ 設定(如 agents/openai.yaml),把搜尋包成工具給 Agent。使用者問一句話,Agent 自己決定要不要打哪個平台,結果直接回流到對話脈絡。
2. 調整路由規則。查詢該落到哪個生態,是由 ROUTING.md 描述的策略決定。想讓「即時社群類」優先走 Grok、「中文影音榜單」優先走 MiniMax,就改這份路由,不用動程式碼。
3. 把輸出當資料管線的源頭。out/*.txt 是穩定的純文字介面。接一個彙整步驟,把多平台答案去重、比對、做成日報或競品監控,就是一條最小可用的情報管線。
4. 擴充平台。需要的平台不在預設清單裡時,順著 ROUTING.md 與 agents/ 既有結構新增一條,讓它成為你私有的搜尋聚合層,而不是依賴上游什麼時候支援。
5. 固定登入 session。把首次登入保存下來的瀏覽器 session 妥善保留,排程任務才能無人值守地重用,不會每次都卡在登入畫面。
① README.en.md:英文版總覽,涵蓋支援平台、定位與商業版差異。
② ROUTING.md:查詢路由策略,說明如何將查詢分派至不同生態,擴充平台前應先閱讀。
③ SKILL.md:搜尋能力接入 Agent 的技能定義與調用方式。