Text2Podcast | Bloss0m

概述

Text2Podcast 為全端 Podcast 生成應用，可從文字內容自動產出專業 Podcast 音訊。使用 AI 將文字轉為自然流暢的雙講者對話稿，經優化與 Google Cloud TTS（Gemini 2.5 Flash）合成後，輸出合併 MP3 與轉錄稿（PDF），適合將文章、講稿或筆記快速轉成可收聽的節目。

功能重點

智能轉錄生成 — 以 AI 將輸入文字轉為雙講者對話稿，支援 SHORT（約 7 分鐘）、MEDIUM（約 15 分鐘）、LONG（約 30 分鐘）三種長度模式。
檢視與編輯 — 可檢視、編輯 AI 生成的轉錄稿，或重新生成一版，確認後進入優化與語音設定。
雙講者 TTS — 使用 Google Cloud TTS 合成自然語音，可為 Speaker 1、Speaker 2 分別選擇音色並試聽，預設為 Kore、Charon。
即時進度與下載 — 透過 SSE 即時顯示合成進度；完成後可試聽、下載合併 MP3 及轉錄稿 PDF。

系統介面與流程

以下依操作流程對應各畫面擷圖。

步驟 1：上傳內容

輸入或貼上欲轉成 Podcast 的文字，選擇長度模式（SHORT / MEDIUM / LONG），點擊「開始生成」後由後端產生初始轉錄稿並跳轉至步驟 2。

步驟 2：檢視與編輯轉錄稿

檢視 AI 生成的雙講者對話稿，可直接編輯文字或點擊「重新生成」再產生一版；確認後進入步驟 3 進行優化。

步驟 3：確認腳本與語音

檢視優化後的逐句腳本（Speaker 1 / Speaker 2），可單句編輯、刪除或插入新句；確認語音設定後點擊「開始生成音訊」進入步驟 4。

步驟 4：生成與下載

透過 SSE 即時顯示合成進度；完成後可試聽、下載合併後的 MP3 及轉錄稿（PDF），或「建立新 Podcast」回到步驟 1。

設定頁：語音選擇

為 Speaker 1、Speaker 2 選擇 TTS 語音，可試聽（Preview）、重置為預設、返回首頁。

技術棧

後端 — FastAPI、OpenAI API（轉錄生成）、Google Cloud TTS（Gemini 2.5 Flash）、Pydub（音訊處理）、SSE-Starlette（即時進度）。
前端 — React 18、TypeScript、Vite、React Router、Axios。

應用情境

適用於將長文、講稿、筆記或腳本快速轉為可收聽 Podcast 的情境：知識型節目、有聲書預覽、內部培訓或內容再利用，無需自行錄音即可產出雙人對話式音訊。

OpenAI APIGoogle Cloud TTSFastAPI · React

Looking for an AI platform or Agentic AI partner? Let's take GenAI from PoC to production.

Contact on LinkedIn

正在尋找 AI 平台或 Agent 落地夥伴？一起把 GenAI 從 PoC 做到上線。

LinkedIn 聯絡