概述
本專案提供 PDF 轉 Markdown 的轉換能力,產出的 Markdown 可作為文檔結構化儲存、版本控制與後續 RAG/檢索管線的輸入來源,方便與 Agentic RAG、知識庫索引等流程整合。
功能重點
- PDF → Markdown — 將 PDF 頁面或全文轉為 Markdown 格式,保留標題、段落與列表等結構。
- 可程式化使用 — 以 CLI 或程式介面呼叫,適合批次轉檔與自動化管線。
- 輸出友善 — Markdown 易於編輯、diff 與納入向量檢索前的分塊流程。
轉換範例
以下為簡報 PDF 經轉換後的範例:原始頁面擷圖與對應的 Markdown 輸出(保留頁碼、標題、列表與架構說明)。
轉換結果預覽

輸出 Markdown 片段(保留標題階層、列表與連結)
## Page 1
**Method:** gemini_vision
# Step 2 - Spring Modulith Hazelcast 快取整合
https://github.com/philipz/spring-modular-monolith
1. **提供實作參考**
- 由 Claude/ChatGPT 提供 Spring Modulith with Hazelcast 完整實作指南 markdown 文件。
2. **Spec-workflow 產生 Spec**
- `/spec-streering-setup` 生成專案 product.md/ tech.md/ structure.md,接著分析目前 Spring Modulith 結構。
- `/spec-create` 參考實作文件建立 requirement.md。
## 架構圖分析
### BookStore Modulith 內部結構
此架構圖展示了 BookStore Modulith 的內部模組及其互動關係。
- **主要模組**: Catalog, Orders, Notifications, Inventory
- **資料與事件**: 各模組均與中央資料庫和事件佇列互動。
- **外部整合**: BookStore Modulith 透過中介層與外部 "Other Apps" 通訊。
### 系統流程架構
此流程圖展示從使用者到後端服務的請求與資料流。
1. 流程始於 **Browser**(瀏覽器)。
2. 請求進入核心應用程式(Thymeleaf、Spring Modulith BookStore、Hazelcast)。
3. 資料持久化於 **PostgreSQL**;並與 RabbitMQ、Zipkin、Hazelcast-mgmt 整合。
技術棧
依 repo 實作為準;常見做法為 PDF 解析庫(如 PyMuPDF、pdfplumber)搭配文字與版面分析,輸出標準 Markdown。
應用情境
適用於需將大量 PDF 文檔轉為可索引文字的情境:企業知識庫建置、RAG 文檔攝取前處理、技術手冊或合約的結構化存檔與搜尋。