OCR 與校訂進度

狀態：公開 Wiki 草案生成日期：2026-06-12

已完成

批量機器 OCR 已覆蓋全部 868 張唯一圖片。

層級	狀態	說明
圖片清冊	完成	929 張來源圖片整理為 868 張唯一圖片
OCR 底稿	完成	每張圖一個 OCR draft
OCR 粗稿全集 v0	完成	868 頁合併為全集粗稿，並按 100 張一組切成 9 個分卷
全集審閱版 v0	完成	868 頁已整理為可統一審閱格式，含校正欄、備註欄、分冊與追蹤表
瀏覽器圖文對照審閱器 v0	完成	打開 HTML 後選擇 zip，即可左圖右文審閱並匯出修訂
OCR 線索索引 v0	完成	471 頁命中題名、詞牌、人名、年代、地點或時事線索
檔案包 v0	完成	粗稿全集、分卷、頁級索引、線索索引和校驗清單已收束為一個本地交付包
高價值頁隊列 v0	完成	從 471 頁線索中粗排出候選頁，供每批 10 頁粗校
粗校批次 001	完成	高價值頁前 10 頁已粗校收束；0009 已併入 William 人工校正
粗校批次 002	完成	油印本高置信頁 10 頁已粗校，形成目錄、作品樣本、年譜線索
粗校批次 003	完成	油印本 0648-0681 已粗校，形成時事作品與家族年譜線索
OCR 索引	完成	可按關鍵詞、文字量、來源組檢索
上下文校訂	開始	題頁、自序、浪淘沙錨點、憶江南正文候選已進入校訂
校訂隊列	完成 v1	已建立 P0/P1/P2/P3 review queue
目錄索引	完成 v1	`0008`、`0010`、`0298` 已整理為 94 條結構化記錄；`0334` 已反證並修正 `0298` entries 23-24 的詞牌關係
疑字確認	進行 v1	已建立 14 條候選讀法；`0009` 四處疑點已由 William 於 2026-06-12 確認

OCR 對油印本、目錄頁、標題頁較有幫助；對手寫古詩詞頁噪聲較大。

因此項目採用兩層策略：

高價值頁包括：

索引已能命中：

這些命中是排隊線索，不等於文字已經審定。

priority	圖像	用途	狀態
P0	`0001`-`0004`	題贈、題頁、自序、浪淘沙錨點	已有上下文校訂草稿
P1	`0008`、`0010`、`0298`	目錄與詞牌索引	已轉為 contents-index v1
P1	`0009`	自序續頁 pages 4-5	已有上下文校訂草稿，待二校
P1	`0334`	`大風低溫有感 / 西江月` 與 `重孫小三闋 / 憶江南` 正文	已建立照片校訂樣本；已排除為 WP 8797 `調寄《憶江南》`
P1	`0371`、`0440`	WP 8797 候選匹配	待原圖核驗
P1	`0609`	《浪淘沙・親友不至》	已形成單首閉環樣本並發布到校訂樣本頁
P2	`0297`、`0338`	李世德相關線索	待人物索引

本地完整隊列： `InterestVault/interest/Sources/li-yingfan-manuscript/ocr-correction/review/review-queue-v1.md`

本地目錄索引： `InterestVault/interest/Sources/li-yingfan-manuscript/ocr-correction/review/contents-index-v1.md`

本地疑字確認隊列： `InterestVault/interest/Sources/li-yingfan-manuscript/ocr-correction/review/uncertain-readings-queue-v1.md`

已結構化三個目錄頁：

圖像	內容	作用
`0008-IMG_4427.jpg`	詩 entries 48-85	建立詠史、詠事七絕序列
`0010-IMG_4429.jpg`	詩 entries 123-141；詞 entries 1-13	建立《浪淘沙》page 95-103 錨點
`0298-IMG_4464.jpg`	油印本詞 entries 1-24	建立 `憶江南` cluster 與 WP 8797 線索
`0334-IMG_4500.jpg`	油印本詞正文	確認 entry 23 為 `大風低溫有感 / 西江月`，entry 24 為 `重孫小三闋 / 憶江南`

這一步的作用是避免逐張盲查：後續可以按頁碼、題名、詞牌反查正文照片。