李應繁詩文手稿整理 Wiki

李應繁詩文手稿整理 Wiki

狀態:公開 Wiki 草案 生成日期:2026-06-10

簡介

這是《李應繁詩文選》手稿、油印本和少量已公開參考文字的持續整理 wiki。它記錄從孤本照片、批量 OCR、上下文校訂,到未來電子書和正式數字版 的完整過程。

原始公開入口是 William 博客上的 《李家大院》21:李應繁詩詞選

本 wiki 不把機器 OCR 當作最終文本。它的作用是公開記錄來源、進度、校訂 樣本、版本問題和後續可複用的整理成果。

當前進度

項目 狀態
Google Photos 導出 已導入並去重
唯一圖片 868 張
重複圖片來源 61 條保留為證據
機器 OCR 底稿 868 頁已完成
OCR 粗稿全集 v0 868 頁已合併,9 個分卷
OCR 線索索引 v0 471 頁命中題名、詞牌、人名、年代等線索
檔案包 v0 已生成,可作備份、檢索和電子書前身
WordPress 8797 文本單元 25 個候選單元已索引
上下文校訂 已從題頁、自序、浪淘沙錨點開始
第一批校訂隊列 review queue v1 已建立
目錄索引 contents-index v1:94 條結構化記錄

閉環狀態

這個項目現在已經形成第一版閉環:

Google Photos zip / WordPress 舊文
  -> 本地 sources 和 photo ledger
  -> 868 頁機器 OCR draft
  -> OCR 粗稿全集 v0
  -> 檔案包 v0
  -> OCR index / review queue / contents index
  -> 繁體校訂樣本
  -> WordPress wiki 頁面
  -> 後續更新繼續寫回同一批 WP 頁面

當前 WordPress 頁面已經和本地 `wp-sync-state.json` 綁定。以後更新 `wiki/*.md` 後,自動同步會更新同一個 WordPress page,而不是重新創建新頁。

閱讀路徑

  1. 先看來源地圖,了解材料來自哪裡。
  2. OCR 粗稿全集 v0,先取得全集可搜索底稿。
  3. 再看OCR 與校訂進度,區分機器底稿和已校訂文本。
  4. 查看校訂樣本,了解實際成品形態。
  5. 複用指南判斷哪些材料可以用於博客、電子書和綜述。
  6. 版本與來源說明,理解 WordPress、照片、ScienceNet 冗餘材料之間的關係。

重要原則

  • 最終整理文本保留繁體。
  • OCR 只是草稿,不是定稿。
  • 手稿圖片是主體來源和最終證據。
  • WordPress 已發表整理文字只是少量參考錨點,不代表全書已整理完成。
  • 疑字、缺字和推斷必須明確標出。
  • 本項目與《李老夫子遺墨》《李名杰回憶錄》相互關聯,但不合併語料。

相鄰項目

站內可見入口

本 wiki 另有一篇普通博客入口貼,用於出現在 WordPress 文章流中: