电子书处理

1 制作书

1.1 从网页爬取

1.2 扫描纸质书

参考 asset 中《DIY版简易零边距扫描仪之玻璃夹子方案》

1.2.1 用到的工具

下次试试室内灯光,之前的侧光对于不那么白的纸太暗了

  • 玻璃板,超白玻璃 8mm 厚,300 X 250,不要印 3C 标志
  • 俯拍架,不用带补光灯
  • 蓝牙遥控器
  • ComicEnhancerPro_chn 文件处理
  • ABBYY FineReader + Foxit 高级 PDF,PDF 制作和 OCR
  • FreePic2Pdf 书签制作

1.2.2 拍摄

  • 不一定要找专门的光源,室内灯光不反光也可
  • 书架第二格,俯拍架足够高,支架手臂与书架平行
  • 开启拍照声音
  • 开启长焦镜头,减少畸变
  • 固定焦距,避免自动对焦模糊
  • 高质量照片模式
  • 开启网格线,保证书的文字不倾斜
  • 增加手机锁屏时间
  • 两个书架的宽度比书脊稍宽,避免位置移动,同时也方便翻页
  • 调整到没有大的反光,另一页的反光可以用白纸遮盖(或调整光源?),手机边缘反光用创可贴遮住
  • 书籍摆放位置划线,避免位置移动
  • 拍摄完先不移动灯光和相机位置,准备对个别不满意的页面补拍

1.2.3 文件处理

  • 文件重命名,同时检查是否漏拍
  • 图像裁剪,随着厚度增加每张会有细微的偏移,因此图片可能要分多个文件夹裁剪多次
  • 图像处理,封面单独处理
    • 彩色 300 DPI
      • 纠斜: 自动_横排, 边缘扩展
      • 照度修正
      • 自动对比1
      • 亮度: 113
      • 表面模糊: 遍数=1, 算法=Photoshop, 半径=5, 阀值=20
      • USM锐化: 遍数=1, 数量=50, 半径=1.0, 阀值=0
    • 黑白 600 DPI(封面彩色 600 DPI)
      • 纠斜: 自动_横排, 边缘保留
      • 切边: DPI=600
      • 照度修正
      • 自动对比1
      • USM锐化: 遍数=1, 数量=50, 半径=1.0, 阀值=0
      • 色彩设置: 色彩数=纯黑白, 纯黑白(二值化)选项: 阀值算法=Wolf, 窗口尺寸=50, 去斑直径=2, 去除与边缘接触的黑色区域, 边缘去毛刺

2 PDF 处理

2.1 制作

  • ABBYY FineReader
    • 不开启 MRC 压缩
    • 因为 ABBYY 无法不改变图片,所以只能无损输出后用 Foxit 压缩
      • 图像品质,自定义,不改变颜色、不允许质量损失
      • Foxit 高级 PDF 优化扫描 PDF,彩色/灰度为 JPEG2000 有损,黑白为 JBIG2
    • 对于大小不一的文档,OCR 识别后,页面大小改变很多。以后考虑先删除大小不一的页面,OCR 后再拼接回去
    • 备选1 福昕PDF编辑器,通过微信签到获得 OCR 一天功能
    • 备选2 Foxit 高级 PDF 破解版
  • 书签 FreePic2Pdf

2.2 去水印

2.3 书签

  • 自动添加书签
    • 用 PDF 补丁丁 根据样式识别标题,然后手动调整,见 作者博客教程
    • 对于识别后出现不规律空格的书签,可以用 claude 来智能移除空格
  • 手动改书签
    • 先提取书签,然后编辑 FreePic2Pdf.itf 和 FreePic2Pdf_bkmk.txt,最后挂书签 目录可从豆瓣或其它 PDF 中提取
    • 用 PdgCntEditor 调整页码偏移量 FreePic2Pdf.itf 设置 BasePage 目录页码基准(一般与 TextPage 相同),ContentsPage 目录绝对页码,TextPage 正文绝对页码,见 FreePic2Pdf 帮助文档中的接口文件格式说明 FreePic2Pdf_bkmk.txt 为书签,tab 控制目录层级,标题与页码间 tab 分隔,页码基准前的页面用负数表示 notepad++ 常用正则,添加二级标题缩进 ^(\d+.\d+) 替换为 \t\1。添加标题与页码的 tab,\s+(\d+)$ 替换为 \t\1
    • 软件作者博客

2.4 模糊pdf变清晰

2.5 HTML 转 PDF

单个 HTML 转 PDF

  1. 为了保留书签,另存为 HTML,并用 word 打开
  2. ALT + F9 批量修改超链接指向当前文档而非网址,一般是删除网址部分,只保留标题指向
  3. 另存为 PDF,选项中保留书签

3 epub 等阅读器格式处理

3.1 转换

  • 格式 azw3,可支持自定义字体,mobi 格式(new、old、both) 都不支持。两种选择
    1. 需要书籍、笔记同步功能,但无法显示封面。用 calibre 转换为 mobi both 格式(old 格式会被转为 azw,new 格式不让发送),然后使用邮箱发送。此时 amazon 会转为 azw3,由于是 PDOC 类型所以无法显示封面。如 kindle 下载后用 MobiMetaEditor 改为 EBOK 类型则会导致文档无法同步,参见 为何推送 KF8 标准 MOBI 电子书不显示封面。有趣的是此时 App 端可以显示封面
    2. 不需要同步功能,可以显示封面。用 calibre 转换为 azw3,发送到 kindle,实际上是将封面放入 kindle:\system\thumbnails\thumbnail_ASIN_EBOK_portrait.jpg,对于中文书籍还需将拼音文件名改回,参见 两种方法来给 Kindle 设置图书封面
  • 有些书籍打开卡死,重新设置文本编码为 utf-8
  • calibre 中文书籍处理
    • 首选项–保存图书到磁盘,去掉3个勾选项,分别是:分别保存封面、使用OPF文件保存元数据、将非英语字符转换为对应英语字符
    • 在保存模板中将内容改为: {title}。如果标题不对也需要修改
    • 保存设置,以后使用时选择保存图书到磁盘方式

3.2 移除硬回车

  • 使用 calibre 的启发式处理,“取消换行因子”来移除
  • 使用 amazon 发邮件 convert 方式,转换 pdf 为 azw3(弊端是回车替换为了空格,没有目录),但此时打开会导致 kindle 卡死,需要再用 calibre 设置输入文本编码为 utf-8
  • 更麻烦的方法是,使用正则表达式,转换成 docx 处理完再转回来

3.3 去 DRM

  • Kindle

    • 两种方法都要用 1.24 的 kindle for pc(安装文件在 windows 环境-不常用中),All DRM Removal 的解释,并找到下载的电子书 我的文档\My Kindle Content\ASIN_EBOK

    • 新版DeDRM_tools旧版 下载 zip 包,安装插件,设置序列号,拖到 Calibre 中,参考
    • All DRM Removal for Windows 终身版,224。感觉这个就是 DeDRM 的图形封装。用 All DRM Removal for Windows 破解版,keygen 会报木马,在沙盒中打开获取注册信息即可,切换到 kindle 进行破解
    • 租借书籍 注释掉 rented 两行代码 后可以用,已经加入改后版本
  • Google Books,用到 ADE_2.0,装 .net 3.5,Calibre 的 DeDRM 添加 default_key(与 ADE 装在一个系统),拖动下载的 PDF 到 Calibre 自动解密

  • Kobo 用 AllDRMRemoval (附带注册机)移除 DRM

3.4 繁简转换

【Calibre外挂】 简转繁功能大揭密Calibre 使用教程之电子书繁体字转简体字

  1. Calibre 安装 Chinese Text Conversion 插件,编辑书籍,点击,台湾繁转简,直排转横排,保存副本后
  2. 再用编辑单个书籍,加载 csr 替换文件(见资源目录),前面的 4 个引号替换可以删除
  3. 对于带图片的文档(漫画),输出配置选择 tablet,不改变图片质量

步骤 1 要先于 2 因为直接替换直排的文字输出有问题

3.5 生成目录

  • 编辑书籍,工具 – 目录 – 编辑目录,里面有各种生成目录的方式