No Description

Byaidu a7859a9346 Update README.md 1 year ago
pdf2zh bfa0e93083 fix multi contents 1 year ago
.gitignore f7d3e72bea Initial commit 1 year ago
LICENSE f7d3e72bea Initial commit 1 year ago
README.md a7859a9346 Update README.md 1 year ago
setup.py 6d3f695a51 retry 1 year ago

README.md

PDFMathTranslate

基于字体规则的 Latex PDF 翻译及双语对照,保留公式和图表排版

image

image

安装

pip install pdf2zh

使用

命令行中执行翻译指令,在当前目录下生成中文文档 example-zh.pdf 以及双语文档 example-dual.pdf

翻译完整文档

pdf2zh example.pdf

翻译部分文档

pdf2zh example.pdf -p 1 2 3

使用正则表达式指定需要保留样式的公式字体和字符

注:从 \ufb00 开始是英文风格连字

pdf2zh BDA3.pdf -f ".*\+(CM[^RT].*|MS.*|XY.*|.*0700|.*0500)" -c "(\(|\||\)|\+|=|\d|[\u0080-\ufaff])"

TODO

  • 基于 DiT 的独立公式及图表排版优化

致谢

文档合并:PyMuPDF

文档解析:pdfminer.six

多线程翻译:MathTranslate