Tidak Ada Deskripsi

Byaidu 825eb84d08 Update README.md 1 tahun lalu
pdf2zh d6b76bf1a5 fix rule 1 tahun lalu
.gitignore f7d3e72bea Initial commit 1 tahun lalu
LICENSE f7d3e72bea Initial commit 1 tahun lalu
README.md 825eb84d08 Update README.md 1 tahun lalu
setup.py 588de9f522 fix dep 1 tahun lalu

README.md

PDFMathTranslate

基于字体规则和深度学习的 Latex PDF 翻译及双语对照,保留公式和图表排版

image

image

安装

pip install pdf2zh

使用

命令行中执行翻译指令,在当前目录下生成中文文档 example-zh.pdf 以及双语文档 example-dual.pdf

翻译完整文档

pdf2zh example.pdf

翻译部分文档

pdf2zh example.pdf -p 1-3,5

使用正则表达式指定需要保留样式的公式字体和字符

注:从 \ufb00 开始是英文风格连字

pdf2zh BDA3.pdf -f ".*+(CM[^RT].*|MS.*|XY.*|MT.*|BL.*|.*0700|.*0500|.*Italic)" -c "(\(|\||\)|\+|=|\d|[\u0080-\ufaff])"

致谢

文档合并:PyMuPDF

文档解析:pdfminer.six

多线程翻译:MathTranslate

排版解析:LayoutParser