PDF 文档翻译及双语对照工具
📊 保留公式和图表
📄 保留可索引目录
🌐 支持多种翻译服务
要求 Python 版本 >=3.8, <=3.12
pip install pdf2zh
在命令行中执行翻译命令,生成译文文档 example-zh.pdf 和双语对照文档 example-dual.pdf,默认使用 Google 翻译服务
关于设置环境变量的详细说明,请参考 ChatGPT
全文翻译
pdf2zh example.pdf
部分翻译
pdf2zh example.pdf -p 1-3,5
参考 Google Languages Codes, DeepL Languages Codes
pdf2zh example.pdf -li en -lo ja
参考 DeepL
设置环境变量构建接入点:{DEEPL_SERVER_URL}/translate
DEEPL_SERVER_URL(可选), e.g., export DEEPL_SERVER_URL=https://api.deepl.comDEEPL_AUTH_KEY, e.g., export DEEPL_AUTH_KEY=xxx
pdf2zh example.pdf -s deepl
DeepLX
参考 DeepLX
设置环境变量构建接入点:{DEEPLX_SERVER_URL}/translate
DEEPLX_SERVER_URL(可选), e.g., export DEEPLX_SERVER_URL=https://api.deepl.comDEEPLX_AUTH_KEY, e.g., export DEEPLX_AUTH_KEY=xxx
pdf2zh example.pdf -s deepl
Ollama
参考 Ollama
设置环境变量构建接入点:{OLLAMA_HOST}/api/chat
OLLAMA_HOST(可选), e.g., export OLLAMA_HOST=https://localhost:11434
pdf2zh example.pdf -s ollama:gemma2
支持 OpenAI 协议的 LLM(如 OpenAI、SiliconCloud、Zhipu)
参考 SiliconCloud, Zhipu
设置环境变量构建接入点:{OPENAI_BASE_URL}/chat/completions
OPENAI_BASE_URL(可选), e.g., export OPENAI_BASE_URL=https://api.openai.com/v1OPENAI_API_KEY, e.g., export OPENAI_API_KEY=xxx
pdf2zh example.pdf -s openai:gpt-4o
Azure
需设置以下环境变量:
AZURE_APIKEY, e.g., export AZURE_APIKEY=xxxAZURE_ENDPOINT, e.g., export AZURE_ENDPOINT=https://api.translator.azure.cn/AZURE_REGION, e.g., export AZURE_REGION=chinaeast2
pdf2zh example.pdf -s azure
使用正则表达式指定需保留的公式字体与字符
pdf2zh example.pdf -f "(CM[^RT].*|MS.*|.*Ital)" -c "(\(|\||\)|\+|=|\d|[\u0080-\ufaff])"

pdf2zh -i
详见 GUI 文档
文档合并:PyMuPDF
文档解析:Pdfminer.six
文档提取:MinerU
多线程翻译:MathTranslate
布局解析:DocLayout-YOLO
文档标准:PDF Explained, PDF Cheat Sheets