1 年之前 · d1f3b0e9c3
--- a/pdf2zh/__init__.py
+++ b/pdf2zh/__init__.py
@@ -1,2 +1,5 @@
 
															+import logging
														
 
															+log = logging.getLogger(__name__)
														
 
															+
														
 
															 __version__ = "1.8.1"
														
 
															 __author__ = "Byaidu"
														
--- a/pdf2zh/doclayout.py
+++ b/pdf2zh/doclayout.py
@@ -1,19 +1,13 @@
 
															 import abc
														
 
															 import cv2
														
 
															 import numpy as np
														
 
															-import contextlib
														
 
															+import ast
														
 
															+import onnx
														
 
															+import onnxruntime
														
 
															 from huggingface_hub import hf_hub_download
														
 
															 class DocLayoutModel(abc.ABC):
														
 
															-    @staticmethod
														
 
															-    def load_torch():
														
 
															-        model = TorchModel.from_pretrained(
														
 
															-            repo_id="juliozhao/DocLayout-YOLO-DocStructBench",
														
 
															-            filename="doclayout_yolo_docstructbench_imgsz1024.pt",
														
 
															-        )
														
 
															-        return model
														
 
															-
														
 
															     @staticmethod
														
 
															     def load_onnx():
														
 
															         model = OnnxModel.from_pretrained(
														
@@ -24,15 +18,7 @@ class DocLayoutModel(abc.ABC):
 
															     @staticmethod
														
 
															     def load_available():
														
 
															-        with contextlib.suppress(ImportError):
														
 
															-            return DocLayoutModel.load_torch()
														
 
															-
														
 
															-        with contextlib.suppress(ImportError):
														
 
															-            return DocLayoutModel.load_onnx()
														
 
															-
														
 
															-        raise ImportError(
														
 
															-            "Please install the `torch` or `onnx` feature to use the DocLayout model."
														
 
															-        )
														
 
															+        return DocLayoutModel.load_onnx()
														
 
															     @property
														
 
															     @abc.abstractmethod
														
@@ -53,31 +39,6 @@ class DocLayoutModel(abc.ABC):
 
															         pass
														
 
															-class TorchModel(DocLayoutModel):
														
 
															-    def __init__(self, model_path: str):
														
 
															-        try:
														
 
															-            import doclayout_yolo
														
 
															-        except ImportError:
														
 
															-            raise ImportError(
														
 
															-                "Please install the `torch` feature to use the Torch model."
														
 
															-            )
														
 
															-
														
 
															-        self.model_path = model_path
														
 
															-        self.model = doclayout_yolo.YOLOv10(model_path)
														
 
															-
														
 
															-    @staticmethod
														
 
															-    def from_pretrained(repo_id: str, filename: str):
														
 
															-        pth = hf_hub_download(repo_id=repo_id, filename=filename)
														
 
															-        return TorchModel(pth)
														
 
															-
														
 
															-    @property
														
 
															-    def stride(self):
														
 
															-        return 32
														
 
															-
														
 
															-    def predict(self, *args, **kwargs):
														
 
															-        return self.model.predict(*args, **kwargs)
														
 
															-
														
 
															-
														
 
															 class YoloResult:
														
 
															     """Helper class to store detection results from ONNX model."""
														
@@ -98,17 +59,6 @@ class YoloBox:
 
															 class OnnxModel(DocLayoutModel):
														
 
															     def __init__(self, model_path: str):
														
 
															-        import ast
														
 
															-
														
 
															-        try:
														
 
															-
														
 
															-            import onnx
														
 
															-            import onnxruntime
														
 
															-        except ImportError:
														
 
															-            raise ImportError(
														
 
															-                "Please install the `onnx` feature to use the ONNX model."
														
 
															-            )
														
 
															-
														
 
															         self.model_path = model_path
														
 
															         model = onnx.load(model_path)
														
--- a/pdf2zh/high_level.py
+++ b/pdf2zh/high_level.py
@@ -13,19 +13,6 @@ from pdf2zh.converter import TranslateConverter
 
															 from pdf2zh.pdfinterp import PDFPageInterpreterEx
														
 
															-def get_device():
														
 
															-    """Get the device to use for computation."""
														
 
															-    try:
														
 
															-        import torch
														
 
															-
														
 
															-        if torch.cuda.is_available():
														
 
															-            return "cuda:0"
														
 
															-    except ImportError:
														
 
															-        pass
														
 
															-
														
 
															-    return "cpu"
														
 
															-
														
 
															-
														
 
															 def extract_text_to_fp(
														
 
															     inf: BinaryIO,
														
 
															     pages=None,
														
@@ -43,9 +30,6 @@ def extract_text_to_fp(
 
															     callback: object = None,
														
 
															     **kwarg,
														
 
															 ) -> None:
														
 
															-    if debug:
														
 
															-        logging.getLogger().setLevel(logging.DEBUG)
														
 
															-
														
 
															     rsrcmgr = PDFResourceManager()
														
 
															     layout = {}
														
 
															     device = TranslateConverter(
														
@@ -77,7 +61,7 @@ def extract_text_to_fp(
 
															                 pix.height, pix.width, 3
														
 
															             )[:, :, ::-1]
														
 
															             page_layout = model.predict(
														
 
															-                image, imgsz=int(pix.height / 32) * 32, device=get_device()
														
 
															+                image, imgsz=int(pix.height / 32) * 32
														
 
															             )[0]
														
 
															             # kdtree 是不可能 kdtree 的，不如直接渲染成图片，用空间换时间
														
 
															             box = np.ones((pix.height, pix.width))
														
--- a/pdf2zh/pdf2zh.py
+++ b/pdf2zh/pdf2zh.py
@@ -8,6 +8,7 @@ from __future__ import annotations
 
															 import argparse
														
 
															 import os
														
 
															 import sys
														
 
															+import logging
														
 
															 from pathlib import Path
														
 
															 from typing import Any, Container, Iterable, List, Optional
														
 
															 from pdfminer.pdfexceptions import PDFValueError
														
@@ -15,7 +16,13 @@ from pdfminer.pdfexceptions import PDFValueError
 
															 import pymupdf
														
 
															 import requests
														
 
															-from pdf2zh import __version__
														
 
															+from pdf2zh import __version__, log
														
 
															+from pdf2zh.high_level import extract_text_to_fp
														
 
															+from pdf2zh.doclayout import DocLayoutModel
														
 
															+
														
 
															+logging.basicConfig()
														
 
															+
														
 
															+model = DocLayoutModel.load_available()
														
 
															 def check_files(files: List[str]) -> List[str]:
														
@@ -44,14 +51,12 @@ def extract_text(
 
															     output: str = "",
														
 
															     **kwargs: Any,
														
 
															 ):
														
 
															-    import pdf2zh.high_level
														
 
															-    from pdf2zh.doclayout import DocLayoutModel
														
 
															+    if debug:
														
 
															+        log.setLevel(logging.DEBUG)
														
 
															     if not files:
														
 
															         raise PDFValueError("Must provide files to work upon!")
														
 
															-    model = DocLayoutModel.load_available()
														
 
															-
														
 
															     for file in files:
														
 
															         if file is str and (file.startswith("http://") or file.startswith("https://")):
														
 
															             print("Online files detected, downloading...")
														
@@ -99,7 +104,7 @@ def extract_text(
 
															         doc_en.save(Path(output) / f"{filename}-en.pdf")
														
 
															         with open(Path(output) / f"{filename}-en.pdf", "rb") as fp:
														
 
															-            obj_patch: dict = pdf2zh.high_level.extract_text_to_fp(fp, **locals())
														
 
															+            obj_patch: dict = extract_text_to_fp(fp, model=model, **locals())
														
 
															         for obj_id, ops_new in obj_patch.items():
														
 
															             # ops_old=doc_en.xref_stream(obj_id)
														
--- a/pyproject.toml
+++ b/pyproject.toml
@@ -29,10 +29,6 @@ dependencies = [
 
															 ]
														
 
															 [project.optional-dependencies]
														
 
															-torch = [
														
 
															-    "doclayout-yolo",
														
 
															-    "torch",
														
 
															-]
														
 
															 dev = [
														
 
															     "black",
														
 
															     "flake8",