|
|
9 tháng trước cách đây | |
|---|---|---|
| config | 9 tháng trước cách đây | |
| database | 10 tháng trước cách đây | |
| mylib | 9 tháng trước cách đây | |
| tests | 9 tháng trước cách đây | |
| ui | 9 tháng trước cách đây | |
| utils | 9 tháng trước cách đây | |
| worker | 9 tháng trước cách đây | |
| .clinerules | 10 tháng trước cách đây | |
| .clinerules-code | 10 tháng trước cách đây | |
| .env | 9 tháng trước cách đây | |
| .gitignore | 9 tháng trước cách đây | |
| .gitmodules | 10 tháng trước cách đây | |
| CONVENTIONS.md | 10 tháng trước cách đây | |
| __init__.py | 10 tháng trước cách đây | |
| architecture.md | 9 tháng trước cách đây | |
| cmd_python.bat | 9 tháng trước cách đây | |
| poetry.lock | 9 tháng trước cách đây | |
| pyproject.toml | 9 tháng trước cách đây | |
| readme.md | 9 tháng trước cách đây | |
| run.bat | 9 tháng trước cách đây | |
| 使用说明.txt | 9 tháng trước cách đây |
视频展示:
https://v.douyin.com/i5QRuWur/ 浏览器自动化保存数据 用deepseek写了一个自动化获取浏览器数据的程序爬取PDF,html转换成world文档
本项目是一个分布式任务处理系统,专注于从网页中提取数据并进行 HTML 转换。它采用模块化设计,支持多机分布部署,确保任务的可追踪性和实时性。
分布式任务处理:
HTML 转换:
ConverterBase,用于处理 HTML 转换任务。谷歌搜索功能:
DrissionPage 和 ChromiumPage)模拟浏览器行为。数据库交互:
日志记录:
.
├── config/ # 配置文件
├── database/ # 数据库相关代码
├── tests/ # 测试代码
├── utils/ # 工具类和辅助函数
├── worker/ # 核心业务逻辑
│ ├── celery/ # Celery 任务定义
│ ├── html_convert/ # HTML 转换模块
│ └── search_engine/ # 浏览器驱动
└── readme.md # 项目说明文档
安装依赖:
poetry install
启动 Celery Worker:
celery -A worker.celery.app worker --loglevel=info
运行主程序:
python main.py
conda create -p venv python=3.12 -y
conda activate G:\code\upwork\zhang_crawl_bio\venv
poetry install --no-root
scrapling install
手动修改 venv\Lib\site-packages\crawl4ai\async_crawler_strategy.py 文件中修改如下代码:
class BrowserManager:
def __init__(self, browser_config: BrowserConfig, logger=None):
...
if self.config.use_managed_browser:
self.managed_browser = ManagedBrowser(
...
cdp_url=self.config.cdp_url, # 👈 添加此行
)
```
# 如果 conda pack 无法打包的话,可能要安装: conda install --force-reinstall setuptools
conda pack -p .\venv -o crawl_env.tar.gz
Remove-Item -Path crawl_env -r
mkdir -p crawl_env
tar -xzf crawl_env.tar.gz -C crawl_env
Remove-Item -Path crawl_env.tar.gz
D:\Program\7-Zip\7z.exe a -tzip -mmt -mx3 google_crawler.zip *.bat config database crawl_env download mylib utils worker 使用说明.txt '-xr!*/pycache/*' '-xr!*__pycache__*' ui\fontend\dist ui\backend '-xr!ui\backend\output\*' '-xr!ui\backend\config.yaml'
# 使用 tar 压缩可能更快(其实也没多快),Windows11 以上都支持 tar.gz 格式
tar -czvf google_crawler.tar.gz *.bat config database crawl_env download mylib script tests utils worker 使用说明.txt --exclude='*/__pycache__'
# 测试用,排除指定文件,要加引号
D:\Program\7-Zip\7z.exe a -tzip -mmt -mx3 test.zip *.bat config ui\fontend\dist ui\backend\* -xr!ui\backend\output\* '-xr!ui\backend\config.yaml'
mkdir -p z7test
tar -xzf test.zip -C z7test
Remove-Item -Path z7test -r
Remove-Item -Path test.zip