|
|
vor 9 Monaten | |
|---|---|---|
| config | vor 9 Monaten | |
| database | vor 10 Monaten | |
| fontend | vor 9 Monaten | |
| mylib | vor 9 Monaten | |
| tests | vor 9 Monaten | |
| ui | vor 9 Monaten | |
| utils | vor 9 Monaten | |
| worker | vor 9 Monaten | |
| .clinerules | vor 10 Monaten | |
| .clinerules-code | vor 10 Monaten | |
| .env | vor 9 Monaten | |
| .gitignore | vor 9 Monaten | |
| .gitmodules | vor 10 Monaten | |
| CONVENTIONS.md | vor 10 Monaten | |
| __init__.py | vor 10 Monaten | |
| architecture.md | vor 9 Monaten | |
| cmd_python.bat | vor 9 Monaten | |
| poetry.lock | vor 9 Monaten | |
| pyproject.toml | vor 9 Monaten | |
| readme.md | vor 9 Monaten | |
| run_manager.bat | vor 9 Monaten | |
| run_multi_proxy.bat | vor 9 Monaten | |
| 使用说明.txt | vor 9 Monaten |
本项目是一个分布式任务处理系统,专注于从网页中提取数据并进行 HTML 转换。它采用模块化设计,支持多机分布部署,确保任务的可追踪性和实时性。
分布式任务处理:
HTML 转换:
ConverterBase,用于处理 HTML 转换任务。谷歌搜索功能:
DrissionPage 和 ChromiumPage)模拟浏览器行为。数据库交互:
日志记录:
.
├── config/ # 配置文件
├── database/ # 数据库相关代码
├── tests/ # 测试代码
├── utils/ # 工具类和辅助函数
├── worker/ # 核心业务逻辑
│ ├── celery/ # Celery 任务定义
│ ├── html_convert/ # HTML 转换模块
│ └── search_engine/ # 浏览器驱动
└── readme.md # 项目说明文档
安装依赖:
poetry install
启动 Celery Worker:
celery -A worker.celery.app worker --loglevel=info
运行主程序:
python main.py
conda pack -n crawl_env -o crawl_env.tar.gz
Remove-Item -Path crawl_env
mkdir -p crawl_env
tar -xzf crawl_env.tar.gz -C crawl_env
Remove-Item -Path crawl_env.tar.gz
D:\Program\7-Zip\7z.exe a -tzip -mmt -mx3 google_crawler.zip *.bat config database crawl_env download mylib script tests utils worker 使用说明.txt -xr!*/pycache/*
# 使用 tar 压缩可能更快(其实也没多快),Windows11 以上都支持 tar.gz 格式
tar -czvf google_crawler.tar.gz *.bat config database crawl_env download mylib script tests utils worker 使用说明.txt --exclude='*/__pycache__'