|
|
9 tháng trước cách đây | |
|---|---|---|
| CF-Clearance-Scraper @ 7a160f5649 | 10 tháng trước cách đây | |
| config | 10 tháng trước cách đây | |
| database | 10 tháng trước cách đây | |
| mylib | 10 tháng trước cách đây | |
| tests | 9 tháng trước cách đây | |
| utils | 10 tháng trước cách đây | |
| worker | 9 tháng trước cách đây | |
| .clinerules | 10 tháng trước cách đây | |
| .clinerules-code | 10 tháng trước cách đây | |
| .env | 10 tháng trước cách đây | |
| .gitignore | 9 tháng trước cách đây | |
| .gitmodules | 10 tháng trước cách đây | |
| CONVENTIONS.md | 10 tháng trước cách đây | |
| __init__.py | 10 tháng trước cách đây | |
| architecture.md | 9 tháng trước cách đây | |
| poetry.lock | 10 tháng trước cách đây | |
| pyproject.toml | 10 tháng trước cách đây | |
| readme.md | 10 tháng trước cách đây |
本项目是一个分布式任务处理系统,专注于从网页中提取数据并进行 HTML 转换。它采用模块化设计,支持多机分布部署,确保任务的可追踪性和实时性。
分布式任务处理:
HTML 转换:
ConverterBase,用于处理 HTML 转换任务。谷歌搜索功能:
DrissionPage 和 ChromiumPage)模拟浏览器行为。数据库交互:
日志记录:
.
├── config/ # 配置文件
├── database/ # 数据库相关代码
├── tests/ # 测试代码
├── utils/ # 工具类和辅助函数
├── worker/ # 核心业务逻辑
│ ├── celery/ # Celery 任务定义
│ ├── html_convert/ # HTML 转换模块
│ └── search_engine/ # 浏览器驱动
└── readme.md # 项目说明文档
安装依赖:
poetry install
启动 Celery Worker:
celery -A worker.celery.app worker --loglevel=info
运行主程序:
python main.py