mrh 62c5238036 html convert 去掉 filter_md 转换成 docx 因为资源加载很慢 пре 9 месеци
..
api c08a17c95f 完成 crawl4ai 使用自定义浏览器批量抓取 пре 9 месеци
celery cee5551228 优化 crawl4ai 的 PDF 下载和保存逻辑。新增数据库字段 content_type 修改 html_path 改为 save_path 支持保存为 pdf 或 html ,新增 markdown 字段 пре 9 месеци
conf ad5526ea13 备份。 celery 无法很好支持 playwright 上下文 пре 10 месеци
crawl_pages cee5551228 优化 crawl4ai 的 PDF 下载和保存逻辑。新增数据库字段 content_type 修改 html_path 改为 save_path 支持保存为 pdf 或 html ,新增 markdown 字段 пре 9 месеци
html_convert 62c5238036 html convert 去掉 filter_md 转换成 docx 因为资源加载很慢 пре 9 месеци
search_engine 62c5238036 html convert 去掉 filter_md 转换成 docx 因为资源加载很慢 пре 9 месеци
ARCHITECTURE.md 2b701092ff 删除 API 代码,准备改为 celery 的方式 пре 10 месеци
readme.md a8f84b34ae 测试 prefect 但是效果不理想 пре 9 месеци
run_manager.bat 0e3dcdc184 完成打包并正常运行。crawl4ai 使用自定义浏览器。html convert 还有问题 пре 9 месеци
run_multi_proxy.bat 0e3dcdc184 完成打包并正常运行。crawl4ai 使用自定义浏览器。html convert 还有问题 пре 9 месеци

readme.md

prefect

prefect config set PREFECT_API_URL="http://127.0.0.1:4200/api"
prefect start

celery

To use this system you would:

1 Start Celery worker with: celery -A worker.celery.app worker --loglevel=info --concurrency=1 2 Send tasks using:

脚本方式

from worker.celery.models import KeywordTaskModel
from worker.celery.tasks import search_keyword_task
task_data = KeywordTaskModel(keyword="Acampe carinata essential oil").model_dump()
search_keyword_task.delay(task_data)

命令行方式

G:\code\upwork\zhang_crawl_bio\download\Redis-x64-5.0.14.1\redis-server.exe
celery -A worker.celery.app flower --persistent=True --db=".\output\flower_db"
# 为不同PC启动worker时指定配置
$env:PC_NAME="w1"; celery -A worker.celery.app worker --hostname=$env:PC_NAME@%h
$env:PC_NAME="w2"; celery -A worker.celery.app worker --hostname=$env:PC_NAME@%h
$env:PC_NAME="w3"; celery -A worker.celery.app worker --hostname=$env:PC_NAME@%h
$env:PC_NAME="w4"; celery -A worker.celery.app worker --hostname=$env:PC_NAME@%h
$env:PC_NAME="w5"; celery -A worker.celery.app worker --hostname=$env:PC_NAME@%h
$env:PC_NAME="w6"; celery -A worker.celery.app worker --hostname=$env:PC_NAME@%h
$env:PC_NAME="w7"; celery -A worker.celery.app worker --hostname=$env:PC_NAME@%h