Commit History

Author SHA1 Message Date
  mrh 0e3dcdc184 完成打包并正常运行。crawl4ai 使用自定义浏览器。html convert 还有问题 9 months ago
  mrh c08a17c95f 完成 crawl4ai 使用自定义浏览器批量抓取 9 months ago
  mrh 22020a65a1 新增删除某个关键词数据库;新增默认谷歌路径便携版 9 months ago
  mrh 6ad8f9f1de 提交任务使用数据模型;完成前后端提交单个任务 9 months ago
  mrh bac07d3c6e 完善 批量自启动 9 months ago
  mrh a8f84b34ae 测试 prefect 但是效果不理想 9 months ago
  mrh 50dcc6cd81 修改代理,使用说明,新增文件便于打包发布 9 months ago
  mrh ae66a8b5dd 完成 crawl markdown 过滤单个文件:添加头url 、 超链接转换正常、去掉主标题以前的数据。不过表格不太正确 10 months ago
  mrh 685063351a celery crawl page urls 有许多链接无法下载,待解决 10 months ago
  mrh 10debf528f 完成 celery crawl urls 批量下载,但是部分链接无法下载 10 months ago
  mrh 1238d85073 完成 crawl urls 下载html 并且自动识别 pdf 链接下载 10 months ago
  mrh 18fde68869 crawl urls 批量下载 html 文件和 markdown 、 pickle,更新到数据库 10 months ago