mrh
|
0e3dcdc184
完成打包并正常运行。crawl4ai 使用自定义浏览器。html convert 还有问题
|
9 months ago |
mrh
|
c08a17c95f
完成 crawl4ai 使用自定义浏览器批量抓取
|
9 months ago |
mrh
|
22020a65a1
新增删除某个关键词数据库;新增默认谷歌路径便携版
|
9 months ago |
mrh
|
6ad8f9f1de
提交任务使用数据模型;完成前后端提交单个任务
|
9 months ago |
mrh
|
bac07d3c6e
完善 批量自启动
|
9 months ago |
mrh
|
a8f84b34ae
测试 prefect 但是效果不理想
|
9 months ago |
mrh
|
50dcc6cd81
修改代理,使用说明,新增文件便于打包发布
|
9 months ago |
mrh
|
ae66a8b5dd
完成 crawl markdown 过滤单个文件:添加头url 、 超链接转换正常、去掉主标题以前的数据。不过表格不太正确
|
10 months ago |
mrh
|
685063351a
celery crawl page urls 有许多链接无法下载,待解决
|
10 months ago |
mrh
|
10debf528f
完成 celery crawl urls 批量下载,但是部分链接无法下载
|
10 months ago |
mrh
|
1238d85073
完成 crawl urls 下载html 并且自动识别 pdf 链接下载
|
10 months ago |
mrh
|
18fde68869
crawl urls 批量下载 html 文件和 markdown 、 pickle,更新到数据库
|
10 months ago |