mrh
|
72639ad509
新增 celery pandoc 任务
|
10 months ago |
mrh
|
72b3a40982
pandoc 批量处理
|
10 months ago |
mrh
|
2b1885359f
完成 pandoc 转换,如果存在则跳过
|
10 months ago |
mrh
|
2989a436d1
完成 pandoc 转换,并且成功添加字体修改,但是目录不正常
|
10 months ago |
mrh
|
2c6ca2f59b
完成 docling 转换 markdown 。修复懒加载导致 HtmlConvertResult 无法获取 SearchResultItem 字段的错误
|
10 months ago |
mrh
|
0213ded687
完成 crawl filter 模块化
|
10 months ago |
mrh
|
5b278ce3be
完成 pandoc 转换,但是数据库重复记录导致无法同时转换多个docx
|
10 months ago |
mrh
|
812114ed01
完成 docling 转换为 markdown 并清洗数据
|
10 months ago |
mrh
|
60680e264e
完成 docling 转换为 markdown 文件,还需要一点清洗数据,并且 URL 几乎不可用。表格是正常的
|
10 months ago |
mrh
|
ae66a8b5dd
完成 crawl markdown 过滤单个文件:添加头url 、 超链接转换正常、去掉主标题以前的数据。不过表格不太正确
|
10 months ago |
mrh
|
685063351a
celery crawl page urls 有许多链接无法下载,待解决
|
10 months ago |
mrh
|
10debf528f
完成 celery crawl urls 批量下载,但是部分链接无法下载
|
10 months ago |
mrh
|
1238d85073
完成 crawl urls 下载html 并且自动识别 pdf 链接下载
|
10 months ago |
mrh
|
18fde68869
crawl urls 批量下载 html 文件和 markdown 、 pickle,更新到数据库
|
10 months ago |
mrh
|
d84c05320e
实测 2000 个 dp celery 搜索成功
|
10 months ago |
mrh
|
62f7ab2f7d
完成 dp celery 搜索
|
10 months ago |
mrh
|
faae2ca9f0
完成 dp 搜索和翻页
|
10 months ago |
mrh
|
f114c146d5
celery Camoufox 完成一个关键词任务,并存储到数据库。下一步开发读取代理
|
10 months ago |
mrh
|
2088effb41
dp 搜索尚不完善。重新用回 Camoufox ,关闭广告过滤后,又不被频繁检测了,新增 smart search 搜索框解决找不到搜索框问题。
|
10 months ago |
mrh
|
65a0744b7f
dp 完成一个关键词的搜索
|
10 months ago |
mrh
|
b6bb35aeb7
备份, Camoufox 仍会跳出谷歌验证。而且只能用 playwright 上下文管理,特别不友好
|
10 months ago |
mrh
|
5ff2c978cd
备份,一个异步 Camoufox 的简单示例
|
10 months ago |
mrh
|
ad5526ea13
备份。 celery 无法很好支持 playwright 上下文
|
10 months ago |
mrh
|
9b2db236ca
去掉很多 try ,排查错误 celery 无法运行,但是单独异步可以运行
|
10 months ago |
mrh
|
23ed913624
修改 camoufox 让它优雅退出;去掉 status
|
10 months ago |
mrh
|
2b701092ff
删除 API 代码,准备改为 celery 的方式
|
10 months ago |
mrh
|
840cb046d7
新增 clash web UI 多代理访问示例
|
10 months ago |
mrh
|
f351ee4983
新增 clash 订阅更新的示例
|
10 months ago |
mrh
|
48010b4ed9
一个简单的 API master worker 接口和心跳检测
|
10 months ago |
mrh
|
ff88e4795a
移动 demo 到不常用目录
|
10 months ago |