mrh
|
96e9da080a
完善进程管理,支持异步
|
9 mēneši atpakaļ |
mrh
|
875c5d2afc
添加系统代理页面 API 获取状态
|
9 mēneši atpakaļ |
mrh
|
49e4208783
完成后端订阅API,待前端完成请求逻辑
|
9 mēneši atpakaļ |
mrh
|
db5535225c
一个基本的UI控制,读写配置文件
|
9 mēneši atpakaļ |
mrh
|
cf02362e19
完成Windows2系统的正常启动,不过浏览器路径启动还未测试
|
9 mēneši atpakaļ |
mrh
|
2962b94f63
新增使用说明,新增 client 参数
|
9 mēneši atpakaļ |
mrh
|
50dcc6cd81
修改代理,使用说明,新增文件便于打包发布
|
9 mēneši atpakaļ |
mrh
|
1835feda6a
导出数据,后续测试,临时保存
|
9 mēneši atpakaļ |
mrh
|
2cec5ceca4
add readme.md
|
10 mēneši atpakaļ |
mrh
|
d9030780b4
新增方法,符合查找符合页面正常的 result items
|
10 mēneši atpakaļ |
mrh
|
61c7a90974
有些 resutl items 存在 cloudflare 人机验证,尝试跳过这些页面转换
|
10 mēneši atpakaļ |
mrh
|
3ca36e53e6
celery pandoc 改为 html convert
|
10 mēneši atpakaļ |
mrh
|
72639ad509
新增 celery pandoc 任务
|
10 mēneši atpakaļ |
mrh
|
72b3a40982
pandoc 批量处理
|
10 mēneši atpakaļ |
mrh
|
2b1885359f
完成 pandoc 转换,如果存在则跳过
|
10 mēneši atpakaļ |
mrh
|
2989a436d1
完成 pandoc 转换,并且成功添加字体修改,但是目录不正常
|
10 mēneši atpakaļ |
mrh
|
2c6ca2f59b
完成 docling 转换 markdown 。修复懒加载导致 HtmlConvertResult 无法获取 SearchResultItem 字段的错误
|
10 mēneši atpakaļ |
mrh
|
0213ded687
完成 crawl filter 模块化
|
10 mēneši atpakaļ |
mrh
|
5b278ce3be
完成 pandoc 转换,但是数据库重复记录导致无法同时转换多个docx
|
10 mēneši atpakaļ |
mrh
|
812114ed01
完成 docling 转换为 markdown 并清洗数据
|
10 mēneši atpakaļ |
mrh
|
60680e264e
完成 docling 转换为 markdown 文件,还需要一点清洗数据,并且 URL 几乎不可用。表格是正常的
|
10 mēneši atpakaļ |
mrh
|
ae66a8b5dd
完成 crawl markdown 过滤单个文件:添加头url 、 超链接转换正常、去掉主标题以前的数据。不过表格不太正确
|
10 mēneši atpakaļ |
mrh
|
685063351a
celery crawl page urls 有许多链接无法下载,待解决
|
10 mēneši atpakaļ |
mrh
|
10debf528f
完成 celery crawl urls 批量下载,但是部分链接无法下载
|
10 mēneši atpakaļ |
mrh
|
1238d85073
完成 crawl urls 下载html 并且自动识别 pdf 链接下载
|
10 mēneši atpakaļ |
mrh
|
18fde68869
crawl urls 批量下载 html 文件和 markdown 、 pickle,更新到数据库
|
10 mēneši atpakaļ |
mrh
|
d84c05320e
实测 2000 个 dp celery 搜索成功
|
10 mēneši atpakaļ |
mrh
|
62f7ab2f7d
完成 dp celery 搜索
|
10 mēneši atpakaļ |
mrh
|
faae2ca9f0
完成 dp 搜索和翻页
|
10 mēneši atpakaļ |
mrh
|
f114c146d5
celery Camoufox 完成一个关键词任务,并存储到数据库。下一步开发读取代理
|
10 mēneši atpakaļ |