Commit History

Author SHA1 Message Date
  mrh 72639ad509 新增 celery pandoc 任务 10 months ago
  mrh 72b3a40982 pandoc 批量处理 10 months ago
  mrh 2b1885359f 完成 pandoc 转换,如果存在则跳过 10 months ago
  mrh 2989a436d1 完成 pandoc 转换,并且成功添加字体修改,但是目录不正常 10 months ago
  mrh 2c6ca2f59b 完成 docling 转换 markdown 。修复懒加载导致 HtmlConvertResult 无法获取 SearchResultItem 字段的错误 10 months ago
  mrh 0213ded687 完成 crawl filter 模块化 10 months ago
  mrh 5b278ce3be 完成 pandoc 转换,但是数据库重复记录导致无法同时转换多个docx 10 months ago
  mrh 812114ed01 完成 docling 转换为 markdown 并清洗数据 10 months ago
  mrh 60680e264e 完成 docling 转换为 markdown 文件,还需要一点清洗数据,并且 URL 几乎不可用。表格是正常的 10 months ago
  mrh ae66a8b5dd 完成 crawl markdown 过滤单个文件:添加头url 、 超链接转换正常、去掉主标题以前的数据。不过表格不太正确 10 months ago
  mrh 685063351a celery crawl page urls 有许多链接无法下载,待解决 10 months ago
  mrh 10debf528f 完成 celery crawl urls 批量下载,但是部分链接无法下载 10 months ago
  mrh 1238d85073 完成 crawl urls 下载html 并且自动识别 pdf 链接下载 10 months ago
  mrh 18fde68869 crawl urls 批量下载 html 文件和 markdown 、 pickle,更新到数据库 10 months ago
  mrh d84c05320e 实测 2000 个 dp celery 搜索成功 10 months ago
  mrh 62f7ab2f7d 完成 dp celery 搜索 10 months ago
  mrh faae2ca9f0 完成 dp 搜索和翻页 10 months ago
  mrh f114c146d5 celery Camoufox 完成一个关键词任务,并存储到数据库。下一步开发读取代理 10 months ago
  mrh 2088effb41 dp 搜索尚不完善。重新用回 Camoufox ,关闭广告过滤后,又不被频繁检测了,新增 smart search 搜索框解决找不到搜索框问题。 10 months ago
  mrh 65a0744b7f dp 完成一个关键词的搜索 10 months ago
  mrh b6bb35aeb7 备份, Camoufox 仍会跳出谷歌验证。而且只能用 playwright 上下文管理,特别不友好 10 months ago
  mrh 5ff2c978cd 备份,一个异步 Camoufox 的简单示例 10 months ago
  mrh ad5526ea13 备份。 celery 无法很好支持 playwright 上下文 10 months ago
  mrh 9b2db236ca 去掉很多 try ,排查错误 celery 无法运行,但是单独异步可以运行 10 months ago
  mrh 23ed913624 修改 camoufox 让它优雅退出;去掉 status 10 months ago
  mrh 2b701092ff 删除 API 代码,准备改为 celery 的方式 10 months ago
  mrh 840cb046d7 新增 clash web UI 多代理访问示例 10 months ago
  mrh f351ee4983 新增 clash 订阅更新的示例 10 months ago
  mrh 48010b4ed9 一个简单的 API master worker 接口和心跳检测 10 months ago
  mrh ff88e4795a 移动 demo 到不常用目录 10 months ago