Komit Sejarah

Pembuat SHA1 Pesan Tanggal
  mrh ae66a8b5dd 完成 crawl markdown 过滤单个文件:添加头url 、 超链接转换正常、去掉主标题以前的数据。不过表格不太正确 10 bulan lalu
  mrh 685063351a celery crawl page urls 有许多链接无法下载,待解决 10 bulan lalu
  mrh 10debf528f 完成 celery crawl urls 批量下载,但是部分链接无法下载 10 bulan lalu
  mrh 1238d85073 完成 crawl urls 下载html 并且自动识别 pdf 链接下载 10 bulan lalu
  mrh 18fde68869 crawl urls 批量下载 html 文件和 markdown 、 pickle,更新到数据库 10 bulan lalu
  mrh d84c05320e 实测 2000 个 dp celery 搜索成功 10 bulan lalu
  mrh 62f7ab2f7d 完成 dp celery 搜索 10 bulan lalu
  mrh faae2ca9f0 完成 dp 搜索和翻页 10 bulan lalu
  mrh f114c146d5 celery Camoufox 完成一个关键词任务,并存储到数据库。下一步开发读取代理 10 bulan lalu
  mrh 2088effb41 dp 搜索尚不完善。重新用回 Camoufox ,关闭广告过滤后,又不被频繁检测了,新增 smart search 搜索框解决找不到搜索框问题。 10 bulan lalu
  mrh 65a0744b7f dp 完成一个关键词的搜索 10 bulan lalu
  mrh b6bb35aeb7 备份, Camoufox 仍会跳出谷歌验证。而且只能用 playwright 上下文管理,特别不友好 10 bulan lalu
  mrh 5ff2c978cd 备份,一个异步 Camoufox 的简单示例 10 bulan lalu
  mrh ad5526ea13 备份。 celery 无法很好支持 playwright 上下文 10 bulan lalu
  mrh 9b2db236ca 去掉很多 try ,排查错误 celery 无法运行,但是单独异步可以运行 10 bulan lalu
  mrh 23ed913624 修改 camoufox 让它优雅退出;去掉 status 10 bulan lalu
  mrh 2b701092ff 删除 API 代码,准备改为 celery 的方式 10 bulan lalu
  mrh 840cb046d7 新增 clash web UI 多代理访问示例 10 bulan lalu
  mrh f351ee4983 新增 clash 订阅更新的示例 10 bulan lalu
  mrh 48010b4ed9 一个简单的 API master worker 接口和心跳检测 10 bulan lalu
  mrh ff88e4795a 移动 demo 到不常用目录 10 bulan lalu
  mrh 7aba6aea5f 完成多轮关键词搜索,保存数据库,并未出现反爬检测 10 bulan lalu
  mrh bf847093e0 完成数据库存储 10 bulan lalu
  mrh b9b5284ef8 新增当前页判断 10 bulan lalu
  mrh 6d98459ea7 把 get_search_result_ele 中的 res = {} 改成 pydantic 风格;aider 编程避免省略代码 10 bulan lalu
  mrh 8ea0ebcfc6 完成搜索列表解析 10 bulan lalu
  mrh c1f16a1db5 新增 ws 连接机制,但是仍然不好用,因为依然要重启浏览器 10 bulan lalu
  mrh 3eaccf12ff Google search 模块化到新文件中 10 bulan lalu
  mrh a78d48b434 完成 Google search 关键词回车搜索 10 bulan lalu
  mrh 21bfc2c2a4 使用单例模式便于外部调用,不过会话逻辑是错误的,它会到时间莫明重启,我只需要在程序运行期间浏览器也保持运行即可。如果外部API调用发现浏览器被关闭再次重启就好,而且状态似乎也不需要额外定义,playwright 应该有相关的方法检测浏览器或页面是否存活吧 10 bulan lalu