mrh cee5551228 优化 crawl4ai 的 PDF 下载和保存逻辑。新增数据库字段 content_type 修改 html_path 改为 save_path 支持保存为 pdf 或 html ,新增 markdown 字段 1 år sedan
..
demo a8f84b34ae 测试 prefect 但是效果不理想 1 år sedan
mihomo 840cb046d7 新增 clash web UI 多代理访问示例 1 år sedan
camoufox_connect_server.py 9138dec48e 测试指纹浏览器和示例 camoufox 1 år sedan
camoufox_t.py b6bb35aeb7 备份, Camoufox 仍会跳出谷歌验证。而且只能用 playwright 上下文管理,特别不友好 1 år sedan
crawl_t.py cee5551228 优化 crawl4ai 的 PDF 下载和保存逻辑。新增数据库字段 content_type 修改 html_path 改为 save_path 支持保存为 pdf 或 html ,新增 markdown 字段 1 år sedan
crawl_t_copy.py 0e3dcdc184 完成打包并正常运行。crawl4ai 使用自定义浏览器。html convert 还有问题 1 år sedan
docling_t.py 3de3e57e9c 转移目录结构 1 år sedan
get_suport_ua.py 3de3e57e9c 转移目录结构 1 år sedan
google_search_api.py 3de3e57e9c 转移目录结构 1 år sedan
googlesearch_t.py 9138dec48e 测试指纹浏览器和示例 camoufox 1 år sedan
news_paper_t.py 3de3e57e9c 转移目录结构 1 år sedan
pandoc_t.py 60680e264e 完成 docling 转换为 markdown 文件,还需要一点清洗数据,并且 URL 几乎不可用。表格是正常的 1 år sedan
playwright_run_path.py 3de3e57e9c 转移目录结构 1 år sedan
playwright_t.py 9138dec48e 测试指纹浏览器和示例 camoufox 1 år sedan
redis_celery_t.py 011e13244b 完成批量提交的测试 1 år sedan
scrapegraph_t.py 48010b4ed9 一个简单的 API master worker 接口和心跳检测 1 år sedan
scrapin_smart_find.py 2088effb41 dp 搜索尚不完善。重新用回 Camoufox ,关闭广告过滤后,又不被频繁检测了,新增 smart search 搜索框解决找不到搜索框问题。 1 år sedan
scrapling_t.py 61c7a90974 有些 resutl items 存在 cloudflare 人机验证,尝试跳过这些页面转换 1 år sedan
t.py 011e13244b 完成批量提交的测试 1 år sedan
test_fake_ua.py 3de3e57e9c 转移目录结构 1 år sedan
trafilatura_html.py 3de3e57e9c 转移目录结构 1 år sedan
xpath_search.py 3de3e57e9c 转移目录结构 1 år sedan