part-time-job/zhang_crawl_bio

mrh cee5551228 优化 crawl4ai 的 PDF 下载和保存逻辑。新增数据库字段 content_type 修改 html_path 改为 save_path 支持保存为 pdf 或 html ，新增 markdown 字段		1 år sedan
..
demo	a8f84b34ae 测试 prefect 但是效果不理想	1 år sedan
mihomo	840cb046d7 新增 clash web UI 多代理访问示例	1 år sedan
camoufox_connect_server.py	9138dec48e 测试指纹浏览器和示例 camoufox	1 år sedan
camoufox_t.py	b6bb35aeb7 备份, Camoufox 仍会跳出谷歌验证。而且只能用 playwright 上下文管理，特别不友好	1 år sedan
crawl_t.py	cee5551228 优化 crawl4ai 的 PDF 下载和保存逻辑。新增数据库字段 content_type 修改 html_path 改为 save_path 支持保存为 pdf 或 html ，新增 markdown 字段	1 år sedan
crawl_t_copy.py	0e3dcdc184 完成打包并正常运行。crawl4ai 使用自定义浏览器。html convert 还有问题	1 år sedan
docling_t.py	3de3e57e9c 转移目录结构	1 år sedan
get_suport_ua.py	3de3e57e9c 转移目录结构	1 år sedan
google_search_api.py	3de3e57e9c 转移目录结构	1 år sedan
googlesearch_t.py	9138dec48e 测试指纹浏览器和示例 camoufox	1 år sedan
news_paper_t.py	3de3e57e9c 转移目录结构	1 år sedan
pandoc_t.py	60680e264e 完成 docling 转换为 markdown 文件，还需要一点清洗数据，并且 URL 几乎不可用。表格是正常的	1 år sedan
playwright_run_path.py	3de3e57e9c 转移目录结构	1 år sedan
playwright_t.py	9138dec48e 测试指纹浏览器和示例 camoufox	1 år sedan
redis_celery_t.py	011e13244b 完成批量提交的测试	1 år sedan
scrapegraph_t.py	48010b4ed9 一个简单的 API master worker 接口和心跳检测	1 år sedan
scrapin_smart_find.py	2088effb41 dp 搜索尚不完善。重新用回 Camoufox ，关闭广告过滤后，又不被频繁检测了，新增 smart search 搜索框解决找不到搜索框问题。	1 år sedan
scrapling_t.py	61c7a90974 有些 resutl items 存在 cloudflare 人机验证，尝试跳过这些页面转换	1 år sedan
t.py	011e13244b 完成批量提交的测试	1 år sedan
test_fake_ua.py	3de3e57e9c 转移目录结构	1 år sedan
trafilatura_html.py	3de3e57e9c 转移目录结构	1 år sedan
xpath_search.py	3de3e57e9c 转移目录结构	1 år sedan