Aucune description

mrh 61c7a90974 有些 resutl items 存在 cloudflare 人机验证,尝试跳过这些页面转换 il y a 10 mois
config 60680e264e 完成 docling 转换为 markdown 文件,还需要一点清洗数据,并且 URL 几乎不可用。表格是正常的 il y a 10 mois
database 2b701092ff 删除 API 代码,准备改为 celery 的方式 il y a 10 mois
mylib 61c7a90974 有些 resutl items 存在 cloudflare 人机验证,尝试跳过这些页面转换 il y a 10 mois
tests 61c7a90974 有些 resutl items 存在 cloudflare 人机验证,尝试跳过这些页面转换 il y a 10 mois
utils 61c7a90974 有些 resutl items 存在 cloudflare 人机验证,尝试跳过这些页面转换 il y a 10 mois
worker 61c7a90974 有些 resutl items 存在 cloudflare 人机验证,尝试跳过这些页面转换 il y a 10 mois
.clinerules 9712124875 基于上下文管理器完成谷歌搜索,用的测试指纹浏览器 il y a 10 mois
.clinerules-code a78d48b434 完成 Google search 关键词回车搜索 il y a 10 mois
.env 48010b4ed9 一个简单的 API master worker 接口和心跳检测 il y a 10 mois
.gitignore d84c05320e 实测 2000 个 dp celery 搜索成功 il y a 10 mois
CONVENTIONS.md faae2ca9f0 完成 dp 搜索和翻页 il y a 10 mois
__init__.py 78e12d7b83 加入 dristion page 后关键词搜索 il y a 10 mois
architecture.md ad5526ea13 备份。 celery 无法很好支持 playwright 上下文 il y a 10 mois
readme.md 48010b4ed9 一个简单的 API master worker 接口和心跳检测 il y a 10 mois

readme.md

测试

C:\Users\mg\.local\bin\aider.exe

python -m pytest tests/test_google_search.py -v

工具

架构相关

3.3k ⭐ 智能打开 s3 、hdfs 、 sftp 、 ftp 、 local 文件系统 https://github.com/piskvorky/smart_open

2.2k ⭐ PyFilesystem2 是一个抽象的文件系统接口 https://github.com/PyFilesystem/pyfilesystem2

爬虫和解析

6.6k ⭐ 爬虫框架大全 https://github.com/BruceDone/awesome-crawler

爬虫工具大全,搜索: 爬 https://github.com/GitHubDaily/GitHubDaily/blob/cb618c17a72fc5a62248e5ac863d46fe0164487b/README.md?plain=1#L190

330 ⭐ awesome 网页解析器数据提取大全 https://github.com/kimtth/awesome-azure-openai-llm/blob/9b16663bb4e38bc8760f3f274b92dfcca0ada34a/section/app.md 关键词: https://github.com/search?q=Trafilatura+awesome++language%3AMarkdown&type=code&l=Markdown

34.9k ⭐ markitdown https://github.com/microsoft/markitdown

22k ⭐ firecrawl AI 抓取干净结构化的页面 https://github.com/mendableai/firecrawl

17.3k ⭐ python 用AI自动抓取网页信息,自动解析 markdown ,自定义提取的字段 还能生成代码,为页面固定运行代码 https://github.com/ScrapeGraphAI/Scrapegraph-ai/blob/main/README.md

7.5K ⭐ 无代码,鼠标点击元素,即可提取所有相似数据转换成表格或者 json , 或者 API 接口 https://github.com/getmaxun/maxun

241 ⭐ 在代码中用自然语言描述,就能让AI提取有关数据,还能转换为 markdown ,也能用自然语言描述来自动化输入、回车、提交 需要 LLM 秘钥 https://github.com/dendrite-systems/dendrite-python-sdk

readerLM-v2

3.1k⭐ 网页解析器 https://github.com/adbar/trafilatura 各类工具的评估结果,我们可以看看哪些工具最强 https://trafilatura.readthedocs.io/en/latest/evaluation.html#results-2022-05-18

339 ⭐ 文章提取器,这是一个论文和评估基准 https://github.com/scrapinghub/article-extraction-benchmark

1.4k ⭐ 快如闪电的解析器,比 bs4 快240倍 , 可以进行相似元素的搜索,加快搜索效率,智能导航,可以快速跳转到父级、子级、兄弟元素 假如元素属性发生改变,它可以智能识别改变后的元素 https://github.com/D4Vinci/Scrapling

反机器人检测的浏览器

365 ⭐ 给原装的playwright打补丁,能够避免检测到自动化 https://github.com/rebrowser/rebrowser-playwright-python

0.98k ⭐ 反机器人检测的浏览器 https://github.com/daijro/camoufox 浏览器启动信息: about:support

机器人检测的网站,测试用 https://www.browserscan.net/bot-detection "https://bot.sannysoft.com/"

检查你的 代理ip 和浏览器指纹真伪 https://www.browserscan.net