Нет описания

mrh 61c7a90974 有些 resutl items 存在 cloudflare 人机验证,尝试跳过这些页面转换 10 месяцев назад
config 60680e264e 完成 docling 转换为 markdown 文件,还需要一点清洗数据,并且 URL 几乎不可用。表格是正常的 10 месяцев назад
database 2b701092ff 删除 API 代码,准备改为 celery 的方式 10 месяцев назад
mylib 61c7a90974 有些 resutl items 存在 cloudflare 人机验证,尝试跳过这些页面转换 10 месяцев назад
tests 61c7a90974 有些 resutl items 存在 cloudflare 人机验证,尝试跳过这些页面转换 10 месяцев назад
utils 61c7a90974 有些 resutl items 存在 cloudflare 人机验证,尝试跳过这些页面转换 10 месяцев назад
worker 61c7a90974 有些 resutl items 存在 cloudflare 人机验证,尝试跳过这些页面转换 10 месяцев назад
.clinerules 9712124875 基于上下文管理器完成谷歌搜索,用的测试指纹浏览器 10 месяцев назад
.clinerules-code a78d48b434 完成 Google search 关键词回车搜索 10 месяцев назад
.env 48010b4ed9 一个简单的 API master worker 接口和心跳检测 10 месяцев назад
.gitignore d84c05320e 实测 2000 个 dp celery 搜索成功 10 месяцев назад
CONVENTIONS.md faae2ca9f0 完成 dp 搜索和翻页 10 месяцев назад
__init__.py 78e12d7b83 加入 dristion page 后关键词搜索 10 месяцев назад
architecture.md ad5526ea13 备份。 celery 无法很好支持 playwright 上下文 10 месяцев назад
readme.md 48010b4ed9 一个简单的 API master worker 接口和心跳检测 10 месяцев назад

readme.md

测试

C:\Users\mg\.local\bin\aider.exe

python -m pytest tests/test_google_search.py -v

工具

架构相关

3.3k ⭐ 智能打开 s3 、hdfs 、 sftp 、 ftp 、 local 文件系统 https://github.com/piskvorky/smart_open

2.2k ⭐ PyFilesystem2 是一个抽象的文件系统接口 https://github.com/PyFilesystem/pyfilesystem2

爬虫和解析

6.6k ⭐ 爬虫框架大全 https://github.com/BruceDone/awesome-crawler

爬虫工具大全,搜索: 爬 https://github.com/GitHubDaily/GitHubDaily/blob/cb618c17a72fc5a62248e5ac863d46fe0164487b/README.md?plain=1#L190

330 ⭐ awesome 网页解析器数据提取大全 https://github.com/kimtth/awesome-azure-openai-llm/blob/9b16663bb4e38bc8760f3f274b92dfcca0ada34a/section/app.md 关键词: https://github.com/search?q=Trafilatura+awesome++language%3AMarkdown&type=code&l=Markdown

34.9k ⭐ markitdown https://github.com/microsoft/markitdown

22k ⭐ firecrawl AI 抓取干净结构化的页面 https://github.com/mendableai/firecrawl

17.3k ⭐ python 用AI自动抓取网页信息,自动解析 markdown ,自定义提取的字段 还能生成代码,为页面固定运行代码 https://github.com/ScrapeGraphAI/Scrapegraph-ai/blob/main/README.md

7.5K ⭐ 无代码,鼠标点击元素,即可提取所有相似数据转换成表格或者 json , 或者 API 接口 https://github.com/getmaxun/maxun

241 ⭐ 在代码中用自然语言描述,就能让AI提取有关数据,还能转换为 markdown ,也能用自然语言描述来自动化输入、回车、提交 需要 LLM 秘钥 https://github.com/dendrite-systems/dendrite-python-sdk

readerLM-v2

3.1k⭐ 网页解析器 https://github.com/adbar/trafilatura 各类工具的评估结果,我们可以看看哪些工具最强 https://trafilatura.readthedocs.io/en/latest/evaluation.html#results-2022-05-18

339 ⭐ 文章提取器,这是一个论文和评估基准 https://github.com/scrapinghub/article-extraction-benchmark

1.4k ⭐ 快如闪电的解析器,比 bs4 快240倍 , 可以进行相似元素的搜索,加快搜索效率,智能导航,可以快速跳转到父级、子级、兄弟元素 假如元素属性发生改变,它可以智能识别改变后的元素 https://github.com/D4Vinci/Scrapling

反机器人检测的浏览器

365 ⭐ 给原装的playwright打补丁,能够避免检测到自动化 https://github.com/rebrowser/rebrowser-playwright-python

0.98k ⭐ 反机器人检测的浏览器 https://github.com/daijro/camoufox 浏览器启动信息: about:support

机器人检测的网站,测试用 https://www.browserscan.net/bot-detection "https://bot.sannysoft.com/"

检查你的 代理ip 和浏览器指纹真伪 https://www.browserscan.net