Sen descrición

mrh 2b701092ff 删除 API 代码,准备改为 celery 的方式 hai 10 meses
config 48010b4ed9 一个简单的 API master worker 接口和心跳检测 hai 10 meses
database 2b701092ff 删除 API 代码,准备改为 celery 的方式 hai 10 meses
mylib c1f16a1db5 新增 ws 连接机制,但是仍然不好用,因为依然要重启浏览器 hai 10 meses
tests 840cb046d7 新增 clash web UI 多代理访问示例 hai 10 meses
worker 2b701092ff 删除 API 代码,准备改为 celery 的方式 hai 10 meses
.clinerules 9712124875 基于上下文管理器完成谷歌搜索,用的测试指纹浏览器 hai 10 meses
.clinerules-code a78d48b434 完成 Google search 关键词回车搜索 hai 10 meses
.env 48010b4ed9 一个简单的 API master worker 接口和心跳检测 hai 10 meses
.gitignore 3de3e57e9c 转移目录结构 hai 10 meses
CONVENTIONS.md 48010b4ed9 一个简单的 API master worker 接口和心跳检测 hai 10 meses
__init__.py 78e12d7b83 加入 dristion page 后关键词搜索 hai 10 meses
architecture.md a78d48b434 完成 Google search 关键词回车搜索 hai 10 meses
readme.md 48010b4ed9 一个简单的 API master worker 接口和心跳检测 hai 10 meses

readme.md

测试

C:\Users\mg\.local\bin\aider.exe

python -m pytest tests/test_google_search.py -v

工具

架构相关

3.3k ⭐ 智能打开 s3 、hdfs 、 sftp 、 ftp 、 local 文件系统 https://github.com/piskvorky/smart_open

2.2k ⭐ PyFilesystem2 是一个抽象的文件系统接口 https://github.com/PyFilesystem/pyfilesystem2

爬虫和解析

6.6k ⭐ 爬虫框架大全 https://github.com/BruceDone/awesome-crawler

爬虫工具大全,搜索: 爬 https://github.com/GitHubDaily/GitHubDaily/blob/cb618c17a72fc5a62248e5ac863d46fe0164487b/README.md?plain=1#L190

330 ⭐ awesome 网页解析器数据提取大全 https://github.com/kimtth/awesome-azure-openai-llm/blob/9b16663bb4e38bc8760f3f274b92dfcca0ada34a/section/app.md 关键词: https://github.com/search?q=Trafilatura+awesome++language%3AMarkdown&type=code&l=Markdown

34.9k ⭐ markitdown https://github.com/microsoft/markitdown

22k ⭐ firecrawl AI 抓取干净结构化的页面 https://github.com/mendableai/firecrawl

17.3k ⭐ python 用AI自动抓取网页信息,自动解析 markdown ,自定义提取的字段 还能生成代码,为页面固定运行代码 https://github.com/ScrapeGraphAI/Scrapegraph-ai/blob/main/README.md

7.5K ⭐ 无代码,鼠标点击元素,即可提取所有相似数据转换成表格或者 json , 或者 API 接口 https://github.com/getmaxun/maxun

241 ⭐ 在代码中用自然语言描述,就能让AI提取有关数据,还能转换为 markdown ,也能用自然语言描述来自动化输入、回车、提交 需要 LLM 秘钥 https://github.com/dendrite-systems/dendrite-python-sdk

readerLM-v2

3.1k⭐ 网页解析器 https://github.com/adbar/trafilatura 各类工具的评估结果,我们可以看看哪些工具最强 https://trafilatura.readthedocs.io/en/latest/evaluation.html#results-2022-05-18

339 ⭐ 文章提取器,这是一个论文和评估基准 https://github.com/scrapinghub/article-extraction-benchmark

1.4k ⭐ 快如闪电的解析器,比 bs4 快240倍 , 可以进行相似元素的搜索,加快搜索效率,智能导航,可以快速跳转到父级、子级、兄弟元素 假如元素属性发生改变,它可以智能识别改变后的元素 https://github.com/D4Vinci/Scrapling

反机器人检测的浏览器

365 ⭐ 给原装的playwright打补丁,能够避免检测到自动化 https://github.com/rebrowser/rebrowser-playwright-python

0.98k ⭐ 反机器人检测的浏览器 https://github.com/daijro/camoufox 浏览器启动信息: about:support

机器人检测的网站,测试用 https://www.browserscan.net/bot-detection "https://bot.sannysoft.com/"

检查你的 代理ip 和浏览器指纹真伪 https://www.browserscan.net