No Description

mrh 9712124875 基于上下文管理器完成谷歌搜索,用的测试指纹浏览器 10 months ago
config 9138dec48e 测试指纹浏览器和示例 camoufox 10 months ago
database 3de3e57e9c 转移目录结构 10 months ago
demo 3de3e57e9c 转移目录结构 10 months ago
mylib 3de3e57e9c 转移目录结构 10 months ago
tests 9138dec48e 测试指纹浏览器和示例 camoufox 10 months ago
worker 9712124875 基于上下文管理器完成谷歌搜索,用的测试指纹浏览器 10 months ago
.clinerules 9712124875 基于上下文管理器完成谷歌搜索,用的测试指纹浏览器 10 months ago
.clinerules-code 9712124875 基于上下文管理器完成谷歌搜索,用的测试指纹浏览器 10 months ago
.env 9138dec48e 测试指纹浏览器和示例 camoufox 10 months ago
.gitignore 3de3e57e9c 转移目录结构 10 months ago
CONVENTIONS.md dfca410425 新增日志库 10 months ago
__init__.py 78e12d7b83 加入 dristion page 后关键词搜索 10 months ago
architecture.md 3de3e57e9c 转移目录结构 10 months ago
readme.md 9138dec48e 测试指纹浏览器和示例 camoufox 10 months ago

readme.md

工具

架构相关

3.3k ⭐ 智能打开 s3 、hdfs 、 sftp 、 ftp 、 local 文件系统 https://github.com/piskvorky/smart_open

2.2k ⭐ PyFilesystem2 是一个抽象的文件系统接口 https://github.com/PyFilesystem/pyfilesystem2

爬虫和解析

6.6k ⭐ 爬虫框架大全 https://github.com/BruceDone/awesome-crawler

爬虫工具大全,搜索: 爬 https://github.com/GitHubDaily/GitHubDaily/blob/cb618c17a72fc5a62248e5ac863d46fe0164487b/README.md?plain=1#L190

330 ⭐ awesome 网页解析器数据提取大全 https://github.com/kimtth/awesome-azure-openai-llm/blob/9b16663bb4e38bc8760f3f274b92dfcca0ada34a/section/app.md 关键词: https://github.com/search?q=Trafilatura+awesome++language%3AMarkdown&type=code&l=Markdown

34.9k ⭐ markitdown https://github.com/microsoft/markitdown

22k ⭐ firecrawl AI 抓取干净结构化的页面 https://github.com/mendableai/firecrawl

17.3k ⭐ python 用AI自动抓取网页信息,自动解析 markdown ,自定义提取的字段 还能生成代码,为页面固定运行代码 https://github.com/ScrapeGraphAI/Scrapegraph-ai/blob/main/README.md

7.5K ⭐ 无代码,鼠标点击元素,即可提取所有相似数据转换成表格或者 json , 或者 API 接口 https://github.com/getmaxun/maxun

241 ⭐ 在代码中用自然语言描述,就能让AI提取有关数据,还能转换为 markdown ,也能用自然语言描述来自动化输入、回车、提交 需要 LLM 秘钥 https://github.com/dendrite-systems/dendrite-python-sdk

readerLM-v2

3.1k⭐ 网页解析器 https://github.com/adbar/trafilatura 各类工具的评估结果,我们可以看看哪些工具最强 https://trafilatura.readthedocs.io/en/latest/evaluation.html#results-2022-05-18

339 ⭐ 文章提取器,这是一个论文和评估基准 https://github.com/scrapinghub/article-extraction-benchmark

1.4k ⭐ 快如闪电的解析器,比 bs4 快240倍 , 可以进行相似元素的搜索,加快搜索效率,智能导航,可以快速跳转到父级、子级、兄弟元素 假如元素属性发生改变,它可以智能识别改变后的元素 https://github.com/D4Vinci/Scrapling

反机器人检测的浏览器

365 ⭐ 给原装的playwright打补丁,能够避免检测到自动化 https://github.com/rebrowser/rebrowser-playwright-python

0.98k ⭐ 反机器人检测的浏览器 https://github.com/daijro/camoufox

机器人检测的网站,测试用 https://www.browserscan.net/bot-detection "https://bot.sannysoft.com/"

检查你的 代理ip 和浏览器指纹真伪 https://www.browserscan.net