readme.md 1.3 KB

工具

架构相关

3.3k ⭐ 智能打开 s3 、hdfs 、 sftp 、 ftp 、 local 文件系统 https://github.com/piskvorky/smart_open

2.2k ⭐ PyFilesystem2 是一个抽象的文件系统接口 https://github.com/PyFilesystem/pyfilesystem2

爬虫和解析

6.6k ⭐ 爬虫框架大全 https://github.com/BruceDone/awesome-crawler

330 ⭐ awesome 网页解析器数据提取大全 https://github.com/kimtth/awesome-azure-openai-llm/blob/9b16663bb4e38bc8760f3f274b92dfcca0ada34a/section/app.md 关键词: https://github.com/search?q=Trafilatura+awesome++language%3AMarkdown&type=code&l=Markdown

34.9k ⭐ markitdown https://github.com/microsoft/markitdown

22k ⭐ firecrawl AI 抓取干净结构化的页面 https://github.com/mendableai/firecrawl

readerLM-v2

3.1k⭐ 网页解析器 https://github.com/adbar/trafilatura 各类工具的评估结果,我们可以看看哪些工具最强 https://trafilatura.readthedocs.io/en/latest/evaluation.html#results-2022-05-18

339 ⭐ 文章提取器,这是一个论文和评估基准 https://github.com/scrapinghub/article-extraction-benchmark

1.4k ⭐ 快如闪电的解析器,比 bs4 快240倍 https://github.com/D4Vinci/Scrapling 机器人检测的网站,测试用 https://www.browserscan.net/bot-detection "https://bot.sannysoft.com/"