Keine Beschreibung

mrh 3de3e57e9c 转移目录结构 vor 1 Jahr
config 3de3e57e9c 转移目录结构 vor 1 Jahr
database 3de3e57e9c 转移目录结构 vor 1 Jahr
demo 3de3e57e9c 转移目录结构 vor 1 Jahr
mylib 3de3e57e9c 转移目录结构 vor 1 Jahr
tests 3de3e57e9c 转移目录结构 vor 1 Jahr
.env cf43f2a601 浏览器新增随机 ua vor 1 Jahr
.gitignore 3de3e57e9c 转移目录结构 vor 1 Jahr
CONVENTIONS.md dfca410425 新增日志库 vor 1 Jahr
__init__.py 78e12d7b83 加入 dristion page 后关键词搜索 vor 1 Jahr
architecture.md 3de3e57e9c 转移目录结构 vor 1 Jahr
readme.md 3de3e57e9c 转移目录结构 vor 1 Jahr

readme.md

工具

架构相关

3.3k ⭐ 智能打开 s3 、hdfs 、 sftp 、 ftp 、 local 文件系统 https://github.com/piskvorky/smart_open

2.2k ⭐ PyFilesystem2 是一个抽象的文件系统接口 https://github.com/PyFilesystem/pyfilesystem2

爬虫和解析

6.6k ⭐ 爬虫框架大全 https://github.com/BruceDone/awesome-crawler

330 ⭐ awesome 网页解析器数据提取大全 https://github.com/kimtth/awesome-azure-openai-llm/blob/9b16663bb4e38bc8760f3f274b92dfcca0ada34a/section/app.md 关键词: https://github.com/search?q=Trafilatura+awesome++language%3AMarkdown&type=code&l=Markdown

34.9k ⭐ markitdown https://github.com/microsoft/markitdown

22k ⭐ firecrawl AI 抓取干净结构化的页面 https://github.com/mendableai/firecrawl

readerLM-v2

3.1k⭐ 网页解析器 https://github.com/adbar/trafilatura 各类工具的评估结果,我们可以看看哪些工具最强 https://trafilatura.readthedocs.io/en/latest/evaluation.html#results-2022-05-18

339 ⭐ 文章提取器,这是一个论文和评估基准 https://github.com/scrapinghub/article-extraction-benchmark

1.4k ⭐ 快如闪电的解析器,比 bs4 快240倍 https://github.com/D4Vinci/Scrapling 机器人检测的网站,测试用 https://www.browserscan.net/bot-detection "https://bot.sannysoft.com/"