|
|
10 bulan lalu | |
|---|---|---|
| config | 10 bulan lalu | |
| database | 10 bulan lalu | |
| mylib | 10 bulan lalu | |
| tests | 10 bulan lalu | |
| utils | 10 bulan lalu | |
| worker | 10 bulan lalu | |
| .clinerules | 10 bulan lalu | |
| .clinerules-code | 10 bulan lalu | |
| .env | 10 bulan lalu | |
| .gitignore | 10 bulan lalu | |
| CONVENTIONS.md | 10 bulan lalu | |
| __init__.py | 10 bulan lalu | |
| architecture.md | 10 bulan lalu | |
| readme.md | 10 bulan lalu |
C:\Users\mg\.local\bin\aider.exe
python -m pytest tests/test_google_search.py -v
3.3k ⭐ 智能打开 s3 、hdfs 、 sftp 、 ftp 、 local 文件系统 https://github.com/piskvorky/smart_open
2.2k ⭐ PyFilesystem2 是一个抽象的文件系统接口 https://github.com/PyFilesystem/pyfilesystem2
6.6k ⭐ 爬虫框架大全 https://github.com/BruceDone/awesome-crawler
爬虫工具大全,搜索: 爬 https://github.com/GitHubDaily/GitHubDaily/blob/cb618c17a72fc5a62248e5ac863d46fe0164487b/README.md?plain=1#L190
330 ⭐ awesome 网页解析器数据提取大全 https://github.com/kimtth/awesome-azure-openai-llm/blob/9b16663bb4e38bc8760f3f274b92dfcca0ada34a/section/app.md 关键词: https://github.com/search?q=Trafilatura+awesome++language%3AMarkdown&type=code&l=Markdown
34.9k ⭐ markitdown https://github.com/microsoft/markitdown
22k ⭐ firecrawl AI 抓取干净结构化的页面 https://github.com/mendableai/firecrawl
17.3k ⭐ python 用AI自动抓取网页信息,自动解析 markdown ,自定义提取的字段 还能生成代码,为页面固定运行代码 https://github.com/ScrapeGraphAI/Scrapegraph-ai/blob/main/README.md
7.5K ⭐ 无代码,鼠标点击元素,即可提取所有相似数据转换成表格或者 json , 或者 API 接口 https://github.com/getmaxun/maxun
241 ⭐ 在代码中用自然语言描述,就能让AI提取有关数据,还能转换为 markdown ,也能用自然语言描述来自动化输入、回车、提交 需要 LLM 秘钥 https://github.com/dendrite-systems/dendrite-python-sdk
readerLM-v2
3.1k⭐ 网页解析器 https://github.com/adbar/trafilatura 各类工具的评估结果,我们可以看看哪些工具最强 https://trafilatura.readthedocs.io/en/latest/evaluation.html#results-2022-05-18
339 ⭐ 文章提取器,这是一个论文和评估基准 https://github.com/scrapinghub/article-extraction-benchmark
1.4k ⭐ 快如闪电的解析器,比 bs4 快240倍 , 可以进行相似元素的搜索,加快搜索效率,智能导航,可以快速跳转到父级、子级、兄弟元素 假如元素属性发生改变,它可以智能识别改变后的元素 https://github.com/D4Vinci/Scrapling
365 ⭐ 给原装的playwright打补丁,能够避免检测到自动化 https://github.com/rebrowser/rebrowser-playwright-python
0.98k ⭐ 反机器人检测的浏览器 https://github.com/daijro/camoufox 浏览器启动信息: about:support
机器人检测的网站,测试用 https://www.browserscan.net/bot-detection "https://bot.sannysoft.com/"
检查你的 代理ip 和浏览器指纹真伪 https://www.browserscan.net