找回密码
 立即注册
搜索
热搜: 活动 交友 discuz
查看: 17|回复: 0

10 个 GitHub 仓库,用于抓取整个互联网

[复制链接]
发表于 昨天 15:50 | 显示全部楼层 |阅读模式
10 个 GitHub 仓库,用于抓取整个互联网把它们全都保存下来。每个仓库都能从任何网站提取干净的数据。这种级别的访问通常需要销售电话和合同。


1. https://github.com/firecrawl/firecrawl

将它指向任何网站,跟踪每个页面,渲染 JavaScript,并返回干净且结构化的数据,AI 可以立即读取。130k 星标,位列 GitHub 前 100 仓库。半个 AI 初创公司悄无声息运行的爬取骨架,完全开源。
1.jpg




2. https://github.com/unclecode/crawl4ai
GitHub 上排名第一的爬虫工具。将任何网页转换为干净的 Markdown 格式,适用于 LLM,比付费服务更快。无需 API 密钥、账户或按页付费。一个开发者在厌倦了每月 16 美元的付费爬虫工具后,仅用几天时间就搭建了这个工具。51K 星标。Apache 2.0 许可证。

2.jpg



3. http://github.com/browser-use/browser-use
一个像真人一样操作浏览器的 AI 代理。它会点击、滚动、登录、填写表单,并从从未见过的网站中提取数据。由苏黎世联邦理工学院的两名研究人员开发,一年内获得了 95,000 颗星。它能追踪简单爬虫无法触及的页面。MIT 许可证。



3.jpg





4. http://github.com/apify/crawlee
一个专业且完整的抓取框架。包括代理轮换、自动重试、浏览器指纹伪装和队列管理。所有避免封锁的机制。那些抓取公司收费数千美元的技术栈,现在免费提供给你。



4.jpg



5. http://github.com/scrapy/scrapy
一款工业级爬虫,已悄无声息地帮助数据团队超过十年。它能爬取数百万页面,提取任何内容并导出干净数据。在真实条件下经过大规模测试,达到大多数付费工具无法企及的水平,而且始终免费。

5.jpg



6. http://github.com/microsoft/markitdown
微软自家的工具。它可以将任何文件或网页、PDF、Office 文档、HTML 或图像转换为干净的 Markdown,AI 可以毫无问题地使用它。整个数据管道的企业都是围绕这个构建的。微软将其作为开源发布。

6.jpg





7. http://github.com/D4Vinci/Scrapling
一个隐形抓取器,能自动适应网站设计变更并规避反爬虫检测。反爬虫服务商作为高级功能售卖的技术,如今免费且开源。

7.jpg



8. http://github.com/Genymobile/scrcpy
从你的电脑远程控制任何安卓手机,提取数据或自动化那些没有网页的应用程序。访问大多数爬虫无法触及的手机专属平台。超过13万颗星。Apache 2.0。

8.jpg



9. http://github.com/alirezamika/autoscraper
你给它一个例子,它就能找出模式,自动追踪网站上的其余内容。忘掉选择器和维护代码吧。“给我数据就行”的按钮,用几行 Python 代码搞定。

9.jpg



10. http://github.com/lwthiker/curl-impersonate
curl 的一个改进版本,它完美模仿真实浏览器的指纹。你的请求看起来就像一个使用 Chrome 的真实用户。昂贵的抓取 API 在底层秘密使用的低级技巧,现在免费提供。
有些公司为此每月收取 2000 美元费用。源代码就在这里。

10.jpg



回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|Archiver|手机版|小黑屋|腾飞在线 ( 冀ICP备05002530号 )

GMT+8, 2026-6-30 06:15 , Processed in 0.066847 second(s), 19 queries .

Powered by Discuz! X3.5

© 2001-2026 Discuz! Team.

快速回复 返回顶部 返回列表