10 个 GitHub 仓库，用于抓取整个互联网

海豚 · 发表于昨天 15:50

10 个 GitHub 仓库，用于抓取整个互联网把它们全都保存下来。每个仓库都能从任何网站提取干净的数据。这种级别的访问通常需要销售电话和合同。

1. https://github.com/firecrawl/firecrawl
将它指向任何网站，跟踪每个页面，渲染 JavaScript，并返回干净且结构化的数据，AI 可以立即读取。130k 星标，位列 GitHub 前 100 仓库。半个 AI 初创公司悄无声息运行的爬取骨架，完全开源。

2. https://github.com/unclecode/crawl4ai
GitHub 上排名第一的爬虫工具。将任何网页转换为干净的 Markdown 格式，适用于 LLM，比付费服务更快。无需 API 密钥、账户或按页付费。一个开发者在厌倦了每月 16 美元的付费爬虫工具后，仅用几天时间就搭建了这个工具。51K 星标。Apache 2.0 许可证。

3. http://github.com/browser-use/browser-use
一个像真人一样操作浏览器的 AI 代理。它会点击、滚动、登录、填写表单，并从从未见过的网站中提取数据。由苏黎世联邦理工学院的两名研究人员开发，一年内获得了 95,000 颗星。它能追踪简单爬虫无法触及的页面。MIT 许可证。

4. http://github.com/apify/crawlee
一个专业且完整的抓取框架。包括代理轮换、自动重试、浏览器指纹伪装和队列管理。所有避免封锁的机制。那些抓取公司收费数千美元的技术栈，现在免费提供给你。

5. http://github.com/scrapy/scrapy
一款工业级爬虫，已悄无声息地帮助数据团队超过十年。它能爬取数百万页面，提取任何内容并导出干净数据。在真实条件下经过大规模测试，达到大多数付费工具无法企及的水平，而且始终免费。

6. http://github.com/microsoft/markitdown
微软自家的工具。它可以将任何文件或网页、PDF、Office 文档、HTML 或图像转换为干净的 Markdown，AI 可以毫无问题地使用它。整个数据管道的企业都是围绕这个构建的。微软将其作为开源发布。

7. http://github.com/D4Vinci/Scrapling
一个隐形抓取器，能自动适应网站设计变更并规避反爬虫检测。反爬虫服务商作为高级功能售卖的技术，如今免费且开源。

8. http://github.com/Genymobile/scrcpy
从你的电脑远程控制任何安卓手机，提取数据或自动化那些没有网页的应用程序。访问大多数爬虫无法触及的手机专属平台。超过13万颗星。Apache 2.0。

9. http://github.com/alirezamika/autoscraper
你给它一个例子，它就能找出模式，自动追踪网站上的其余内容。忘掉选择器和维护代码吧。“给我数据就行”的按钮，用几行 Python 代码搞定。

10. http://github.com/lwthiker/curl-impersonate
curl 的一个改进版本，它完美模仿真实浏览器的指纹。你的请求看起来就像一个使用 Chrome 的真实用户。昂贵的抓取 API 在底层秘密使用的低级技巧，现在免费提供。
有些公司为此每月收取 2000 美元费用。源代码就在这里。

		自动登录	找回密码
密码			立即注册