
Crawlee
Python 网络爬虫和浏览器自动化库
- 统一的 HTTP 和无头浏览器爬取接口
- 基于系统资源的自动并行爬取
- Python 类型提示,增强开发体验
- 自动错误重试和防屏蔽功能
- 集成代理轮换和会话管理
- 可配置的请求路由和持久化 URL 队列
- 支持多种数据和文件存储方式
- 健壮的错误处理机制
产品详情
Crawlee 是一个用于构建可靠爬虫的 Python 网络爬虫和浏览器自动化库,提取数据用于AI、LLMs、RAG或GPTs。它提供了统一的接口来处理 HTTP 和无头浏览器爬取任务,支持自动并行爬取,基于系统资源进行调整。Crawlee 用 Python 编写,包含类型提示,增强了开发体验并减少了错误。它具备自动重试、集成代理轮换和会话管理、可配置的请求路由、持久化 URL 队列、可插拔的存储选项等功能。相较于 Scrapy,Crawlee 提供了对无头浏览器爬取的原生支持,拥有简洁优雅的接口,并且完全基于标准的异步 IO。