推荐一:神箭手云爬虫
简介:神箭手云是一个大数据应用开发平台,为开发者提供成套的数据采集、数据分析和机器学习开发工具,为企业提供专业化的数据抓取、数据实时监控和数据分析服务。功能强大,涉及云爬虫、API、机器学习、数据清洗、数据出售、数据订制和私有化部署等。优点:纯云端运行,跨系统操作无压力,隐私保护,可隐藏用户IP。提供云爬虫市场,零基础使用者可直接调用开发好的爬虫,开发者基于官方的云端开发环境开发并上传出售自己的爬虫程序;领先的反爬技术,例如直接接入代理IP和自动登录验证码识别等,全程自动化无需人工参与;丰富的发布接口,采集结果以丰富表格化形式展现。
推荐二:八爪鱼
简介:八爪鱼数据采集系统以完全自主研发的分布式云计算平台为核心,可以在很短的时间内,轻松从各种不同的网站或者网页获取大量的规范化数据,帮助任何需要从网页获取信息的客户实现数据自动化采集,编辑,规范化,摆脱对人工搜索及收集数据的依赖,从而降低获取信息的成本,提高效率。优点:操作简单,完全可视化图形操作,无需专业IT人员,任何会使用电脑上网的人都可以轻松掌握。采集任务自动分配到云端多台服务器同时执行,提高采集效率,可以很短的时间内 获取成千上万条信息。模拟人的操作思维模式,可以登陆,输入数据,点击链接,按钮等,还能对不同情况采取不同的采集流程。内置可扩展的OCR接口,支持解析图片中的文字,可将图片上的文字提取出来。采集任务自动运行,可以按照指定的周期自动采集,并且还支持最快一分钟一次的实时采集。
推荐三:集搜客GooSeeker
简介:GooSeeker的优点显而易见,就是其通用性,对于简单网站,其定义好规则,获取xslt文件后,爬虫代码几乎不需要修改,可结合scrapy使用,提高爬取速度。优点:直观点选,海量采集:用鼠标点选就能采集数据,不需要技术基础。爬虫群并发抓取海量网页,适合大数据场景。无论动态或静态网页,ajax和html一样采集,文本和图片一站采集,不再需要下图软件。文本分词和标签化:自动分词,建设特征词库,文本标签化形成特征词对应表,用于多维度量化计算和分析。发现行业动态,发现市场机会,解读政策,快速掌握主旨要点。
推荐四:WebMagic
WebMagic是一个开源的Java垂直爬虫框架,目标是简化爬虫的开发流程,让开发者专注于逻辑功能的开发。WebMagic采用完全模块化的设计,功能覆盖整个爬虫的生命周期(链接提取、页面下载、内容抽取、持久化),支持多线程抓取,分布式抓取,并支持自动重试、自定义UA/cookie等功能。推荐五:DenseSpider
简介:Go语言实现的高性能爬虫,基于go_spider开发。实现了单机并发采集,深度遍历,自定义深度层级等特性。优点:基于Go语言的并发采集;页面下载、分析、持久化模块化,可自定义扩展;采集日志记录(Mongodb支持);页面数据自定义存储(Mysql、Mongodb);深度遍历,同时可自定义深度层次;Xpath解析。