RPA机器人和爬虫的区别，他们的边界在哪里？

2019年越来越的企业关注到RPA，也有很多企业开始投入到RPA实施服务商的行业里面。RPA的热度之高，说是空前绝后可能有点夸张，但是说火到极致一点都没有错，RPA机器人最重要的一个功能就是从一些页面上把数据爬下来，所有很多人就想知道RPA机器人和传统意义上的爬冲区别点在哪里？今天，51RPA小编和大家谈谈爬虫、Python、以及和RPA的关系。

RPA、爬虫和Python定义

什么是RPA，这个问题应该不用多解释。（RPA机器人是什么？到底什么是RPA流程自动化机器人?）

什么是爬虫？（是一种按照一定的规则，自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。来自百度百科。）

什么是Python？（是一种面向对象的动态类型语言，最初被设计用于编写自动化脚本(shell)，随着版本的不断更新和语言新功能的添加，越来越多被用于独立的、大型项目的开发。简单，易于上手，未来人工制首选语言。来自百度百科。）

关于爬虫的观点：

1、爬虫技术使用最多的公司：Google、百度、360搜索。还有我们非常熟悉的：去哪儿。

2、爬虫经常会被要求短时间内抓取大量数据，可能会对目标网站造成一定的流量压力。频繁和大量被竞争对手获取网站数据，可能导致竞争优势的稀释。

3、爬虫会被区分为“好”爬虫和“坏”爬虫。（网站所有者来决定孰好孰坏，通常搜索引擎是“好”爬虫，竞争对手的爬虫都是“坏”爬虫）。

4、每个网站可以按照规范（robot.txt文件）定义允许爬虫爬取的内容，但从来都是“防君子不防小人”。如果坏的爬虫要访问，这个 robot.txt文件形同虚设。

5、网站和爬虫之间互有攻防，就出现了这样的概念：爬虫、反爬虫、反反爬虫。这个对抗可以一直循环下去，图形越来越大，而图形越大代表着双方付出的代价越高（涉及的内容有：间隔时间、Cookies、user-agent、IP、文字图片化、假链接、假数据、误伤率等）。

6、边际贡献这个事儿，适用于所有的IT项目，包括RPA项目。

说简单点儿就是：追求完美的成果，代价一定是对应“完美”的价格。适可而止是一门艺术。

关于Python的观点：

1、“存在即合理”。这么火一定是有道理的。
2、回归本质，Phthon也是一门编程语言。对编程人员越友好，对效率就越不友好。
3、编程语言、数据结构、算法永远是不同的概念，也永远是相辅相成的。
4、当初做C语言程序员，觉得Java不操作指针，不释放内存，怎么能长久？现在来看，C和Java各自安好。
现在Python（还有R语言）的语句更加简洁，不断降低编程的入门门槛确实是件好事儿。
5、用Python写爬虫，资源很多，上手很快；同时，程序员也很贵。

RPA和爬虫

1、针对于从网页获取招标信息来讲，爬虫可以实现，RPA也可以实现。均不存在技术难度的问题。

2、针对这个需求，RPA实现更加容易，周期更短，速度更快。

3、爬虫在处理网页内容时，直接操作HTML，可以非常灵活和精细（借助正则表达式几乎无所不能）；RPA操作的是可见的网页元素，模拟人的操作可以，替代爬虫的功能是比较困难的。

4、利用RPA爬取网站信息的场景，多数不算是“坏”爬虫。因为前提是模拟人的操作，提升工作效率。

5、从必要性角度来讲，如果RPA获取网页数据的数据量相对不多、而且频率相对较低的话，反爬虫大概率不会进行封锁（误伤率是反爬虫非常在意的指标）。

6、从复杂性角度来讲，如果RPA仅仅是模拟人的操作，执行特定操作的话，反爬虫是很难通过模式识别的手段，精准区分人的操作和RPA的操作的（幽默的是：最难抓的爬虫之一是人肉爬虫，但人肉爬虫还是算爬虫吗？）。

7、验证码是反爬虫（包括防止RPA）很有效的办法。验证码和OCR的事儿，实际上大部分验证码市场有很多技术可以识别，目前只有京东上的滑块验证码，在反爬虫方面还是很厉害的。

本文是51RPA中文社区原创文章。发布者：RPA小当家，转载请注明出处：https://www.51rpa.net/rpaedu/1115.html

发表回复

登录后才能评论

评论列表（1条）

详解爬虫与RPA的工作原理和差异_51RPA 2020年1月11日上午8:02

[…] 其实关于爬虫和RPA之前的区别，在去年7月份51RPA小编已经分享过了，RPA机器人和爬虫的区别，他们的边界在哪里？。刚刚过去的2019年，是数字化转型进程中极为重要的一年。企业纷纷开始走上转型之路，各种技术的应用案例层出不穷，RPA无疑是这波变革浪潮中的闪耀之星。随着越来越多的企业关注到RPA，一些疑问也随之产生。 […]

回复

软件公司小白 2020年5月26日

现在的话，RPA技术广泛运用于金融，保险，零售，制造，电信运营商，政府医疗结构,我自己是个白领，我在公司上班用的就是国内容智的iBot Studio,操作很方便，我同事教我只花了两天就会了，后来我去了解了一下，他们产品简单易用0代码，业界唯一一个0代码设计流程的公司，感觉就是专为普通白领及业务人员设…

评论于将文化内化为力量，RPA的五种最佳实践
软件公司小白 2020年5月26日

其实RPA技术不止用于医疗，适用于各行各业，适用的场景只要满足以下三点都可适用：1.业务流程比较规律2.业务量比较大，高频的3.在电子化结构化的系统上，推荐容智RPA，在国内首屈一指

评论于未来三年，一半的美国医疗保健提供者将投资RPA

RPA机器人和爬虫的区别，他们的边界在哪里？

相关推荐

中国RPA市场仅占全球2％，融合AI突破市场天花板

某贸易公司RPA对账案例分享

引入RPA，对财务团队是冲击，亦或者升级？

ERP×(RPA+AI)=企业效益翻倍提升

人工智能进入汽车行业,AI战略对于汽车行业的成功和竞争力至关重要。

苏州法院RPA+AI实验室第一期成果揭秘

发表回复

评论列表（1条）