2019年越来越的企业关注到RPA,也有很多企业开始投入到RPA实施服务商的行业里面。RPA的热度之高,说是空前绝后可能有点夸张,但是说火到极致一点都没有错,RPA机器人最重要的一个功能就是从一些页面上把数据爬下来,所有很多人就想知道RPA机器人和传统意义上的爬冲区别点在哪里?今天,51RPA小编和大家谈谈爬虫、Python、以及和RPA的关系。
RPA、爬虫和Python定义
什么是RPA,这个问题应该不用多解释。(RPA机器人是什么?到底什么是RPA流程自动化机器人?)
什么是爬虫?(是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。来自百度百科。)
什么是Python?( 是一种面向对象的动态类型语言,最初被设计用于编写自动化脚本(shell),随着版本的不断更新和语言新功能的添加,越来越多被用于独立的、大型项目的开发。 简单,易于上手,未来人工制首选语言。 来自百度百科。 )
关于爬虫的观点:
1、爬虫技术使用最多的公司:Google、百度、360搜索。还有我们非常熟悉的:去哪儿。
2、爬虫经常会被要求短时间内抓取大量数据,可能会对目标网站造成一定的流量压力。频繁和大量被竞争对手获取网站数据,可能导致竞争优势的稀释。
3、爬虫会被区分为“好”爬虫和“坏”爬虫。(网站所有者来决定孰好孰坏,通常搜索引擎是“好”爬虫,竞争对手的爬虫都是“坏”爬虫)。
4、每个网站可以按照规范(robot.txt文件)定义允许爬虫爬取的内容,但从来都是“防君子不防小人”。如果坏的爬虫要访问,这个 robot.txt文件 形同虚设。
5、网站和爬虫之间互有攻防,就出现了这样的概念:爬虫、反爬虫、反反爬虫。这个对抗可以一直循环下去,图形越来越大,而图形越大代表着双方付出的代价越高(涉及的内容有:间隔时间、Cookies、user-agent、IP、文字图片化、假链接、假数据、误伤率等)。
6、边际贡献这个事儿,适用于所有的IT项目,包括RPA项目。
说简单点儿就是:追求完美的成果,代价一定是对应“完美”的价格。适可而止是一门艺术。
关于Python的观点:
- 1、“存在即合理”。这么火一定是有道理的。
- 2、回归本质,Phthon也是一门编程语言。对编程人员越友好,对效率就越不友好。
- 3、编程语言、数据结构、算法永远是不同的概念,也永远是相辅相成的。
- 4、当初做C语言程序员,觉得Java不操作指针,不释放内存,怎么能长久?现在来看,C和Java各自安好。
- 现在Python(还有R语言)的语句更加简洁,不断降低编程的入门门槛确实是件好事儿。
- 5、用Python写爬虫,资源很多,上手很快;同时,程序员也很贵。
RPA和爬虫
1、针对于从网页获取招标信息来讲,爬虫可以实现,RPA也可以实现。均不存在技术难度的问题。
2、针对这个需求,RPA实现更加容易,周期更短,速度更快。
3、爬虫在处理网页内容时,直接操作HTML,可以非常灵活和精细(借助正则表达式几乎无所不能);RPA操作的是可见的网页元素,模拟人的操作可以,替代爬虫的功能是比较困难的。
4、利用RPA爬取网站信息的场景,多数不算是“坏”爬虫。因为前提是模拟人的操作,提升工作效率。
5、从必要性角度来讲,如果RPA获取网页数据的数据量相对不多、而且频率相对较低的话,反爬虫大概率不会进行封锁(误伤率是反爬虫非常在意的指标)。
6、从复杂性角度来讲,如果RPA仅仅是模拟人的操作,执行特定操作的话,反爬虫是很难通过模式识别的手段,精准区分人的操作和RPA的操作的(幽默的是:最难抓的爬虫之一是人肉爬虫,但人肉爬虫还是算爬虫吗?)。
7、验证码是反爬虫(包括防止RPA)很有效的办法。验证码和OCR的事儿,实际上大部分验证码市场有很多技术可以识别,目前只有京东上的滑块验证码,在反爬虫方面还是很厉害的。
本文是51RPA中文社区原创文章。发布者:RPA小当家,转载请注明出处:https://www.51rpa.net/rpaedu/1115.html
评论列表(1条)
[…] 其实关于爬虫和RPA之前的区别,在去年7月份51RPA小编已经分享过了,RPA机器人和爬虫的区别,他们的边界在哪里?。刚刚过去的2019年,是数字化转型进程中极为重要的一年。企业纷纷开始走上转型之路,各种技术的应用案例层出不穷,RPA无疑是这波变革浪潮中的闪耀之星。随着越来越多的企业关注到RPA,一些疑问也随之产生。 […]