【Tips篇】爬虫
配图本来计划选择一种爬虫的,可是看到百度搜到的图片好恶心,所以作罢,还是还原网络世界真实的爬虫。
成都创新互联专注为客户提供全方位的互联网综合服务,包含不限于做网站、成都网站设计、明水网络推广、小程序开发、明水网络营销、明水企业策划、明水品牌公关、搜索引擎seo、人物专访、企业宣传片、企业代运营等,从售前售中售后,我们都将竭诚为您服务,您的肯定,是我们最大的嘉奖;成都创新互联为所有大学生创业者提供明水建站搭建服务,24小时服务热线:18980820575,官方网址:www.cdcxhl.com
爬虫应该是随着搜索引擎技术出现的。爬虫技术主要是用来抓取万维网网页内容的主要技术,被爬到的网页会被收录进入搜索引擎。一般情况下,企业作为门户网站的话是非常希望爬虫爬到,然后收录进去,这样用户搜索的时候就会被显示出来,一方面随着搜索技术飞速发展,www业务飞速发展,各种各样的爬虫,***到互联网中,爬虫对于某些网站来说是一种流量的浪费。比如某宝是坚决不让某度来爬取的,一方面是要保障流量来源,另一方面要保障流量正常,因为www网站中恶意爬虫会影响正常流量访问。
于是robots协议应运而生。
“引用”Robots协议(也称为爬虫协议、机器人协议等)的全称是“网络爬虫排除标准”(Robots Exclusion Protocol),网站通过Robots协议告诉搜索引擎哪些页面可以抓取,哪些页面不能抓取。
防止spider任意抓取:(禁止任何爬虫进行抓取网站的任何目录)
spider user-agent:*
disallow:/
这些规则是支持正则的,所以会非常灵活。对于业务型的页面可以设置为不可被抓取。
还有一点最重要的:就是要相识的robots协议生效,就必须web访问的时候可以访问到robots.txt,并且robots位于网站的根目录下。例如:
www.taobao.com/robots.txt就可以看到淘宝的robots协议。
最后一点,如果你不想要在实名网站留下一些huai的证据,那么也不要寄希望于网站禁止爬虫,那么请注意保持良好的上网行为。
支付宝-打赏:
微信-打赏:
分享标题:【Tips篇】爬虫
分享URL:http://pwwzsj.com/article/jjhpcd.html