Scrapy框架使用代理IP要点是什么

Scrapy框架使用代理IP要点是什么,针对这个问题,这篇文章详细介绍了相对应的分析和解答,希望可以帮助更多想解决这个问题的小伙伴找到更简单易行的方法。

创新互联公司于2013年开始,先为东胜等服务建站,东胜等地企业,进行企业商务咨询服务。为东胜企业网站制作PC+手机+微官网三网同步一站式服务解决您的所有建站问题。

scrapy框架通过模块化的设计实现了数据采集的通用功能接口,并提供自定义拓展,它将程序员从繁冗的流程式重复劳动中解放出来,给编程人员提供了灵活简便的基础构建,对于普通的网页数据采集,编程人员只需要将主要精力投入在网站数据分析和网站反爬策略分析上,结合代理IP的使用,可以实现项目的高效快速启动。

主要特性包括:

1)参数化设置请求并发数,自动异步执行

2)支持xpath,简洁高效

3)支持自定义中间件middleware

4)支持采集源列表

5)支持独立调试,方便 shell 方式

6)支持数据管道接口定义,用户可以选择文本、数据库等多种方式

在Scrapy框架中使用代理的方式有如下几种:

1.scrapy中间件

在项目中新建middlewares.py文件(./项目名/middlewares.py),内容如下:

#! -*- encoding:utf-8 -*-  

import base64

import sys

import random

PY3 = sys.version_info[0] >= 3

def base64ify(bytes_or_str):

   if PY3 and isinstance(bytes_or_str, str):

       input_bytes = bytes_or_str.encode('utf8')

   else:

       input_bytes = bytes_or_str             

   output_bytes = base64.urlsafe_b64encode(input_bytes)

   if PY3:

       return output_bytes.decode('ascii')

   else:

       return output_bytes

class ProxyMiddleware(object):

   def process_request(self, request, spider):

       # 代理服务器(产品官网 www.16yun.cn)

       proxyHost = "t.16yun.cn"

       proxyPort = "31111"

       # 代理验证信息

       proxyUser = "username"

       proxyPass = "password" 

       request.meta['proxy'] = "http://{0}:{1}".format(proxyHost,proxyPort)

       # 添加验证头

       encoded_user_pass = base64ify(proxyUser + ":" + proxyPass)

       request.headers['Proxy-Authorization'] = 'Basic ' + encoded_user_pass

       # 设置IP切换头(根据需求)

       tunnel = random.randint(1,10000)

       request.headers['Proxy-Tunnel'] = str(tunnel)

修改项目配置文件 (./项目名/settings.py)

   DOWNLOADER_MIDDLEWARES = {

       '项目名.middlewares.ProxyMiddleware': 100,

   }

2.scrapy环境变量

通过设置环境变量,来使用爬虫代理(Windows)

  C:\>set http_proxy=http://username:password@ip:port

关于Scrapy框架使用代理IP要点是什么问题的解答就分享到这里了,希望以上内容可以对大家有一定的帮助,如果你还有很多疑惑没有解开,可以关注创新互联行业资讯频道了解更多相关知识。


分享文章:Scrapy框架使用代理IP要点是什么
新闻来源:http://pwwzsj.com/article/pspjio.html