用python“爬”一篇小说

需要你的python安装有requests模块,如果没有安装可执行如下命令安装

创新互联是专业的墨脱网站建设公司,墨脱接单;提供网站设计、网站建设,网页设计,网站设计,建网站,PHP网站建设等专业做网站服务;采用PHP框架,可快速的进行墨脱网站开发网页制作和功能扩展;专业做搜索引擎喜爱的网站,专业的做网站团队,希望更多企业前来合作!

pip3 install requests

以最近比较火的小说“魔道祖师”为例。

下面是整个脚本

import requests,re

def get_content(url,timeout=10):
    req = requests.get(url=url,timeout=timeout)
    return req.text

def get_title(html,re_title):
    ret = re_title.search(html)
    if ret:
        ret = ret.group()
        tmp = ret.split('_')[0]
        tmp = tmp.replace('','')
        tmp = tmp.strip()
        return tmp

def get_body(html,ret_body):
    ret_body = re_body.search(html)
    if ret_body:
        ret = ret_body.group()
        tmp = re_clear_header.sub(r'\2',ret)
        tmp = tmp.replace(r' ',' ').replace(r'<br /><br />','\n').replace(r'<br />','\n')
        tmp = tmp.replace(r'2k小说阅读网</p>','\n\n')
        return tmp

if __name__ == '__main__':
    mdzs = open('mdzs.txt','w')
    re_title = re.compile(r'<title>(.*?)')
    re_body = re.compile(r'(.*?)

',re.S)     re_clear_header = re.compile(r'(.*)(.*)',re.S)     first_page = 19613532     for i in range(116):         page = first_page + i         url = r'https://www.2kxs.com/xiaoshuo/96/96717/{}.html'.format(page)         try:             html = get_content(url)             title = get_title(html,re_title)             mdzs.write(title + '\n\n')             body = get_body(html,re_body)             mdzs.write(body)             print('{} is success'.format(url))         except Exception as e:             print('url :{} , error: {}'.format(url,e))

该网站是小说网站,排版和网页的url比较有规律性,所以实现起来比较简单


网页题目:用python“爬”一篇小说
网站地址:http://pwwzsj.com/article/pescdg.html