python实现美团网美食数据爬取需要注意什么-创新互联
小编给大家分享一下python实现美团网美食数据爬取需要注意什么,相信大部分人都还不怎么了解,因此分享这篇文章给大家参考一下,希望大家阅读完这篇文章后大有收获,下面让我们一起去了解一下吧!
创新互联建站一直通过网站建设和网站营销帮助企业获得更多客户资源。 以"深度挖掘,量身打造,注重实效"的一站式服务,以成都网站建设、做网站、移动互联产品、营销型网站服务为核心业务。十年网站制作的经验,使用新网站建设技术,全新开发出的标准网站,不但价格便宜而且实用、灵活,特别适合中小公司网站制作。网站管理系统简单易用,维护方便,您可以完全操作网站资料,是中小公司快速网站建设的选择。数据爬取三步曲之前方有坑
工作需求需要采集OTA网站的美食数据,某个城市的饭店类型情况等。对于老饕来说这不算个事。。。然而最后的结果是中午晚饭都没有时间去吃了。。。情况如下
Chrome F12直接定位get请求,response的结果是json,研究下get的参数发现有个奇怪的参数token?!
先不管他直接修改参数翻页请求数据!!!
数据爬取三步曲之开始填坑
问题来了!纠结半天后发现这个token是有时效的,而且是js生成的。。。这也不是问题,get请求行不通我们还有selenuim。悲催的是美团真的是大厂直接封杀selenuim
数据爬取三步曲之将坑填平
又回到原点。没办法只能从token下手了经过一番查找发现一个js文件
嗯。。。好吧继续,因为之前没有用python直接调用js,百度一番发现pyexecjs、PyV8等都可以。悲催的是我的python2.7安装pyexecjs后一直不能正常使用,PyV8没有问题。只是PyV8安装过程太心酸
废话不多说直接上代码:
我把js文件存放到本地python直接使用PyV8直接解析执行token的js事件
程序自动生成token,迫不及待接续解析json数据入库
测试完成先抓取北京和上海数据进行数据可视化
在统计师发现美团还是对数据经行了限制每个类型的餐饮场所最多显示每页32个一共32页。也就是32*32=1024个
数据可视化
北京、上海美食各类型数量占比情况
看以看出川湘、烧烤烤肉和西餐在两地的数量占比都是最多的。撸串、麻小果然不分南北。
数据中有每家店的品论数量我们可以从中分析出每一类美食的总评论情况来展示受欢迎情况,因展示效果我们只展示top10
北京、上海市top10美食情况
北京和上海两地火锅荣登榜首哈
下面我们对比下两地同类美食的平均价格的情况:
以上是“python实现美团网美食数据爬取需要注意什么”这篇文章的所有内容,感谢各位的阅读!相信大家都有了一定的了解,希望分享的内容对大家有所帮助,如果还想学习更多知识,欢迎关注创新互联-成都网站建设公司行业资讯频道!
本文标题:python实现美团网美食数据爬取需要注意什么-创新互联
网页路径:http://pwwzsj.com/article/gcsgi.html