数据分析之PandasVSSQL!
编辑:zone
按需开发可以根据自己的需求进行定制,成都网站设计、网站制作构思过程中功能建设理应排到主要部位公司成都网站设计、网站制作的运用实际效果公司网站制作网站建立与制做的实际意义
来源:数据管道
作者:艾德宝器
Abstract
Pandas是一个开源的Python数据分析库,结合 NumPy 和 Matplotlib 类库,可以在内存中进行高性能的数据清洗、转换、分析及可视化工作。
对于数据开发工程师或分析师而言,SQL 语言是标准的数据查询工具。本文提供了一系列的示例,说明如何使用pandas执行各种SQL操作。
Pandas简介
Pandas把结构化数据分为了三类:
Series,可以理解为一个一维的数组,只是index可以自己改动。
DataFrame,一个类似于表格的数据类型的2维结构化数据。
Panel,3维的结构化数据。
Dataframe实例:
data:image/s3,"s3://crabby-images/b0164/b01640e549d04b8c6a43eb57f0dcf24e95bd858c" alt="数据分析之Pandas VS SQL!"
对于DataFrame,有一些固有属性:
data:image/s3,"s3://crabby-images/a6c0e/a6c0ec28c2b4ea9c09d27353930ec36014892826" alt="数据分析之Pandas VS SQL!"
SQL VS Pandas
SELECT(数据选择)
在SQL中,选择是使用逗号分隔的列列表(或*来选择所有列):
data:image/s3,"s3://crabby-images/8e8cb/8e8cbcf3540a67893f626f82b692e14b4c7eb15b" alt="数据分析之Pandas VS SQL!"
在Pandas中,选择不但可根据列名称选取,还可以根据列所在的位置选取。相关语法如下:
loc,基于列label,可选取特定行(根据行index)
iloc,基于行/列的位置
ix,为loc与iloc的混合体,既支持label也支持position
at,根据指定行index及列label,快速定位DataFrame的元素;
iat,与at类似,不同的是根据position来定位的;
data:image/s3,"s3://crabby-images/9bcbd/9bcbd65be6d36e5553186e080b74fe4b9b609505" alt="数据分析之Pandas VS SQL!"
data:image/s3,"s3://crabby-images/91df9/91df9e28324c887f00b1822ef6037fa63df6928e" alt="数据分析之Pandas VS SQL!"
data:image/s3,"s3://crabby-images/85d5b/85d5b273c939c1b0bbd0a4b7bf12a124f918f2d8" alt="数据分析之Pandas VS SQL!"
WHERE(数据过滤)
在SQL中,过滤是通过WHERE子句完成的:
data:image/s3,"s3://crabby-images/a03d2/a03d20313eb5fc5ba2bea4a9608eb1e55b0d27d8" alt="数据分析之Pandas VS SQL!"
在pandas中,Dataframe可以通过多种方式进行过滤,最直观的是使用布尔索引:
data:image/s3,"s3://crabby-images/474c8/474c882fef65537002008a207134bd6f328f4dfc" alt="数据分析之Pandas VS SQL!"
在where子句中常常会搭配and, or, in, not关键词,Pandas中也有对应的实现:
SQL:
data:image/s3,"s3://crabby-images/92fe3/92fe3c89a78172b99582945902cc3b0a4b16c7e1" alt="数据分析之Pandas VS SQL!"
Pandas:
data:image/s3,"s3://crabby-images/6d491/6d4915023258030d6642a43241170fa8826d828e" alt="数据分析之Pandas VS SQL!"
在where字句中搭配NOT NULL可以获得某个列不为空的项,Pandas中也有对应的实现:
SQL:
data:image/s3,"s3://crabby-images/7aa1e/7aa1e59c549e0d224f3e1be4dbbd460b9c5a1eec" alt="数据分析之Pandas VS SQL!"
Pandas:
data:image/s3,"s3://crabby-images/d64b8/d64b8701168e7113d6bd51c6c1e2b1b6d8011638" alt="数据分析之Pandas VS SQL!"
DISTINCT(数据去重)
SQL:
data:image/s3,"s3://crabby-images/b24d3/b24d370866e92d3a779af997ad1cb0b83185a954" alt="数据分析之Pandas VS SQL!"
Pandas:
data:image/s3,"s3://crabby-images/85f93/85f930adab8a5e5fb8771495846a4fa58867bb18" alt="数据分析之Pandas VS SQL!"
宝器带你画重点:
subset,为选定的列做数据去重,默认为所有列;
keep,可选择{'first', 'last', False},保留重复元素中的第一个、最后一个,或全部删除;
inplace ,Pandas 中 inplace 参数在很多函数中都会有,它的作用是:是否在原对象基础上进行修改,默认为False,返回一个新的Dataframe;若为True,不创建新的对象,直接对原始对象进行修改。
GROUP BY(数据分组)
groupby()通常指的是这样一个过程:我们希望将数据集拆分为组,应用一些函数(通常是聚合),然后将这些组组合在一起:
data:image/s3,"s3://crabby-images/b1b04/b1b040437758fa9fbca4a0eca2d50142cd6dadfd" alt="数据分析之Pandas VS SQL!"
常见的SQL操作是获取数据集中每个组中的记录数。
data:image/s3,"s3://crabby-images/efd55/efd55a7086f4f7c7f63197a6e4c41aadee80f5a0" alt="数据分析之Pandas VS SQL!"
Pandas中对应的实现:
data:image/s3,"s3://crabby-images/40d41/40d4109b42f26cb460321cbc6ca143e85a6d8147" alt="数据分析之Pandas VS SQL!"
注意,在Pandas中,我们使用size()而不是count()。这是因为count()将函数应用于每个列,返回每个列中的非空记录的数量。具体如下:
data:image/s3,"s3://crabby-images/7d8a2/7d8a25d62b6a78328cd04a8f3e8c28e6708bd5fe" alt="数据分析之Pandas VS SQL!"
还可以同时应用多个函数。例如,假设我们想要查看每个星期中每天的小费金额有什么不同。
SQL:
data:image/s3,"s3://crabby-images/d12d3/d12d3dd135d6b6f8d01d4891b64cc84ac718bb48" alt="数据分析之Pandas VS SQL!"
Pandas:
data:image/s3,"s3://crabby-images/12294/12294f4a7ee195a9a030102f71de0c80f40ad9ab" alt="数据分析之Pandas VS SQL!"
更多关于Groupy和数据透视表内容请阅读:
这些祝福和干货比那几块钱的红包重要的多!
JOIN(数据合并)
可以使用join()或merge()执行连接。
默认情况下,join()将联接其索引上的DataFrames。
每个方法都有参数,允许指定要执行的连接类型(LEFT, RIGHT, INNER, FULL)或要连接的列(列名或索引)
data:image/s3,"s3://crabby-images/1c32a/1c32a323edfad704f351c067f775f0b9d99f091f" alt="数据分析之Pandas VS SQL!"
现在看一下不同的连接类型的SQL和Pandas实现:
INNER JOIN
SQL:
data:image/s3,"s3://crabby-images/50b8b/50b8ba24a6da1ce7c44244df205a7514786d6ee1" alt="数据分析之Pandas VS SQL!"
Pandas:
data:image/s3,"s3://crabby-images/7899d/7899dbb7cc7d520ba55a02ebeee835a4ac74ed96" alt="数据分析之Pandas VS SQL!"
LEFT OUTER JOIN
SQL:
data:image/s3,"s3://crabby-images/8616e/8616e3b48ddc7986138ae525476c7ab748a25ea4" alt="数据分析之Pandas VS SQL!"
Pandas:
data:image/s3,"s3://crabby-images/3bfb4/3bfb495043c55338669e5d9519dbd16daeabb7f1" alt="数据分析之Pandas VS SQL!"
RIGHT JOIN
SQL:
data:image/s3,"s3://crabby-images/39e92/39e925d1e7e80c3c2a254f65513750ea2d0585a7" alt="数据分析之Pandas VS SQL!"
Pandas:
data:image/s3,"s3://crabby-images/e670b/e670b459ede2670154d0c17748ca39be7eae27da" alt="数据分析之Pandas VS SQL!"
FULL JOIN
SQL:
data:image/s3,"s3://crabby-images/2032e/2032e5ea0f66df9dc3b6f385ad75371b3113ea9b" alt="数据分析之Pandas VS SQL!"
Pandas:
data:image/s3,"s3://crabby-images/997f2/997f26ec7fc2365cb1d3e74170feff67122e9460" alt="数据分析之Pandas VS SQL!"
ORDER(数据排序)
SQL:
data:image/s3,"s3://crabby-images/ca200/ca200d41fe0500de24b15258a3a91270fb6c91c6" alt="数据分析之Pandas VS SQL!"
Pandas:
data:image/s3,"s3://crabby-images/bdcdc/bdcdc0d66aa04512a39465ab2fd8c7f5e88948f1" alt="数据分析之Pandas VS SQL!"
UPDATE(数据更新)
SQL:
data:image/s3,"s3://crabby-images/859ba/859ba01eabb0d7831a75f65babf4638bec6d5f41" alt="数据分析之Pandas VS SQL!"
Pandas:
data:image/s3,"s3://crabby-images/7fe91/7fe9193f9936d4f0854d352546afc9dfa2c2fea7" alt="数据分析之Pandas VS SQL!"
DELETE(数据删除)
SQL:
data:image/s3,"s3://crabby-images/757a4/757a4cfa8195b564401af39068738498f0f58495" alt="数据分析之Pandas VS SQL!"
Pandas:
data:image/s3,"s3://crabby-images/d71ef/d71ef26ed333ec5cffdad0741d38cbec13496ee0" alt="数据分析之Pandas VS SQL!"
总结:
本文从Pandas里面基本数据结构Dataframe的固定属性开始介绍,对比了做数据分析过程中的一些常用SQL语句的Pandas实现。
参考:
http://m.v.qq.com/play/play.htmlcoverid=&vid=q0836f6kewx&ptag=4_6.7.0.22106_qq
分享题目:数据分析之PandasVSSQL!
文章位置:http://pwwzsj.com/article/ghsphh.html