数据分析之PandasVSSQL!-创新互联
编辑:zone
创新互联-专业网站定制、快速模板网站建设、高性价比关岭网站开发、企业建站全套包干低至880元,成熟完善的模板库,直接使用。一站式关岭网站制作公司更省心,省钱,快速模板网站建设找我们,业务覆盖关岭地区。费用合理售后完善,十余年实体公司更值得信赖。来源:数据管道
作者:艾德宝器
Abstract
Pandas是一个开源的Python数据分析库,结合 NumPy 和 Matplotlib 类库,可以在内存中进行高性能的数据清洗、转换、分析及可视化工作。
对于数据开发工程师或分析师而言,SQL 语言是标准的数据查询工具。本文提供了一系列的示例,说明如何使用pandas执行各种SQL操作。
Pandas简介
Pandas把结构化数据分为了三类:
Series,可以理解为一个一维的数组,只是index可以自己改动。
DataFrame,一个类似于表格的数据类型的2维结构化数据。
Panel,3维的结构化数据。
Dataframe实例:
data:image/s3,"s3://crabby-images/cbbbd/cbbbd1dca4440cc5d514b497df913ebdd8748228" alt="数据分析之Pandas VS SQL!"
对于DataFrame,有一些固有属性:
data:image/s3,"s3://crabby-images/e54f0/e54f0204acd026edf2f2aa63d4d96832c8fd6edb" alt="数据分析之Pandas VS SQL!"
SQL VS Pandas
SELECT(数据选择)
在SQL中,选择是使用逗号分隔的列列表(或*来选择所有列):
data:image/s3,"s3://crabby-images/7a394/7a394476d2f54b062258647dc8ff66d571e3ed14" alt="数据分析之Pandas VS SQL!"
在Pandas中,选择不但可根据列名称选取,还可以根据列所在的位置选取。相关语法如下:
loc,基于列label,可选取特定行(根据行index)
iloc,基于行/列的位置
ix,为loc与iloc的混合体,既支持label也支持position
at,根据指定行index及列label,快速定位DataFrame的元素;
iat,与at类似,不同的是根据position来定位的;
data:image/s3,"s3://crabby-images/4d74e/4d74e903277c61f6de2627f9caafcd36addf0ee1" alt="数据分析之Pandas VS SQL!"
data:image/s3,"s3://crabby-images/f87f2/f87f2b8926d2db2873c4387ce3f48c6320b1f6f1" alt="数据分析之Pandas VS SQL!"
data:image/s3,"s3://crabby-images/44cd4/44cd49ac6261f4430d119a5563715bc8566e3d3f" alt="数据分析之Pandas VS SQL!"
WHERE(数据过滤)
在SQL中,过滤是通过WHERE子句完成的:
data:image/s3,"s3://crabby-images/f8fc3/f8fc3a6756f39f5791b294181a6e0cf5722cdcee" alt="数据分析之Pandas VS SQL!"
在pandas中,Dataframe可以通过多种方式进行过滤,最直观的是使用布尔索引:
data:image/s3,"s3://crabby-images/392bd/392bd4cca32135aa1e917093eb0d2de0ca2c20f8" alt="数据分析之Pandas VS SQL!"
在where子句中常常会搭配and, or, in, not关键词,Pandas中也有对应的实现:
SQL:
data:image/s3,"s3://crabby-images/5df1d/5df1d958b2d389d4a05859f2cc3d5b00d4cb70af" alt="数据分析之Pandas VS SQL!"
Pandas:
data:image/s3,"s3://crabby-images/5db14/5db14f8a5bed12a634ec3dcf429dfdc55df13dd6" alt="数据分析之Pandas VS SQL!"
在where字句中搭配NOT NULL可以获得某个列不为空的项,Pandas中也有对应的实现:
SQL:
data:image/s3,"s3://crabby-images/eea1d/eea1dca713c2bb0ce3a96ec6409f3da5aeeb0b88" alt="数据分析之Pandas VS SQL!"
Pandas:
data:image/s3,"s3://crabby-images/e4bff/e4bffba03b9414bb68d6a7d4c43f8f265bf95e5d" alt="数据分析之Pandas VS SQL!"
DISTINCT(数据去重)
SQL:
data:image/s3,"s3://crabby-images/4a3bc/4a3bc9839dccc60b9bf2e6a0f43158a63c7e642d" alt="数据分析之Pandas VS SQL!"
Pandas:
data:image/s3,"s3://crabby-images/24298/242988d33360ef2b2f6a9242498df4201cfb1488" alt="数据分析之Pandas VS SQL!"
宝器带你画重点:
subset,为选定的列做数据去重,默认为所有列;
keep,可选择{'first', 'last', False},保留重复元素中的第一个、最后一个,或全部删除;
inplace ,Pandas 中 inplace 参数在很多函数中都会有,它的作用是:是否在原对象基础上进行修改,默认为False,返回一个新的Dataframe;若为True,不创建新的对象,直接对原始对象进行修改。
GROUP BY(数据分组)
groupby()通常指的是这样一个过程:我们希望将数据集拆分为组,应用一些函数(通常是聚合),然后将这些组组合在一起:
data:image/s3,"s3://crabby-images/2e83d/2e83dae10bb5bceeaf9a0c97621df7c4af692a16" alt="数据分析之Pandas VS SQL!"
常见的SQL操作是获取数据集中每个组中的记录数。
data:image/s3,"s3://crabby-images/6d94b/6d94b2b8b5efc9a086dd4ba9e593cc1bed017290" alt="数据分析之Pandas VS SQL!"
Pandas中对应的实现:
data:image/s3,"s3://crabby-images/341a9/341a93bb7768cf40b114ae34add81f37d3a41aa8" alt="数据分析之Pandas VS SQL!"
注意,在Pandas中,我们使用size()而不是count()。这是因为count()将函数应用于每个列,返回每个列中的非空记录的数量。具体如下:
data:image/s3,"s3://crabby-images/6b082/6b082c6bf7c24ea5ceb31818dc48e47440ef824b" alt="数据分析之Pandas VS SQL!"
还可以同时应用多个函数。例如,假设我们想要查看每个星期中每天的小费金额有什么不同。
SQL:
data:image/s3,"s3://crabby-images/f51a8/f51a8556f9104852a72eb45dbb859a8b4b7bbb79" alt="数据分析之Pandas VS SQL!"
Pandas:
data:image/s3,"s3://crabby-images/aeb34/aeb342852b9f41a4804826187b91e7cfea47ad0b" alt="数据分析之Pandas VS SQL!"
更多关于Groupy和数据透视表内容请阅读:
这些祝福和干货比那几块钱的红包重要的多!
JOIN(数据合并)
可以使用join()或merge()执行连接。
默认情况下,join()将联接其索引上的DataFrames。
每个方法都有参数,允许指定要执行的连接类型(LEFT, RIGHT, INNER, FULL)或要连接的列(列名或索引)
data:image/s3,"s3://crabby-images/5102e/5102e52f943550e4dc9567417d291b1b6489afd0" alt="数据分析之Pandas VS SQL!"
现在看一下不同的连接类型的SQL和Pandas实现:
INNER JOIN
SQL:
data:image/s3,"s3://crabby-images/9aa25/9aa25f96ca24a8f4347413736e2b517ff7d53069" alt="数据分析之Pandas VS SQL!"
Pandas:
data:image/s3,"s3://crabby-images/a4d16/a4d162e9fe323f31eba229809e168ab8a1c1dfd5" alt="数据分析之Pandas VS SQL!"
LEFT OUTER JOIN
SQL:
data:image/s3,"s3://crabby-images/b9431/b9431af4e6a9febfadb418207e48ffce58b1b8fa" alt="数据分析之Pandas VS SQL!"
Pandas:
data:image/s3,"s3://crabby-images/aadac/aadacf8c6e22a3c1d3886afe62d4e272999409d6" alt="数据分析之Pandas VS SQL!"
RIGHT JOIN
SQL:
data:image/s3,"s3://crabby-images/da174/da174cdf7c234e1a28d90c8c85477c49e96aeb59" alt="数据分析之Pandas VS SQL!"
Pandas:
data:image/s3,"s3://crabby-images/1551a/1551a2c55494e05b6dfeecc3c0beb9f0ac63c523" alt="数据分析之Pandas VS SQL!"
FULL JOIN
SQL:
data:image/s3,"s3://crabby-images/1cca5/1cca5c6f4f523948acb01dff94471cae50a5b0ce" alt="数据分析之Pandas VS SQL!"
Pandas:
data:image/s3,"s3://crabby-images/bee05/bee05a921cb789184b56d6624276a8ff4528d8ad" alt="数据分析之Pandas VS SQL!"
ORDER(数据排序)
SQL:
data:image/s3,"s3://crabby-images/e9a2f/e9a2fc7915e7684fb05ac10ee3aa659be2f275db" alt="数据分析之Pandas VS SQL!"
Pandas:
data:image/s3,"s3://crabby-images/46d50/46d5055dcf8f0157271066541e73ebaa00d329e1" alt="数据分析之Pandas VS SQL!"
UPDATE(数据更新)
SQL:
data:image/s3,"s3://crabby-images/50e5b/50e5ba0a465d60e37dde39cbbb189ae149a44e3a" alt="数据分析之Pandas VS SQL!"
Pandas:
data:image/s3,"s3://crabby-images/e6e1d/e6e1d36918cee9f92147bffebf3167bef0e9a7df" alt="数据分析之Pandas VS SQL!"
DELETE(数据删除)
SQL:
data:image/s3,"s3://crabby-images/39a1e/39a1eb50d304cd388aaeb53ff7f215a22a89034b" alt="数据分析之Pandas VS SQL!"
Pandas:
data:image/s3,"s3://crabby-images/93a7e/93a7ef959906fc02f5baf81aa58c9c047ee23f63" alt="数据分析之Pandas VS SQL!"
总结:
本文从Pandas里面基本数据结构Dataframe的固定属性开始介绍,对比了做数据分析过程中的一些常用SQL语句的Pandas实现。
参考:
http://m.v.qq.com/play/play.htmlcoverid=&vid=q0836f6kewx&ptag=4_6.7.0.22106_qq
文章题目:数据分析之PandasVSSQL!-创新互联
当前链接:http://pwwzsj.com/article/cocjie.html