超市用户的k-means聚类处理

导入超市用户的数据

成都创新互联专业为企业提供繁峙网站建设、繁峙做网站、繁峙网站设计、繁峙网站制作等企业网站建设、网页设计与制作、繁峙企业网站模板建站服务,十年繁峙做网站经验,不只是建网站,更提供有价值的思路和整体网络服务。

import pandas as pd

from sklearn.preprocessing import StandardScaler #标准差标准化

com = pd.read_csv('./company.csv',encoding='ansi')

超市用户的k-means聚类处理

导入剔除异常值的函数

def box_analysis(data):

'''

进行箱线图分析,剔除异常值

:param data:

:return:

'''

qu = data.quantile(0.75)

ql = data.quantile(0.25)

iqr = qu - ql

#上限与下限 1.5可以微调

up = qu+1.5*iqr

low = ql-1.5*iqr

#进行比较运算

bool_id_1 = data<=up

bool_id_2 = data>=low

bool_num = bool_id_1 & bool_id_2

return bool_num

进行缺失值检测

print(com.isnull().sum())

检测结果无缺失值

筛选有用特征,切片处理

data = com.iloc[:,-2:]

超市用户的k-means聚类处理

箱线图分析来进行异常值检测

按照平均每次消费金额进行异常值去除

bood_id_1 = box_analysis(data.iloc[:,0])

data = data.loc[bood_id_1,:]

按照平均消费周期进行异常值去除

bood_id_2 = box_analysis(data.iloc[:,1])

data = data.loc[bood_id_2,:]

构建需要特征

data.loc[:,'每日消费金额'] = data.loc[:,'平均每次消费金额']/data.loc[:,'平均消费周期(天)']

标准化数据,量级不大,暂时不处理量级

stand = StandardScaler() #创建标准差示例

#先计算每一列的均值、标准差再进行转化数据

x = stand.fit_transform(data) #进行标准化

把上面数据处理部分封装进函数

def built_data():

#缺失值检测

# print(com.isnull().sum())

#筛选有用特征,切片处理

data = com.iloc[:,-2:]

# print(data)

#异常值检测,箱线图分析

#按照平均每次消费金额进行异常值去除

bood_id_1 = box_analysis(data.iloc[:,0])

data = data.loc[bood_id_1,:]

#按照平均消费周期进行异常值去除

bood_id_2 = box_analysis(data.iloc[:,1])

data = data.loc[bood_id_2,:]

#构建需要特征

data.loc[:,'每日消费金额'] = data.loc[:,'平均每次消费金额']/data.loc[:,'平均消费周期(天)']

# print(data)

#标准化数据,量级不大,暂时不处理量级

#标准化数据

stand = StandardScaler() #创建标准差示例

#先计算每一列的均值、标准差再进行转化数据

x = stand.fit_transform(data) #进行标准化

return data.values

绘图部分函数如下

def show_res_km(data,y_predict,center):

'''无锡妇科检查医院 http://www.87554006.com/

进行结果展示

:param data:原始数据

:param y_predict:预测标签

:param center:最终的聚类中心

:return:

'''

plt.figure()

#获取原始数据的行数

index_num = data.shape[0]

#

colors = ['r','g','b','y']

for i in range(index_num):

plt.scatter(data[i,0],data[i,1],c=colors[int(y_predict[i])])

#散点图的绘制,一个一个绘制

#聚类中心的位置

#b的话是描点划线,bx的话是画点但是不描线

plt.plot(center[:,0],center[:,1],'bx',marker='x',markersize=12)

plt.show()

调用函数来进行聚类

data = built_data()

#导包实现

k=3

km = KMeans(n_clusters=k)

#训练数据

km.fit(data)

#进行预测 ,y_predict预测标签

y_predict = km.predict(data)

#获取聚类中心

center = km.cluster_centers_

print('预测值:\n',y_predict)

print('聚类中心:\n',center)

show_res_km(data.values,y_predict,center)

得出结果


新闻标题:超市用户的k-means聚类处理
新闻来源:http://pwwzsj.com/article/jpejgp.html