Python 数据挖掘学习：关联规则与聚类算法实践

xiaoshi 05-30 41 抢沙发

默认

摘要： ...

Python数据挖掘实战：关联规则与聚类算法深度解析

数据挖掘的核心技术

在当今数据爆炸的时代，掌握数据挖掘技术已成为数据分析师的必备技能。Python凭借其丰富的库生态系统，成为数据挖掘领域的首选工具。本文将重点探讨关联规则与聚类算法这两大数据挖掘核心技术，通过实际案例展示如何运用Python实现这些算法。

关联规则挖掘能够发现数据集中项目之间的有趣关系，而聚类算法则可以将相似的数据对象自动分组。这两种技术在零售分析、用户分群、推荐系统等领域都有广泛应用。

关联规则挖掘基础

关联规则学习是一种基于规则的机器学习方法，用于发现大型数据库中变量之间的有趣关系。最经典的例子就是"啤酒与尿布"的故事——超市通过分析销售数据发现，购买尿布的顾客经常同时购买啤酒。

关联规则通常表示为X→Y，其中X和Y是不相交的项目集。衡量关联规则强度的主要指标有三个：

支持度(Support)：规则在数据集中出现的频率
置信度(Confidence)：规则正确的概率
提升度(Lift)：规则的实际效果与预期效果的比值

在Python中，我们可以使用mlxtend库的apriori算法来挖掘关联规则。这个算法采用"向下闭包"性质，即如果一个项集是频繁的，那么它的所有子集也必须是频繁的。

Python实现Apriori算法

让我们通过一个超市购物篮分析的例子来演示如何使用Python实现关联规则挖掘。首先需要安装必要的库：

pip install mlxtend pandas

然后导入数据并进行预处理：

import pandas as pd
from mlxtend.preprocessing import TransactionEncoder

# 示例交易数据
dataset = [['牛奶', '面包', '啤酒'],
           ['牛奶', '尿布', '啤酒', '鸡蛋'],
           ['面包', '尿布', '啤酒', '可乐'],
           ['牛奶', '面包', '尿布', '啤酒'],
           ['牛奶', '面包', '尿布', '可乐']]

# 数据预处理
te = TransactionEncoder()
te_ary = te.fit(dataset).transform(dataset)
df = pd.DataFrame(te_ary, columns=te.columns_)

接下来使用Apriori算法找出频繁项集：

from mlxtend.frequent_patterns import apriori

# 找出支持度大于0.6的频繁项集
frequent_itemsets = apriori(df, min_support=0.6, use_colnames=True)
print(frequent_itemsets)

最后从频繁项集中生成关联规则：

from mlxtend.frequent_patterns import association_rules

# 生成关联规则
rules = association_rules(frequent_itemsets, metric="confidence", min_threshold=0.7)
print(rules[['antecedents', 'consequents', 'support', 'confidence', 'lift']])

通过分析结果，我们可以发现哪些商品经常被一起购买，从而优化商品摆放位置或设计促销组合。

聚类算法概述

聚类是一种无监督学习技术，目的是将相似的对象自动分组到同一个簇中。与分类不同，聚类不需要事先知道类别标签，而是通过数据本身的特征来发现隐藏的模式。

常用的聚类算法包括：

K-Means：基于距离的划分方法，简单高效
DBSCAN：基于密度的聚类算法，能发现任意形状的簇
层次聚类：通过自底向上或自顶向下的方式构建聚类层次
谱聚类：基于图论的聚类方法，适合处理复杂结构数据

每种算法都有其适用场景和优缺点，选择哪种算法取决于数据特征和业务需求。

K-Means聚类实战

K-Means是最常用的聚类算法之一，其核心思想是通过迭代将数据点分配到K个簇中，使得每个点到其所属簇中心的距离平方和最小。

让我们使用Python的scikit-learn库实现K-Means聚类。首先准备一个客户细分的数据集：

import pandas as pd
from sklearn.datasets import make_blobs

# 生成模拟数据
X, y = make_blobs(n_samples=300, centers=4, cluster_std=0.60, random_state=0)

# 可视化数据
import matplotlib.pyplot as plt
plt.scatter(X[:, 0], X[:, 1], s=50)
plt.show()

然后应用K-Means算法：

from sklearn.cluster import KMeans

# 使用肘部法则确定最佳K值
wcss = []
for i in range(1, 11):
    kmeans = KMeans(n_clusters=i, init='k-means++', max_iter=300, n_init=10, random_state=0)
    kmeans.fit(X)
    wcss.append(kmeans.inertia_)

# 绘制肘部图
plt.plot(range(1, 11), wcss)
plt.title('肘部法则')
plt.xlabel('簇数量')
plt.ylabel('WCSS')  # 簇内平方和
plt.show()

根据肘部法则确定最佳K值后，进行最终聚类：

# 应用K-Means聚类
kmeans = KMeans(n_clusters=4, init='k-means++', max_iter=300, n_init=10, random_state=0)
pred_y = kmeans.fit_predict(X)

# 可视化聚类结果
plt.scatter(X[:,0], X[:,1], c=pred_y, s=50, cmap='viridis')
centers = kmeans.cluster_centers_
plt.scatter(centers[:, 0], centers[:, 1], c='red', s=200, alpha=0.5)
plt.show()

通过聚类分析，我们可以将客户分成不同的群体，针对每个群体制定个性化的营销策略。

DBSCAN聚类应用

与K-Means不同，DBSCAN是一种基于密度的聚类算法，特别适合处理不规则形状的簇和包含噪声的数据集。

让我们使用Python实现DBSCAN算法：

from sklearn.cluster import DBSCAN
from sklearn.datasets import make_moons

# 生成半月形数据
X, y = make_moons(n_samples=200, noise=0.05, random_state=0)

# 应用DBSCAN聚类
dbscan = DBSCAN(eps=0.3, min_samples=5)
clusters = dbscan.fit_predict(X)

# 可视化结果
plt.scatter(X[:, 0], X[:, 1], c=clusters, s=50, cmap='viridis')
plt.show()

DBSCAN不需要预先指定簇的数量，而是通过两个参数控制聚类结果：