[Python] 散点图（二维散点图、三维散点图、散点图矩阵）_禾木页_聚类分析二维散点图

大大的周 02-07 6093

1 两主特征：二维散点图

1.1 二维散点图

1.2 二维分类散点图

1.3 气泡图

2 三主特征：三维散点图

2.1 三维散点图

2.2 三维分类散点图

3 多主特征：二维散点图矩阵

3.1 二维散点图矩阵

3.2 二维分类散点图矩阵

以python自带数据鸢尾花数据为例，导入需要用到的包和数据。注：除此步骤外，以下每张图对于的代码段可单独使用，可直接跳转至需要的图。

#下载和导入需要的库 pip install numpy pip install scipy import os import pandas as pd import numpy as np import matplotlib.pyplot as plt 1 两主特征：二维散点图 1.1 二维散点图

以python自带数据鸢尾花数据为例。

#导入鸢尾花数据，并重构数据框 from sklearn.datasets import load_iris iris = load_iris() df = pd.DataFrame(iris.data[:],columns=iris.feature_names[:]) #绘制前两个特征的二维散点图 plt.scatter(df['sepal length (cm)'], df['sepal width (cm)'], alpha=0.8) plt.xlabel('sepal length (cm)') # 横坐标轴标题 plt.ylabel('sepal width (cm)') # 纵坐标轴标题 plt.show()

1.2 二维分类散点图

根据鸢尾花数据集前两个特征进行K-means聚类，聚成4类后在上述基础上在散点图中区分这四类。

#导入鸢尾花数据，并重构数据框 from sklearn.datasets import load_iris iris = load_iris() df = pd.DataFrame(iris.data[:],columns=iris.feature_names[:]) #在二维散点图之上，区别某些特征 #根据前两个特征：利用K-means聚类将数据聚成四类 pip install sklearn from sklearn.cluster import KMeans estimator = KMeans(n_clusters=4) #构造聚类器 estimator.fit(df.iloc[:,0:2]) #聚类 label_pred = estimator.labels_ #获取聚类标签 df['label'] = label_pred #在原数据表显示聚类标签 #绘制k-means结果 x0 = df[label_pred == 0] x1 = df[label_pred == 1] x2 = df[label_pred == 2] x3 = df[label_pred == 3] plt.scatter(x0.iloc[:, 0], x0.iloc[:, 1], c = "red", marker='o', label='label0') plt.scatter(x1.iloc[:, 0], x1.iloc[:, 1], c = "green", marker='*', label='label1') plt.scatter(x2.iloc[:, 0], x2.iloc[:, 1], c = "blue", marker='+', label='label2') plt.scatter(x3.iloc[:, 0], x3.iloc[:, 1], c = "yellow", marker='^', label='label3') plt.xlabel('sepal length (cm)') plt.ylabel('sepal width (cm)') plt.legend(loc=2) plt.show()

1.3 气泡图

二维分类散点图是在两个主特征的基础上，叠加一个分类特征

若在两个主特征的基础上，还要展示另外一个连续特征，可以使用气泡图。

这里假设iris的第三个为需要展示的另一个连续特征（仅做方法展示用，实践中iris的第三个特征与前两个特征是同类别的，不适合用气泡图，用下文所述的三维散点图或者散点图矩阵更合适。）

#导入鸢尾花数据，并重构数据框 from sklearn.datasets import load_iris iris = load_iris() df = pd.DataFrame(iris.data[:],columns=iris.feature_names[:]) #假设iris的第三个特征展示为为气泡大小 fea = df['petal length (cm)'] plt.scatter(df['sepal length (cm)'], df['sepal width (cm)'], s=fea*100, c='purple', alpha=0.4, edgecolors="grey", linewidth=2) plt.xlabel('sepal length (cm)') # 横坐标轴标题 plt.ylabel('sepal width (cm)') # 纵坐标轴标题 plt.title('s=fea*100, c=purple',verticalalignment='bottom') plt.show() #参数说明 # s：表征气泡大小的变量 # c：颜色，若想要彩色气泡，可以给c赋值，如c=fea # alpha：不透明度 # edgecolors：气泡描边的颜色 # linewidth：气泡描边大小

2 三主特征：三维散点图 2.1 三维散点图

?考虑鸢尾花数据集前三个特征，绘制三维散点图。

#导入鸢尾花数据，并重构数据框 from sklearn.datasets import load_iris iris = load_iris() df = pd.DataFrame(iris.data[:],columns=iris.feature_names[:]) #根据鸢尾花数据前三个特征，绘制三维散点图 import matplotlib.pyplot as plt from mpl_toolkits.mplot3d import Axes3D # 空间三维画图 #设置x、y、z轴 x=df['sepal length (cm)'] y=df['sepal width (cm)'] z=df['petal length (cm)'] #绘图 fig = plt.figure() ax = Axes3D(fig) ax.scatter(x, y, z) # 添加坐标轴 ax.set_xlabel('sepal length (cm)', fontdict={'size': 10, 'color': 'black'}) ax.set_ylabel('sepal width (cm)', fontdict={'size': 10, 'color': 'black'}) ax.set_zlabel('petal length (cm)', fontdict={'size': 10, 'color': 'black'}) plt.show()

2.2 三维分类散点图

根据鸢尾花数据集前三个特征进行K-means聚类，聚成4类后在上述基础上在散点图中区分这四类。

#导入鸢尾花数据，并重构数据框 from sklearn.datasets import load_iris iris = load_iris() df = pd.DataFrame(iris.data[:],columns=iris.feature_names[:]) #根据前三个特征：利用K-means聚类将数据聚成四类 pip install sklearn from sklearn.cluster import KMeans estimator = KMeans(n_clusters=4) #构造聚类器 estimator.fit(df.iloc[:,0:3]) #聚类 label_pred = estimator.labels_ #获取聚类标签 df['label'] = label_pred #在原数据表显示聚类标签 #根据鸢尾花数据前三个特征，绘制三维分类散点图 import matplotlib.pyplot as plt from mpl_toolkits.mplot3d import Axes3D # 空间三维画图 #设置x、y、z轴 x=df['sepal length (cm)'] y=df['sepal width (cm)'] z=df['petal length (cm)'] #绘图 fig = plt.figure() ax = Axes3D(fig) ax.scatter(x, y, z, c=label_pred) #c指颜色，c=label_pred刚好四个分类四个颜色。相比普通三维散点图只改了这里！！！ # 添加坐标轴 ax.set_xlabel('sepal length (cm)', fontdict={'size': 10, 'color': 'black'}) ax.set_ylabel('sepal width (cm)', fontdict={'size': 10, 'color': 'black'}) ax.set_zlabel('petal length (cm)', fontdict={'size': 10, 'color': 'black'}) plt.show()

3 多主特征：二维散点图矩阵 3.1 二维散点图矩阵

如果有多个特征需要绘图，比如鸢尾花有4个特征，可以绘制二维散点图矩阵。

#导入鸢尾花数据，并重构数据框 from sklearn.datasets import load_iris iris = load_iris() df = pd.DataFrame(iris.data[:],columns=iris.feature_names[:]) #散点图矩阵 import seaborn as sns fig = plt.figure(figsize=(15, 25)) sns.pairplot(data=df, vars=df.iloc[:,0:4], diag_kind="kde", markers="+") plt.show() # 参数说明： # data指定pairplot()要用到的数据源 # hue指定将data中的数据区分显示的依据 # vars指定data中要绘制成散点矩阵图的数据 # diag_kind指对角线图的类型{'auto', 'hist', 'kde'}

3.2 二维分类散点图矩阵

如果进一步进行分类，可绘制二维分类散点图矩阵。

#导入鸢尾花数据，并重构数据框 from sklearn.datasets import load_iris iris = load_iris() df = pd.DataFrame(iris.data[:],columns=iris.feature_names[:]) #根据前四个特征：利用K-means聚类将数据聚成四类 pip install sklearn from sklearn.cluster import KMeans estimator = KMeans(n_clusters=4) #构造聚类器 estimator.fit(df.iloc[:,0:4]) #聚类 label_pred = estimator.labels_ #获取聚类标签 df['label'] = label_pred #在原数据表显示聚类标签 #绘制二维分类散点图矩阵 import seaborn as sns fig = plt.figure(figsize=(15, 25)) sns.pairplot(data=df, hue='label', vars=df.iloc[:,0:4]) plt.show() # 参数说明： # data指定pairplot()要用到的数据源，hue指定将data中的数据区分显示的依据 # vars指定data中要绘制成散点矩阵图的数据"