Seaborn绘制统计图形

Matplotlib虽然已经是比较优秀的绘图库了，但是它有个今人头疼的问题，那就是API使用过于复杂，它里面有上千个函数和参数，属于典型的那种可以用它做任何事，却无从下手。

Seaborn基于 Matplotlib核心库进行了更高级的API封装，可以轻松地画出更漂亮的图形，而Seaborn的漂亮主要体现在配色更加舒服，以及图形元素的样式更加细腻。

不过，使用Seaborn绘制图表之前，需要安装和导入绘图的接口，具体代码如下:

1 2	# 安装 pip3 install seaborn

1 2	# 导入 import seaborn as sns

可视化数据的分布

当处理一组数据时，通常先要做的就是了解变量是如何分布的。

对于单变量的数据来说采用直方图或核密度曲线是个不错的选择
对于双变蚩来说，可采用多面板图形展现，比如散点图、二维直方图、核密度估计图形等。

针对这种情况，Seaborn库提供了对单变量和双变量分布的绘制函数，如 displot()函数、jointplot()函数，下面来介绍这些函数的使用，具体内容如下:

绘制单变量分布

可以采用最简单的直方图描述单变量的分布情况。Seaborn中提供了 distplot()函数，它默认绘制的是一个带有核密度估计曲线的直方图。distplot()函数的语法格式如下：

1	seaborn.distplot(a, bins=None, hist=True, kde=True, rug=False, fit=None, color=None)

上述函数中常用参数的含义如下:

(1)a: 表示要观察的数据，可以是 Series、一维数组或列表。
(2)bins: 用于控制条形的数量。
(3)hist: 接收布尔类型，表示是否绘制(标注)直方图。
(4)kde: 接收布尔类型，表示是否绘制高斯核密度估计曲线，
(5)rug: 接收布尔类型，表示是否在支持的轴方向上绘制rugplot。

通过 distplot()函数绘制直方图的示例如下。

import numpy as np
np.random.seed(0) # 确定随机数生成器的种子,如果不使用每次生成图形不一样
arr = np.random.randn(100) # 生成随机数组

ax = sns.distplot(arr, bins=10, hist=True, kde=True, rug=True) # 绘制直方图

上述示例中，首先导入了用于生成数组的numpy库，然后使用seaborn调用set()函数获取默认绘图，并且调用random模块的seed函数确定随机数生成器的种子，保证每次产生的随机数是一样的，接着调用randn()函数生成包含100个随机数的数组，最后调用distplot()函数绘制直方图。

运行结果如下图所示:

从上图中看出:

直方图共有10个条柱，每个条柱的颜色为蓝色，并且有核密度估计曲线。
根据条柱的高度可知，位于-1-1区间的随机数值偏多，小于-2的随机数值偏少。

通常，采用直方图可以比较直观地展现样本数据的分布情况，不过，直方图存在一些问题，它会因为条柱数量的不同导致直方图的效果有很大的差异。为了解决这个问题，可以绘制核密度估计曲线进行展现。

核密度估计是在概率论中用来估计未知的密度函数，属于非参数检验方法之一，可以比较直观地看出数据样本本身的分布特征。

通过 distplot()函数绘制核密度估计曲线的示例如下。

# 创建包含500个位于[0, 100]之间整数的随机数组
array_random = np.random.randint(0, 100, 500)

# 绘制核密度估计曲线
sns.distplot(array_random, hist=False, rug=True)

上述示例中，首先通过 random.randint()函数返回一个最小值不低于0、最大值低于100的500个随机整数数组然后调用displot()函数绘制核密度估计曲线。

运行结果如图所示:

从上图中看出，图表中有一条核密度估计曲线，并且在x轴的上方生成了观测数值的小细条。

绘制双变量分布

两个变量的二元分布可视化也很有用。在Seaborn中最简单的方法是使用jointplot()函数，该函数可以创建一个多面板图形，比如散点图、二维直方图、核密度估计等，以显示两个变量之间的双变量关系及每个变量在单坐标轴上的单变量分布。

jointplot()函数的语法格式如下。

1 2	seaborn.jointplot(x, y, data=None, kind='scatter', stat_func=None, color=None, ratio=5, space=0.2, dropna=True)

上述函数中常用参数的含义如下:

(1)kind: 表示绘制图形的类型。
(2)stat_func: 用于计算有关系的统计量并标注图。
(3)color: 表示绘图元素的颜色，
(4)size: 用于设置图的大小(正方形)。
(5)ratio: 表示中心图与侧边图的比例。该参数的值越大，则中心图的占比会越大。
(6)space: 用于设置中心图与侧边图的间隔大小。

下面以散点图、二维直方图、核密度估计曲线为例，为大家介绍如何使用 Seaborn绘制这些图形。

绘制散点图

调用 seaborn.jointplot()函数绘制散点图的示例如下:

import numpy as np
import pandas as pd
import seaborn as sns

# 创建DataFrame对象
dataframe_obj = pd.Dataframe({"x": np.random.randn(500), "y": np.random.randn(500)})

# 绘制散布图
sns.jointplot(x="x", y="y", data=dataframe_obj)

上述示例中，首先创建了一个 DataFrame对象 dataframe_obj作为散点图的数据，其中x轴和y轴的数据均为500个随机数，接着调用 jointplot()函数绘制一个散点图，散点图x轴的名称为“x”，y轴的名称为“y”。

运行结果如图所示:

绘制二维直方图

二维直方图类似于“六边形”图，主要是因为它显示了落在六角形区域内的观察值的计数，适用于较大的数据集。当调用 jointplot()函数时，只要传入kind="hex"，就可以绘制二维直方图，具体示例代码如下：

1 2	# 绘制二维直方图 sns.jointplot(x="x", y="y", data=dataframe_obj, kind="hex")

运行结果如图所示：

从六边形颜色的深浅，可以观察到数据密集的程度，另外，图形的上方和右侧仍然给出了直方图。注意，在绘制二维直方图时，最好使用白色背景。

绘制核密度估计图形

利用核密度估计同样可以查看二元分布，其用等高线图来表示。当调用jointplot()函数时只要传入ind="kde"，就可以绘制核密度估计图形，具体示例代码如下：

1	sns.jointplot(x="x", y="y", data=dataframe_obj, kind="kde" )

上述示例中，绘制了核密度的等高线图，另外，在图形的上方和右侧给出了核密度曲线图。

运行结果如图所示:

通过观等高线的颜色深浅，可以看出哪个范围的数值分布的最多，哪个范围的数值分布的最少。

绘制成对的双变量分布

要想在数据集中绘制多个成对的双变量分布，则可以使用pairplot()函数实现，该函数会创建一个坐标轴矩阵，并且显示Datafram对象中每对变量的关系。另外，pairplot()函数也可以绘制每个变量在对角轴上的单变量分布。

接下来，通过 sns.pairplot()函数绘制数据集变量间关系的图形，示例代码如下:

# 加载seaborn中的数据集
dataset = sns.load_dataset("iris")

dataset.head()

上述示例中，通过load_dataset()函数加载了seaborn中内置的数据集，根据iris数据集绘制多个双变量分布。

1 2	# 绘制多个成对的双变量分布 sns.pairplot(dataset)

结果如下图所示:

文章作者: LUCKY

文章链接: https://www.luckylyh.top/post/81e6a0aa.html

机器学习 Seaborn

打赏

微信
支付宝

相关推荐

2025-03-29

Seaborn分类数据绘图

数据集中的数据类型有很多种，除了连续的特征变量之外，最常见的就是类别型的数据了，比如人的性别、学历、爱好等，这些数据类型都不能用连续的变量来表示，而是用分类的数据来表示。 Seaborn针对分类数据提供了专门的可视化函数，这些函数大致可以分为如下三种: 分类数据散点图: swarmplot()与 stripplot()。类数据的分布图: boxplot()与 violinplot()。分类数据的统计估算图: barplot()与 pointplot()。类别散点图通过 stripplot()函数可以画一个散点图， stripplot0函数的语法格式如下。 1n.stripplot(x=None, y=None, hue=None, data=None, order=None, hue_order=None, jitter=False) 上述函数中常用参数的含义如下: (1)x，y，hue: 用于绘制长格式数据的输入。 (2)data: 用于绘制的数据集。如果x和y不存在，则它将作为宽格式，否则将作为长格式。 (3)jitter:...

2025-03-29

Seaborn案例分析

本文将租房网站上北京地区的租房数据作为参考，运用前面所学到的数据分析知识，带领大家一起来分析真实数据，并以图表的形式得到以下统计指标: (1)统计每个区域的房源总数量，并使用热力图分析房源位置分布情况 (2)使用条形图分析哪种户型的数量最多、更受欢迎 (3)统计每个区域的平均租金，并结合柱状图和折线图分析各区域的房源数量和租金情况 (4)统计面积区间的市场占有率，并使用饼图绘制各区间所占的比例基本数据介绍将爬到的数据下载到本地，并保存在“链家北京租房数据.csv”文件中，打开该文件后可以看到里面有很多条(本案例爬取的数据共计8224条)信息，具体如下图所示：数据读取准备好数据后，我们便可以使用 Pandas读取保存在CSV文件的数据，并将其转换成DataFrame对象展示便于后续操作这些数据。首先，读取数据: 123456import pandas as pdimport numpy as np# 读取链家北京租房信息file_data =...

2025-03-13

Matplotlib基础绘图功能

完善原始折线图 — 给图形添加辅助功能为了更好地理解所有基础绘图功能，我们通过天气温度变化的绘图来融合所有的基础API使用。需求：画出某城市11点到12点1小时内每分钟的温度变化折线图，温度范围在15度~18度。效果：准备数据并画出初始折线图1234567891011121314151617import matplotlib.pyplot as pltimport random# 画出温度变化图# 0、准备x,y坐标的数据x = range(60)y_hengyang = [random.uniform(15, 18) for i in x]# 1、创建画布plt.figure(figsize=(20, 8), dpi=80)# 2、绘制折线图plt.plot(x, y_hengyang)# 3、显示图像plt.show() 添加自定义x,y刻度 plt.xticks(x, **kwargs) x:要显示的刻度值 plt.yticks(y, **kwargs) y:要显示的刻度值 12345678910# 2.1 添加x,y轴刻度#...

2025-03-18

Matplotlib常见图像绘制

Matplotlib能够绘制折线图、散点图、柱状图、直方图、饼图。我们需要知道不同的统计图的意义，以此来决定选择哪种统计图来呈现我们的数据。常见图形种类及意义折线图：以折线的上升或下降来表示统计数量的增减变化的统计图。特点：能够显示数据的变化趋势，反映事物的变化情况。(变化) api: plt.plot(x, y) 完整代码： 123456789101112131415161718import matplotlib.pyplot as pltimport numpy as np# 0.准备数据x = np.linspace(0, 8, 1000)y = np.linspace(0, 8, 1000)# 1.创建画布plt.figure(figsize=(20, 8), dpi=100)# 2.绘制函数图像plt.plot(x, y)# 2.1 添加网格显示plt.grid()#...

2025-03-21

N维数组-ndarray

ndarray的使用ndarray的属性数组属性反映了数组本身固有的信息。属性名字属性解释 ndarray.shape 数组维度的元组 ndarray.ndim 数组维数 ndarray.size 数组中的元素数量 ndarray.itemsize 一个数组元素的长度（字节） ndarray.dtype 数组元素的类型 ndarray的形状首先创建一些数组。 1234# 创建不同形状的数组>>> a = np.array([[1,2,3],[4,5,6]])>>> b = np.array([1,2,3,4])>>> c = np.array([[[1,2,3],[4,5,6]],[[1,2,3],[4,5,6]]]) 分别打印出形状。 1234567>>> a.shape>>> b.shape>>> C.shape(2,3) # 二维数组(4,) # 一维数组(2,2,3) #...

2025-03-22

ndarray的基本操作

数组的索引、切片一维、二维、三维的数组如何索引? 直接进行索引，切片对象[:, :] –先行后列二维数组索引方式: 举例: 获取第一个股票的前3个交易日的涨跌幅数据 12# 二维的数组，两个维度stock_change[0, 0:3] 返回结果: 1array([-0.03862668, -1.46128096, -0.75596237]) 三维数组索引方式: 12345678# 三维a1 = np.array([[[1,2,3], [4,5,6]], [[12,3,34], [5,6,7]]])# 返回结果array([[[1,2,3], [4,5,6]], [[12,3,34], [5,6,7]]])# 索引、切片>>> a1[0,0,1] # 输出:2 形状修改ndarray.reshape(shape, order) 返回一个具有相同数据域，但shape不一样的视图行、列不进行互换 123# 在转换形状的时候，一定要注意数组的元素匹配stock_change.reshape([5,...