Seaborn案例分析
本文将租房网站上北京地区的租房数据作为参考,运用前面所学到的数据分析知识,带领大家一起来分析真实数据,并以图表的形式得到以下统计指标:
(1)统计每个区域的房源总数量,并使用热力图分析房源位置分布情况
(2)使用条形图分析哪种户型的数量最多、更受欢迎
(3)统计每个区域的平均租金,并结合柱状图和折线图分析各区域的房源数量和租金情况
(4)统计面积区间的市场占有率,并使用饼图绘制各区间所占的比例
基本数据介绍
将爬到的数据下载到本地,并保存在“链家北京租房数据.csv”文件中,打开该文件后可以看到里面有很多条(本案例爬取的数据共计8224条)信息,具体如下图所示:
数据读取
准备好数据后,我们便可以使用 Pandas读取保存在CSV文件的数据,并将其转换成DataFrame对象展示便于后续操作这些数据。
首先,读取数据:
1 | import pandas as pd |
读取效果如下:
数据预处理
尽管从链家官网上直接爬取下来的数据大部分是比较规整的,但或多或少还是会存在一些问题,不能直接用做数据分析。为此,在使用前需要对这些数据进行一系列的检测与处理,包括处理重复值和缺失值、统一数据类型等,以保证数据具有更高的可用性。
重复值和空值处理
预处理的前两步就是检查缺失值和重复值。如果希望检查准备的数据中是否存在重复的数据,则可以通过Pandas中的 duplicated()方法完成。接下来,通过 duplicated()方法对北京租房数据进行检测,只要有重复的数据就会映射为True,具体代码如下:
1 | # 重复数据检测 |
由于数据量相对较多,所以在Jupyter NoteBook工具中有一部分数据会省略显示,但是从输出结果中仍然可以看到有多条返回结果为True的数据,这表明有重复的数据。这里,处理重复数据的方式是将其删除。接下来,使用 drop_duplicates()方法直接删除重复的数据,具体代码如下。
1 | # 删除重复数据 |
与上一次输出的行数相比,可以很明显地看到减少了很多条数据,只剩下了5773条数据。
对数据重复检测完成之后,便可以检测数据中是否存在缺失值,我们可以直接使用 dropna()方法检测并删除缺失的数据,具体代码如下:
1 | # 删除缺失数据 |
经过缺失数据检测之后,可以发现当前数据的总行数与之前相比没有发生任何变化。因此我们断定准备好的数据中并不存在缺失的数据。
数据转换类型
在这套租房数据中,“面积(m^2)”一列的数据里面有中文字符,说明这一列数据都是字符串类型的。为了方便后续对面积数据进行数学运算,所以需要将“面积(m)”一列的数据类型转换为float类型,具体代码如下:
1 | # 创建一个空数组 |
除此之外,在“户型”一列中,大部分数据显示的是“室厅”,只有个别数据显示的是“\房间*卫”(比如索引8219对应的一行)。为了方便后期的使用,需要将“房间”替换成“室”,以保证数据的一致性。
接下来,使用 Pandas的replace()方法完成替换数据的操作,具体代码如下:
1 | # 获取“户型”一列数据 |
通过比较处理前与处理后的数据可以发现,索引为8219的户型数据已经由“4房间2卫”变成“4室2卫”,说明数据替换成功。
图表分析
数据经过预处理以后,便可以用它们来做分析了,为了能够更加直观地看到数据的变化,这里,我们采用图表的方式来辅助分析。
房源数量、位置分布分析
如果希望统计各个区域的房源数量,以及查看这些房屋的分布情况,则需要先获取各个区的房源。为了实现这个需求,可以将整个数据按照“区域”一列进行分组。
为了能够准确地看到各区域的房源数量,这里只需要展示“区域”与“数量”这两列的数据即可。因此,先创建一个空的 DataFrame对象,然后再将各个区域计算的总数量作为该对象的数据进行展示,具体代码如下:
1 | # 创建一个DataFrame对象,该对象只有两列数据:区域和数量 |
接下来,通过 Pandas的 groupby()方法将 file_data对象按照“区域”一列进行分组,并利用count()方法统计每个分组的数量,具体代码如下:
1 | # 按“区域”列将file_data进行分组,并统计每个分组的数量 |
通过 sort_values()方法对new_df对象排序,按照从大到小的顺序进行排列,具体代码如下:
1 | # 按“数量”一列从大到小排列 |
通过输出的排序结果可以看出,房源数量位于前的区域分别是朝阳区、海淀区、丰台区。
户型数量分析
随着人们生活水平的提高,以及各住户的生活需求,开发商设计出了各种各样的户型供人们居住。接下来我们来分析一下户型,统计租房市场中哪种户型的房源数量偏多,并筛选出数量大于50的户型。
首先,我们定义一个函数来计算各种户型的数量,具体代码如下:
1 | # 定义函数,用于计算各户型的数量 |
程序输出了一个字典,其中,字典的键表示户型的种类,值表示该户型的数量。使用字典推导式将户型数量大于50的元素筛选出来,并将筛选后的结果转换成 DataFrame对象,具体代码如下:
1 | # 使用字典推导式 |
为了能够更直观地看到户型数量间的差异,我们可以使用条形图进行展示,其中,条形图纵轴坐标代表户型种类,横坐标代表数量体代码如下:
1 | import matplotlib.pyplot as plt |
运行结果如下图所示:
通过图可上以清晰地看出,整个租房市场中户型数量较多分别为“2室1厅”、“1室1厅”、“3室1厅”的房屋,其中,“2室1厅”户型的房屋在整个租房市场中是数量最多的。
平均租金分析
为了进一步剖析房屋的情况,接下来,我们来分析一下各地区目前的平均租金情况。计算各区域房租的平均价格与计算各区域户型数量的方法大同小异,首先创建一个 DataFrame对象,具体代码如下:
1 | # 新建一个DataFrame对象,设置房租总金额和总面积初始值为0 |
接下来,按照“区域”一列进行分组,然后调用sum()方法分别对房租金额和房屋面积执行求和计算,具体代码如下:
1 | # 求总金额和总面积 |
计算出各区域房租总金额和总面积之后,便可以对每平方米的租金进行计算。在df_all对象的基础上增加一列,该列的名称为“每平方米租金(元)”,数据为求得的每平方米的平均价格,具体代码如下:
1 | # 计算各区域每平米房租价格,并保留两位小数 |
为了能更加全面地了解到各个区域的租房数量与平均租金,我们可以将之前创建的 new_df对象(各区域房源数量)与df_all对象进行合并展示,由于这两个对象中都包含“区域”一列,所以这里可以采用主键的方式进行合并,也就是说通过 merge()函数来实现,具体代码如下:
1 | #合并new_df与df_all |
合并完数据以后,就可以借用图表来展示各地区房屋的信息,其中,房源的数量可以用柱状图中的条柱表示,每平方米租金可以用折线图中的点表示,具体代码如下:
1 | num = df_merge["数量"] |
运行结果如下:
面积区间分析
下面我们将房屋的面积数据按照一定的规则划分成多个区间,看一下各面积区间的上情况,便于分析租房市场中哪种房屋类型更好出租,哪个面积区间的相房人数最多。
要想将数据划分为若干个区间,则可以使用Pame中的cut()函数来实现,首先,使用max()与min()方法分别计算出房屋面积的最大值和最小值,具体代码如下:
1 | # 查看房屋的最大面积和最小面积 |
在这里,我们参照链家网站的面积区间来定义,将房屋面积划分为8个区间。然后使用describe()方法显示各个区间出现的次数(counts表示)以及频率(freps表示),具体代码如下:
1 | # 面积划分 |
接着,使用饼图来展示各面积区间的分布情况,具体代码如下:
1 | area_percentage = (area_cut_datal['fregs'].values)*100 |
运行结果如图所示:
通过上图可以看出,50-70平方米的房屋在租房市场中占有率最大。总体看来,租户主要以120平方米以下的房屋为租住对象,其中50~70平方米以下的房屋为租户的首选对象。