1. 什么是散点图

散点图(Scatter Plot or Scatter Chart),也叫散布图,顾名思义就是由一些散乱的点组成的图表,这些点在哪个位置,是由其X值和Y值确定的。所以也叫做XY散点图。它将所有的数据以点的形式展现在直角坐标系上,以显示变量之间的相互影响程度,点的位置由变量的数值决定。

在分析独立数据时,用直方图、柏拉图就可以直接找到改善着眼点,但是要解析两个变量X、Y之间的相关性时,就要用到散点图。如钢的淬火温度和硬度,螺丝的扭矩和抗张强度,油的温度与粘度,玻璃中含铅量与抗辐射等。

人们经常用散点图来表述两个连续变量X和Y之间的关系,图中的每个点表示目标数据集中的每个样本,在直角坐标系平面上数据点的分布和因变量随自变量而变化的大致趋势。由此趋势可以选择合适的函数进行经验分布的拟合,同时散点图中常常还会拟合一些直线和曲线,以用来表示某些模型,进而找到变量之间的函数关系。

2. 散点图的作用

散点图将序列显示为一组点,值由点在图表中的位置表示,类别由图表中的不同标记表示。散点图通常用于比较跨类别的聚合数据,其应用有很多,总结两个常见的应用如下。

2.1 回归分析

散点图用于回归分析中,数据点在直角坐标系平面上的分布图,散点图表示因变量随自变量而变化的大致趋势,据此可以选择合适的函数对数据点进行拟合。

散点图经过回归分析之后,可以对相关对象进行预测分析,能让我们发现变量之间隐藏的关系,进而做出科学的决策,而不是模棱两可。比如,下面房价的散点图可以为我们直观呈现不同城市的房价上涨情况,为后续的房价政策调整做出重要的支持。

2.2 相关分析

散点图用于相关性分析中,用两组数据构成多个坐标点,考察坐标点的分布,判断两变量之间是否存在某种关联或总结坐标点的分布模式。

通过观察散点图上数据点的分布情况,我们可以推断出变量间的相关性。如果变量之间不存在相互关系,那么在散点图上就会表现为随机分布的离散的点,如果存在某种相关性,那么大部分的数据点就会相对密集并以某种趋势呈现。

散点图核心的价值在于发现变量之间的关系,千万不要简单地将这个关系理解为线性回归关系。变量间的关系有很多,如线性关系、指数关系、对数关系等等,当然,没有关系也是一种重要的关系。

数据的相关关系主要分为:正相关(两个变量值同时增长)、负相关(一个变量值增加另一个变量值下降)、不相关、线性相关、指数相关等,表现在散点图上的大致分布如下图所示。那些离点集群较远的点我们称为离群点或者异常点。

从PDCA的角度,散点图的应用总结如下:

3. 散点图的变形

基于应用场景不同,散点图有很多变形,下面列出了几种常见变形。

3.1 散点图矩阵

当欲同时考察多个变量间的相关关系时,若一一绘制它们间的简单散点图,十分麻烦。此时可利用散点图矩阵来同时绘制各自变量间的散点图,这样可以快速发现多个变量间的主要相关性,这一点在进行多元线性回归时显得尤为重要。 下面的散点图矩阵展示球队总积分、胜、传球成功率和射门的关系。

3.2 三维散点图

在散点图矩阵中虽然可以同时观察多个变量间的联系,但是两两进行平面散点图的观察的,有可能漏掉一些重要的信息。三维散点图就是在由3个变量确定的三维空间中研究变量之间的关系,由于同时考虑了3个变量,常常可以发现在两维图形中发现不了的信息。下面的三维散点图展示球队总积分、胜、和射正的关系。

3.3 气泡图

气泡图(bubble chart)是可用于展示三个变量之间的关系。排列在工作表的列中的数据(第一列中列出 x 值,在相邻列中列出相应的 y 值和气泡大小的值)可以绘制在气泡图中。

气泡图与散点图相似,不同之处在于,气泡图允许在图表中额外加入一个表示大小的变量。实际上,这就像以二维方式绘制包含三个变量的图表一样。气泡由大小不同的标记(指示相对重要程度)表示。

4. 散点图的应用

应用散点图的好处多多,总结出常用的几点如下:

可发现原因与结果的关系:收集原因的数据与结果的数据,相对比较。

绘出散点图,对结果一目了然:在散点图内,将原因和结果的数据点以X、Y坐标表示。

可判断是有关联或是没有关联:由散点图可以清楚了解两组数据间的关系。

注意:如果收集到的数据在图上无法判定,则应先与层别,再行点入绘成散布图。

下表所列数据为收集的某钢件的淬火温度X与硬度Y记录表。两个变量淬火温度X和硬度Y之间是否有相关性?

如果只看上面表格中的数据,能看出上面的数据有什么特征吗?肯定不能,但是我们将其绘制成散点图,其数据明显具有一定的趋势。

如果我们给其添加趋势线就更明显了。

点赞(0) 打赏

评论列表 共有 0 条评论

暂无评论

微信小程序

微信扫一扫体验

立即
投稿

微信公众账号

微信扫一扫加关注

发表
评论
返回
顶部