Skip to content

第七章 高维多元数据

7.1 高维数据可视化

高维多元数据,这其中蕴含了两个概念,一个是高维,一个是多元。那什么是高维,什么是多元?高维指数据具有多个独立属性,多元指数据具有多个相关属性。 现如今,信息和经济发展如此迅速,人们对于问题探究的更加深入,更加复杂,更加庞大,使得要测试判定的方面愈发的多,而可以测出的成分含量却越来越小,这就导致了研究对象,其数据维度越发的高,有时候可达数十,数百,甚至是成千上万维。虽然高维的数据能够提供更加丰富更加详细的信息,更能帮助人们客观地了解研究对象,但是,数据维度过高,也给后续的数据处理分析可视化工作,带来了巨大的挑战。 一般被研究对象的各个变量之间都存在着比较复杂的关系,而随着用来描述这些对象的自变量的增多,各个变量之间存在各种复杂的相互关系的概率也会提高很多,从而进一步加大了对这类对象分析和处理的难度。 高维数据,其实简单来说就是多维数据。在我们平常实际业务中,最常见的就是一维或者二维数据,三维数据有时候也会经常遇到。所谓一维就是一条线,线上的每个点的位置可以用一个坐标值来表示,所以叫一维数据。而二维就是一个平面,平面中的某个点的位置可以用两个坐标值来表示,所以叫二维数据。三维是指在平面二维系中又加入了一个方向想量构成的空间系,就是坐标轴的三个轴,即x轴,y轴,z轴 ,其中x表示左右空间,y表示上下空间,z表示前后空间,这样就形成了人的视觉立体感,三维动画就是用三维制作软件制作出来的立体动画,三维是现在发展的趋势。下图7-1就是典型的一维图,图7-2就是典型的二维图,图7-3就是最简单的三维立体图:

《DataFocus 数据可视化》第五章 时变数据可视化 图7-1
经典一维图
《DataFocus 数据可视化》第五章 时变数据可视化 图7-1 经典一维图
《DataFocus 数据可视化》第五章 时变数据可视化 图7-2
经典二维图
《DataFocus 数据可视化》第五章 时变数据可视化 图7-2 经典二维图
《DataFocus 数据可视化》第五章 时变数据可视化 图7-3
经典三维图
《DataFocus 数据可视化》第五章 时变数据可视化 图7-3 经典三维图

对于三维以上的数据,我们怎样在视觉空间(三维空间/二维平面)上表达?这就需要我们降维至低维空间进行可视化展示,流行学习可用来对高维数据进行降维。可分为线性以及非线性两种,其中线性的流行学习常见的有主成分分析、线形判别分析等,非线性的流形学习方法主要有等距映射、拉普拉斯特征映射、局部线性嵌入、多维标度分析、部分切空间排列算法、t-分布邻域嵌入算法等。

7.2 多元数据可视化

多元数据也被称为“多元样本值”。即对多个变量(两个或两个以上)联合观测所取得的数据,也就是多元样本的具体值。在日常生活中,我们也会经常遇到多元数据,比如我今天要吃什么,是取决于这些食物的热量有多高,是否有反式脂肪等,又或者我要买新手机,那取决于手机的像素有多高,手机的价格是多少,手机的内存怎么样,等等,这些决策通常都取决于我们对于多元数据的分析。除此之外,对于多元数据的分析,还能够帮助我们发现一些数据之间潜在的规律,并以这些规律为依据进行预测。 多元数据的可视化一直是研究和应用的热点。常用的方法包括散点图和平行坐标系。在实际中,两者有广泛的应用,和不同的演变甚至结合。 散点图虽然很常用,其每条数据都是一个点,可以减少总的像素数量以及视觉的复杂程度,但是散点图也有一定的缺点,其只能展示两个属性间的关系。

《DataFocus 数据可视化》第五章 时变数据可视化 图7-5
散点图
《DataFocus 数据可视化》第五章 时变数据可视化 图7-5 散点图
而平行图虽然解决了散点图只能展示两个属性间关系的缺点,但是其每条数据都是一条线,增加了像素数量,数据量很大的时候,就会变得很复杂,同样也无法很好地展示数据间的联系。
《DataFocus 数据可视化》第五章 时变数据可视化 图7-5
平行图
《DataFocus 数据可视化》第五章 时变数据可视化 图7-5 平行图
除上述两种常用图形以外,在现实生活中,常会用多图形协调关联的方法,来展示多元的数据。什么是多图形协调关联?就是用不同的图形来展示数据的不同属性,例如下图7-6所示,其用旭日图来展示区域信息,用柱状图来展示产品信息,用时序条形图来展示时间信息等等。
《DataFocus 数据可视化》第五章 时变数据可视化 图7-6
多图形协调关联
《DataFocus 数据可视化》第五章 时变数据可视化 图7-6 多图形协调关联