第一章 数据可视化简介
1.1 数据可视化简史
1.1.1 20世纪前的数据可视化
数据可视化有着悠久的历史,并在17世纪以来取得了长足的进步。由于计算能力的发展,20世纪在数据可视化的发展方面取得了卓越的成就。我们从历史说起,在1812年至1813年的俄罗斯战役中,绘制法国军队连续战斗失败情况的地理图形可视化可谓是数据可视化历史上的一座丰碑,因此提到数据可视化的历史,都不缺提起此事件。但是现在,同样的图形可以通过更丰富的细节和交互元素渲染出来。
1.1.2 20世纪的数据可视化发展
在20世纪早期,数据可视化领域的进展比较缓慢。人们做了一些努力来改进现有的可视化模型,但整体而言虽然可视化仍在向前发展,但是这门学科似乎没有突显出来,也很少有惊人的进步。
然而,20世纪下叶的信息技术发展,则创造了数据可视化学科的发展和繁荣,并持续至今。20世纪是个充满戏剧性的时代,各种新技术一批一批涌现,先是计算技术的革新,之后又是互联网的发明,加快了信息传播的速度,这就间接催生了数据可视化技术的发展。
1950-1975:数据可视化的发展期
约翰·图基于1962年发表了一篇论文“数据分析的未来”。在那篇论文中,他探索了数据可视化的学科,特别是开始创建可用于分析的新模型,如箱形图,悬挂根图等, Tukey的工作重振了这门学科,并开始吸引专业人士回到数据分析领域。
1967年,法国的Jaques Bertin试图在他的作品Semiologie Graphique中统一图形和演示。结果是能够提供巨大的洞察力,可以直观地生成信息,从而更好地了解统计分析。
紧接着在20世纪50年代末和60年代,人们开始采用编程语言FORTRAN,这是第一种“高级”语言,从一开始就能够创建计算机处理的统计数据,不过大大增加了要处理的信息量。在20世纪60年代后期,通过计算机创建数据可视化的过程正在进行中,并且第一批统计应用程序在20世纪70年代初开始出现。
许多形式的统计表示也在20世纪70年代早期出现,包括:傅立叶函数图,Chernoff面图,起始图,聚类和表示以及使用多维双标图。
1.1.3 21世纪后的可视化井喷
1975年—至今:互动和动态数据可视化的出现
由于时代发展过于迅速,数据可视化的发展其实是瞬息万变的,并不遵循于任何规律性的时间表或是时间轴。但Michael Friendly提出了以下可视化发展的关键节点:
1、开发了高度交互的统计计算系统,并且这些系统是常用的。这与使用编译批处理的早期命令驱动系统进行了比较。
2、实现了可视化数据分析的新方法,例如链接,刷涂,选择,聚焦等,可以应用于交互式数据模型。
3、开发了诸如盛大游览,散点图矩阵,平行坐标图等工具,因此可以更好地分析具有大量维度的数据。
4、开发了用于绘制离散的分类数据的新技术。
此外,数据可视化领域已经扩展到新的阶段,包含许多新形式的数据以及数据结构。除了提供美学上令人愉悦的简单静态可视化之外,数据可视化领域已经开始实现对显示数据的认知和感知方面的理解和展现。一个比较通用的例子是,一大批工业界商业智能产品和数据可视化软件的出现,将可视化的发展推向了新的高度,除了大量的使用交互新技术以外,一些前卫的软件如DataFocus也开始引入自然语言处理技术(NLP),增强数据分析的易用性,将数据可视化推向深入。
我们举个例子,针对上述图形,虽然理论上可以手动创建上述图像,但实际上它们需要计算能力才能实现真正商业化、经济化、数字化的价值开发。如果手工绘制的话,一个小小的错误就会使这样的图表变得无用。除此之外,整个世纪还开发了越来越强大的应用程序来实现数据可视化。这包括开发动态图形方法,允许数据用户快速,轻松,直接地处理图形及其属性。
1.2 数据可视化的意义
在过去,很多人或许对数据可视化并没有很直接的观感,因为其打交道的数据应用模式无非就是EXCEL或是固定的数据模型或工具。但是随着大数据时代的到来,数据量和数据复杂性增加,模型的复杂性也随之增加。此时对于企业来说,内部业务系统之间的数据流通和分析结果的可视化对企业来说是是非常关键的工作,同时也是一个跨越性的挑战。
数据的可视化可以将复杂分析结果以丰富的图表信息的方式呈现给读者。然当这一切必须建立在分析人员对目标业务活动有深刻的了解才能更好的进行可视化展现。就如塔夫特所说,“图形表现数据。实际上比传统的统计分析法更加精确和有启发性。”对于广大的编辑、设计师、运营分析师、大数据研究者等等都需要从不同维度、不同层面、不同粒度的数据处理统计中,借助图表和信息图的方式为用户(只获得信息)、阅读者(消费信息)及管理者(利用信息进行管理和决策)呈现不同于表格式的分析结果。
数据可视化技术综合运用计算机图形学、图像、人机交互等,将采集、清洗、转换、处理过的符合标准和规范的数据映射为可识别的图形、图像、动画甚至视频,并允许用户与数据可视化进行交互和分析。而任何形式的数据可视化都会由丰富的内容、引人注意的视觉效果、精细的制作三个要素组成,概括起来就是新颖而有趣、充实而高效、美感且悦目三个特征。
不仅如此,很多基于数字化交易企业的数据量每天都在急速增长,并且来源多而杂乱,因此找到准确、精细、相关的数据变得更加困难和重要。可视化能够让决策者精准的洞察数据反映的结果,如趋势、占比等,而不需要去手动读取那些困难的表格。
我们先举一个例子,对于气象行业来说,有效利用大数据可视化至关重要。天气模型会利用大量数据进行分析呈现,消费者收到的最终预测通常是几种模型的结果。企业也是一样,当预测变得越来越复杂的时候,一种让决策者能够理解并快速采取行动的方式,或者说获取数据分析结果并传递有效信息,是企业成功的必要条件。但是还有一个问题是,一旦很多决策者得到了这些结果,在没有可视化的情况下,是需要分析人员解释的。比如很多以数据分析服务为业务的乙方公司,有非常多个不同的数据源关联各类具有不同数据属性的复杂模型,那么如何以一种使其易于操作的方式向甲方解释?这也是数据可视化的存在必要性,通过正确的图形,甲方可以快速获取并解读不同维度的复杂数据结果。
所以,无论是哪种职业和应用场景,数据可视化都有一个共同的目的,那就是准确而高效、精简而全面地传递信息和知识。可视化能将不可见的数据现象转化为可见的图形符号,能将错综复杂、看起来没法解释和关联的数据,建立起联系和关联,发现规律和特征,获得更有商业价值的洞见和价值。并且利用合适的图表直截了当且清晰而直观地表达出来,实现数据自我解释、让数据说话的目的。而人类右脑记忆图像的速度比左脑记忆抽象的文字快100万倍。因此,数据可视化能够加深和强化受众对于数据的理解和记忆。
我们可以从决策者角度来感受一下可视化的魅力。这里我们使用一种非常便捷的可视化的工具—Datafocus,它易于使用并且可供多种角色的决策场景,可以使商务人士的数据决策独立,灵活和多样化。
比如原来我们看到数据表格是这样的:
下图是经过可视化之后获得的结果:
我们可以看到,可视化不仅可以做到让数据结果美观易读,更能根据可视化需求从大量数据中提取决策者想要的数据维度,达到“想要即呈现”的目的,不必花额外时间从复杂的数据表中寻找、提取及分析解读。
1.3 数据可视化的分类
在这个大数据时代,数据分析结果成了企业做决策的“依托”,就好像将军要打仗,需要战略分析人员先做一份战略。很多最后呈现的报表对于不懂数据或是IT的人员来说等同于甲骨文般的存在,而可视化是数据分析结果的有效可读性展示。企业对于可视化应做到对症下药,清楚不同场景下的不同可视化类型,无论是可视化的业务应用场景还是业务人员对可视化各个类型的沟通理解等等,我们需要的是让数据可视化真正产生价值。
对于可视化的分类并没有非常绝对的学术定义,数据分析师往往会根据数据、行业、应用场景等多方面进行分类,以让最后展示端的可视化结果最大化地匹配相应需求。
1.3.1依据数据类型分类
首先从数据本身的角度,可视化可以进行如下划分:统计数据可视化、关系数据可视化、地理空间数据可视化、时间序列数据可视化以及文本数据可视化。
1、统计数据可视化就是指对统计数据进行分析展现,统计数据一般都是存放于数据库中,以表达形式进行存储,分析统计数据也就是分析数据库表格,较为常见的可视化类库有ECharts等。
2、关系数据可视化,主要表现类似为流程图或者漏斗图的数据,数据前后之间存在一定的关系,类似点和线之间的关系。
3、地理空间数据可视化,这一类的数据中往往包含着省份、城市、经纬度等等信息,可以结合中国地图或者世界地图来进行展示。
4、时间序列数据可视化,这在数据中较为常见。一般的数据记录以时间为单位居多,分析结果有关时间趋势变动,就可以归为时间序列数据可视化。
5、文本数据可视化,也就是数据中大部分的内容是文本。像是电商的评价内容分析,分析一些关键词的出现频率以判断用户的喜好和画像,就属于文本数据可视化。
1.3.2 依据绘图阶段分类
我们在选取和制作可视化图表的时候,往往需要首先考虑区分相同类型的图形(例如列,环,蜘蛛等)的长度,高度或面积,以清楚地表达对应于不同指示符的索引值之间的对比度。这种方法将可以让受众一目了然地查看可视化后的比较、趋势等结果。另外,在制作此类数据可视化图形时,可以用数学公式用于表示精确的比例和比例。
1、 颜色可视化。通过颜色的深度来表示索引值的强度和大小。受众可以非常直观地看到指标数据值的突出部分和强调部分。
2、 图表可视化。当我们设计指标和数据时,使用具有相应实际意义的图表来组合演示将使数据图表更加生动地显示,使用户更容易理解图表所表达的主题。
3、 区域空间可视化。当指标数据的主题与区域相关时,我们通常选择使用地图作为背景。这样,用户可以直观地了解整体数据情况,还可以根据地理位置快速定位某个区域,查看详细数据。
4、 概念可视化。通过将抽象指标数据转换为熟悉的,易于理解的数据,用户更容易理解图形的含义。比如将一些抽象的指标如老客维护效果、老客互动效果转化为客户转化率、回购率增长等指标的可视化来更容易理解。
1.3.3依据图形应用场景分类
在数据可视化方面,我们知道运用恰当的图表实现数据可视化非常重要。每个图形都有其合适的应用场景,以及表现不同的突出重点。我们以DataFocus数据分析系统为例,以图形的应用场景来分类数据可视化。
1、柱形图类。柱形图的核心思想是对比,一般来说柱状图类图形需要排序使柱状图的高度单调变化来突出数据特点。
A、基础柱形图
主要运用于多个分类的数据变化或同类别各变量之间进行对比分析的场景,但要适当控制类别对象,分类过多则无法展示数据特点。
相似图表:
堆积柱状图。比较同类别各变量和不同类别变量总和差异或同类别的每个变量的比例。
B、条形图
将柱状图的双轴进行对调就转成条形图。
相似图表:
双向柱状图。当数据列中有负值时,比较同类别的正反向数值差异。
C、瀑布图
展示数据的累计变化过程,既反映了每一个时刻的涨跌情况,也反映了数值指标在每一个时刻的值。
2、折线图类。折线图类的核心思想是趋势变化,适合在整体数据而非单个数据的情况下表现变化趋势及增长幅度。
A、基础折线图
展示数据随时间或有序类别的波动情况的趋势变化。
B、面积图
将折线图进行坐标轴投影就成了面积图,用面积展示数值大小。
C、组合图(柱形图&折线图)
一个图表可以表现两个层次的信息。使用双坐标轴,表明清晰。
3、散点图类。散点图类的核心思想是研究,一般不够直观,大多时候不能直接表达结论。
A、基础散点图
用于发现各变量之间的关系,当存在大量数据点时结果更精准,比如回归分析。
B、气泡图
用气泡代替散点图的数值点,用气泡大小表示新的数值大小。
4、饼图类。饼图类的核心思想是分解,用来展示各类别占比,一般饼图细分不易过多。
A、基础饼图
用来了解数据的分布情况,用角度来映射大小。
相似图表:环形图挖空的饼图。
B、玫瑰饼图
对比不同类别的数值大小,看起来较为艺术感。
C、旭日图
旭日图在基础饼图上可表达更多层次的分解关系,展示父子层级的不同类别数据的占比。
上述为较为常用的4种可视化图形分类。当然,随着大数据时代的发展,对于数据可视化的展现也让一些其他形式的数据图形崭露头角,并且有其非常合适的应用场景。
5、仪表盘:显示一个维度数据的累积完成情况。
6、位置图:显示数据的地区分布特征,以颜色的深浅来展示区域范围数值的大小。
7、热力图:以颜色来反应数据密度,不适用于数值字段是汇总值,需要连续数值数据分布。
8、树形图:展示父子层级占比情况,用矩形面积表示占比大小,当数值相近时人眼难以辨别。
9、词云图:展现文本信息,对出现频率较高的“关键词”予以视觉上的突出。
10、雷达图:一般用来对比某项目不同属性的特点,很多游戏中使用雷达图来进行人物能力对比。
11、漏斗图:有固定流程并且环节较多的分析,可以直观地显示转化率和流失率。
12、桑基图:用来表示数据的流向。图中延伸的分支的宽度对应数据流量的大小,起始流量总和始终与结束流量总和保持平衡。
13、和弦图:一般用来表示双向关系,数据节点如果过多则不适用。
13、箱线图:用来展示一组数据分散情况,每一条横线代表分位数,盒内部的横线代表中位数,点代表异常值。
14、平行图:平行坐标图的优点是可以把多个变量并形排开,把每一个记录都以折线连接上。这样当数据量大的时候,其实可以很方便地观察各个变量的分布情况。
在总结了数据可视化分类之后,我们应在做数据可视化时注意三点。
1、设计方案考虑至少两个层次:一个是能够显示整体数据的特点或特征,以便主要受众可以快速理解图表所表达的整体概念,然后以合适的方式呈现详细的二级数据分析结果或钻取结果。
2、在进行数据可视化时,要注意图形的重合度和冲突度,特别是在显示复杂图形和多维数据时。
3、制作的视觉图表必须易于理解。在清晰的基础上才考虑进一步的美化,但绝不应该以美化为重点。