Skip to content

DataFocus和数据对话

第一章 和数据对话

随着大数据的爆发性增长,企业和组织积累了大量的数据。这些记录在数据库中、存储在服务器上的二进制编码与人类是没有任何交流可言的。但是,我们迫切的需要对这些数据进行分析,以为我们的生产、市场、营销提供可靠的决策参考。现实世界中,我们与数据发生交流的模式大部分都是通过代码实现的。

文件:《DataFocus 和数据对话》 图1-1
通过代码与数据交流
文件:《DataFocus 和数据对话》 图1-1 通过代码与数据交流

随着企业对数据的依赖度越来越高,这种低效的沟通方式严重阻碍了企业数据生产力的释放。于是更多的数据分析、可视化工具被创造出来,比如一些基于拖拽方式的数据分析工具,把与数据交流的对象从数据库工程师变成了数据分析师,对数据分析工作的效率带来极大的提高。然而这种依赖于某些具备特定技能人群的方式,仍然是以专业人员为中心的作业模式,为企业推行数字化管理带来巨大的瓶颈。

DataFocus 和数据对话图1-2
以专业人员为中心的业务模式
DataFocus 和数据对话图1-2 以专业人员为中心的业务模式

为什么不能让业务人员直接与数据对话呢?DataFocus便是这样一种大胆想法的产物,它创新的使用了搜索的方式,使得数据分析和可视化操作变得更加便捷。DataFocus运用自然语言处理(NLP)技术,将用户输入的特定问题经过语义解析引擎的处理,翻译成数据库查询语言,最后将计算结果通过智能可视化引擎进行可视化编码后呈现出来。整个交互过程就类似于通过搜索引擎与数据进行对话,用户用中文或英文提出问题,DataFocus用可视化图表进行回答。

DataFocus 和数据对话图1-3
直接与数据进行交流
DataFocus 和数据对话图1-3 直接与数据进行交流

用DataFocus的搜索式数据分析方式,看起来更像一种和数据对话的交互,每一次通过搜索框的提问,我们都能得到一个数据图表,DataFocus中称之为一个数据问答。这种接近人类自然沟通方式的交互模式,在使用上有了更好的体验,在数据分析效率上也有了极大的提高,必将引领一个数据分析领域的全新变革。

1.1 数据可视化典型流程

典型的数据可视化流程一般包含四个阶段。首先是搞清楚可视化的目标,信息传达的受众是CEO还是合作伙伴?清晰的问题定义,有助于后续准确的界定数据收集的范围;其次就是数据的收集和清洗整理,这是可视化工作中最基础也是最重要的工作。错误的数据得不到正确的结论,因此多方面收集数据,进行比对和核实,以确保数据的可信度;有时候数据不够干净,还必须经过细致的整理,为后续可视化创造良好的工作基础;第三步就是对数据进行探索和挖掘,了解其特征,并应用统计学方法进行建模和验证,以便准备充足的论据;最后一步,就是数据可视化的设计,选择合适的图形进行可视化创建和呈现。整个工作的评价标准就是,你的数据可视化结果能够说服自己、说服他人,向受众传达正确的信息,或者帮他们得出正确的结论。

DataFocus 和数据对话图1-4
数据可视化四个步骤
DataFocus 和数据对话图1-4 数据可视化四个步骤

1.2 沟通:信息传播与交流

沟通无处不在,无论是我们与身边的朋友聊天、和讨厌的人吵架,还是通过键盘鼠标浏览新闻、通过智能手机的触屏围观抖音小视频,我们都在传播或接受信息。事实上,天才科学家香农和他的合作者韦弗很早就发现了这个秘密,他们为信息传播的方式建立了一个简单的数学模型。

DataFocus 和数据对话图1-5 香农-韦弗
信息沟通模型
DataFocus 和数据对话图1-5 香农-韦弗 信息沟通模型

从模型中我们可以看出信息传播(沟通)包含了信源、编码、信道、解码和信宿5个步骤,以及过程中存在影响的环节,比如对信道的干扰,通过信宿反馈以获得更新的信源。用通俗的语言来讲,信源就是讲话者想表达的意思,经过语言编码通过嘴巴说出去,这些话的声音(信道)被接收者的耳朵听到(解码),转变成了接收者的理解。 根据我们的经验可以知道,如果对话者具有相同的知识背景,沟通一般比较顺畅,否则就会出现鸡同鸭讲的尴尬场景。比如,假设你和朋友正在聊关于2019年NBA总决赛第5场发生的事情。你对朋友说“嘿,你知道吗,杜兰特又受伤了,他这个伤搞不好整个赛季都要报销,离开勇士队也可能泡汤了。”如果你和你的朋友都是NBA联赛勇士队的球迷,这次沟通会非常成功,你的朋友一定会和你很好的讨论一番;假如你的朋友对篮球一无所知,他一定对你的讲话一脸懵逼,毫无反应。 人与AI之间的交流也是如此。本书要讲到的,用户与DataFocus系统的沟通同样适用于信息沟通模型。用户将头脑中想查询的问题(信源)输入到DataFocus搜索框中(问题编码),DataFocus系统将对搜索框的中的信息翻译成数据库可执行的程序(解码),并将查询的结果进行可视化编码后返回给用户。由此可以看出,这是个双向的沟通过程,用户与DataFocus即充当信源又充当信宿。

DataFocus 和数据对话图1-6
用户与DataFocus沟通模型
DataFocus 和数据对话图1-6 用户与DataFocus沟通模型

1.3 沟通的局限

我们了解沟通和信息传播的基本原理,不是要深入的去研究信息论。我们希望能从这种基本的原则中找到沟通的规律和局限。从上一节的介绍我们知道只有确保信息沟通5个环节精准对接,才能保障沟通的准确、高效。做为信源和信宿的载体,DataFocus虽然具备人工智能,但它毕竟是通过硬编码而来,其信息处理模式严格遵循计算机程式设计,它的问题解码能力和可视化编码能力是遵从固定规律的。而人类作为智慧生物,其行为和反应具有一定的随机性,个体之间也存在较大差异。因此,要确保沟通的准确,第一步,是要确保用户的编码(输入搜索语句)过程和DataFocus系统解码(解析用户输入)过程必须建立在同样的知识背景之上,这里共同的知识背景是指DataFocus类自然语的关键词搜索表达方式。

DataFocus 和数据对话图1-7
示例沟通数据
DataFocus 和数据对话图1-7 示例沟通数据
比如,当我们要针对以上数据对DataFocus提问,用户想了解“身高最高的学生叫什么名字?”运用DataFocus的关键词语言体系,正确提问方式是:“身高排名第1的姓名”,其中“身高”、“姓名”这些信息都是从数据中来的,“排名第1”是DataFocus的排序关键词应用。这些词语和表达方式就是DataFocus所具备的知识体系,用户如果自由发挥,问出这种问题来:“No.1身高的那个家伙叫什么名字?”,就会得不到答案,因为用户的表达方式包含了太过于丰富的信息,完全超出了DataFocus的理解能力。
《DataFocus 和数据对话》图1-8
正确的提问方式
《DataFocus 和数据对话》图1-8 正确的提问方式
图1-8 正确的提问方式 人与人之间的沟通有时候也会约到障碍。比如你和儿子聊天:“乐乐今天去看演出了”,也许你儿子会问“哪个乐乐啊?”,这时候,你需要补充一些信息才能让对话继续“就是那个很会画画的乐乐啊”。你们共同的知识背景中,有两个名字叫“乐乐”的小朋友,第一个问题就因此产生了歧义,而当你补充完信息之后,结合知识背景和上下文信息,信息进行了重新组合“很会画画的乐乐今天去看演出了”,这样沟通就会顺利的进行下去了。 同样的,用户与DataFocus的对话也会经常由于数据的原因产生歧义,一般情况下DataFocus系统会自动提示歧义,此时,用户需要进一步提供信息,才能完成沟通,例如,用户向DataFocus提问:“每月产品销售金额”,由于多个数据源都包含日期数据,因此需要进一步的选择准确的日期以消除歧义。
《DataFocus 和数据对话》图1-9
DataFocus为准确沟通消除歧义
《DataFocus 和数据对话》图1-9 DataFocus为准确沟通消除歧义

1.4 高效沟通6原则

以上章节我们讨论了如何与DataFocus保持高效精准的沟通。我们运用DataFocus探索、分析和可视化数据,这些最终的分析结果和可视化成果,都需要有效的传达给它们的受众(数据分析、可视化结果的接收者),同样地,和与数据沟通一样,要与您的受众高效沟通,也需要一些技巧。下面给出了6个原则:

原则1:定义正确的问题

任何沟通都不是无意义的闲聊,因此准确的了解你的沟通目标是首要任务。后续所做的一系列工作都是由此展开的,宁肯多花点儿时间把目标搞清楚,再开始选择信息、收集数据。你可以通过提前回答几个关键问题来清楚地表达这个目标:

  • 你的目标受众是谁?
  • 你想让他们知道什么?
  • 你期待什么样的沟通效果?
《DataFocus 和数据对话》图1-10
目标三要素
《DataFocus 和数据对话》图1-10 目标三要素
对于不同的数据分析工作,这些问题的答案可能非常不同。一个致力于一个突发事件的数据记者和一个在公司工作的商业情报分析员的目标不一样。他们可能会以截然不同的方式向他们的目标受众阐释数据,尽管方式大相径庭,然而对他们来说确是完全合适的。

最重要的部分是阐明你的目标,确保您能写出刚刚列出的三个问题的答案。在这三个问题得到圆满回答之前,不要急于进行下一步工作,因为那有可能导致错误的结果。

原则2:使用正确的数据

要得到正确的答案,必须向合适的人提问。同样的道理,要想得到准确的数据见解,必须与正确的数据沟通。在这个数据大爆炸时代,获取数据的渠道正变得越来越多,这给数据准备带来了另一个挑战,有时候我们必须在纷繁复杂的数据中抽取、清洗、提炼,通过多个数据集之间的互相印证,获得正确的分析基础。

保证优良的数据谱系。清晰可溯源的数据,是数据分析工作的可靠基础,这可以保证数据分析结果的透明性。企业的数据一般来源于其业务系统的数据记录,这些数据相对可靠,很少有人为修改;还有一些数据来源于内部填报或收集的数据,这些数据有时候并不可靠;还有一些分析基于互联网上用爬虫爬取的数据,这些数据质量一般不高,往往需要大量的清晰和提炼工作。如果你能够为你的分析结果精确的标示数据来源,并给出可信度,当你向CEO或其他观众介绍你基于数据分析的结果时,他们如果提问:”得出这些结论的数据是那里来的,可信吗?”你就可以很清楚的展示这些数据的可信度,从而对你的结论给出有力的佐证。

运用统计学原则,拒绝零假设。更多时候,数据分析工作都是在数据并不充分的基础上进行的。比如进行产品质量分析时,由于成本原因,不可能做到将所有产品的检测数据收集起来分析;进行用户调查时,往往只能得到部分用户的反馈信息。这种数据分析都是基于样本数据进行的,这个时候就需要运用统计学知识,比如T检验或者F检验,弄清楚样本数据是否能正确的代表整体。

聚焦你的问题。很多时候,数据的来源渠道多种多样,有些数据也会存在一定的关联关系。常用的原则是,少即是多,一般情况下,针对你的目标,运用直接相关的数据源进行分析,比使用更多间接相关的数据进行分析有效得多。

原则3:选择合适的可视化效果

一旦准备好用于佐证你的观点的数据,下一步就是决定如何对它进行可视化编码。编码数据意味着将数据值本身转换为抽象的图形表示,如大小、颜色或形状。

数据可视化是一种将数据构造成可视化结构的编码方式。可视化编码分成平面编码、视网膜编码等等。将图形分割成X、Y的平面都是最简单的平面编码;有时候为了用3个或更多变量表示数据,这时候会引入尺寸、纹理、形状、方向,如颜色渐变和颜色色调等,这些就是视网膜编码,需要视神经进行解码;研究表明,人们最容易理解的视觉编码是简单的平面编码,如位置(Y,X轴),其次是长度、角度和坡度、面积、体积,最后是颜色和密度等。因此,一些可视化图形引入了动态效果,如延时、比例变化等等,这些则需要经过大脑思考和加工才能理解其中的含义,不建议频繁使用。

可视化图形多种多样,除了常见的折线图、柱状图、饼图之外,还有多达数十种各类不同的图形。不同的可视化图形适用于不同的数据结果,正确的可视化的应该选取的合适的图形类型,通常情况下,DataFocus的自动可视化引擎会默认选择相应的图表进行数据展示,但有时候也不够精确,用户可以根据自己的设计思路进行图形切换,下表是提供了常用的选择参考:

《DataFocus 和数据对话》图1-11
可视化图表的选择
《DataFocus 和数据对话》图1-11 可视化图表的选择

此外,要避免使用扭曲的图形。由于可视化传递的介质绝大多数都是平面的,通过纸张、网页、ppt或其他的文档形式,三维图形展示在二维平面上,将导致图形扭曲,观察角度的不同甚至会导致获得错误的信息,因此为了准确的表达信息,应该避免使用3D图形。另外还有一种典型的可视化错误,就是柱状图(或类似的其他图形)的X轴不从零开始,这有时候会很显著的放大数据的微小差异。

原则4:美学设计

爱美之心人皆有,如果你的可视化作品兼具美感,那一定能更好的打动人。但是图表的美化存在许多误区,这里需要遵循的原则就是美学设计必须以不对正确的数据信息沟通产生干扰为前提。首要的一点是,尽量保持简单。简单也是美学设计的一种,数据可视化作品要直抒胸臆,不能附带过多无用信息,从而影响信息传递。

一个有效的保持简洁的方式是尽量提高数据像素比(Data/ink Ratio),这是可视化专家塔夫塔(Edward Tufte)提出来的概念。他用来量化图表的信息传达效率,比率越高,说明传递单位数据信息消耗的像素越少,换句话说,可视化图表更简洁;相反,比率越低,则意味着可视化图表中的冗余信息越多。其公式定义为:

Data-Ink Ratio= 传达数据信息的可视化像素 /图表总像素

从公式可以看出,这只是一个定性的指标,并没有标准的度量值来评价每个可视化作品的Data-Ink Ratio,基于这一原则,通常有一些经验如:不要在一个仪表板中放置太多图表;通常简单的图形,更容易让人聚焦;复杂的图形,具备太多元素,容易分散人的注意力。保持简约的设计,目标是清除所有对传递消息没有帮助的混乱。诸如:分类数据的颜色过多;频繁使用特殊效果,引入 3D图形和阴影;太多的标签;各种花哨的图片和网格线等等,都会显著降低数据看板的信息传递效率,应该尽量避免。

原则5:选择有效的媒介和渠道

现实世界中有许多优秀的数据可视化案例,都向它们的目标受众准确、高效的传达了信息。从1854年英国约翰·斯诺(John Snow)医生的霍乱地图,到1861年法国工程师Charles Joseph Minard绘制的拿破仑远征图,都带有无可辩驳的说服力。以及汉斯·罗斯林教授通过Gapminder网站展示的令人震撼的全球经济、医疗等数据,这些可视化作品广为传播,汉斯甚至在2006年2月通过TED上的著名演讲进行了全球范围的宣传,这为他的慈善基金吸引了很多关注,算得上通过数据可视化沟通的成功典范。

《DataFocus 和数据对话》图1-12
低温是造成拿破仑远征俄罗斯失利的主要元凶
《DataFocus 和数据对话》图1-12 低温是造成拿破仑远征俄罗斯失利的主要元凶

无论读者是希望通过一项可视化项目进行宣传,还是打算运用翔实的数据向领导层展示您的思考,促成决策;还是仅仅希望通过可视化的分析结果说服你的同事关注某项工作;你都应该通过合适的媒介或渠道开展这项交流,因此你需要注意可视化工作的表现形式:

  • 独立图形还是旁白?
  • 静态、交互式、动画或组合图形?
  • 如果叙述过:录音、实况还是两者兼有?
  • 如果是现场:远程、亲自或两者兼而有之?
  • 在所有情况下:广播、定向还是两者兼而有之?

如果你是在企业从事数据分析和可视化工作,那么创建令人印象深刻的数据看板,或者通过数据可视化图表填充你的汇报演示ppt,是常用的沟通渠道。运用DataFous系统可以很方便的创建这些工作。

如果是从事媒体宣传、咨询研究等面向大众群体的数据可视化工作,一般通过公众号等自媒体平台作为信息传播渠道,这类工作可以运用DataFocus的自定义数据看板功能制作数据分析报告,定期更新数据可获得最新的数据报告;或者将可视化图表嵌入到网页中作为可更新的数据向公众传达。

原则6:检查结果

每次项目结束,进行一次认真的检查和复盘,将发现的问题进行及时的反馈是一个好习惯,这些反馈循环和检查点可以帮助你衡量你是否达到了预期的结果。这在不幸未实现目标的情况下进行及时的项目迭代或调整,非常有效。检查结果时常问以下几个问题:

  • 受众收到你的信息了吗?谁做了,谁没有?
  • 他们是否以您的期望的方式正确的解读了数据信息?
  • 他们的反应是否如你所希望的那样?

提出这些问题将有助于你更好地检验你的沟通效果,同时也可以通过你的受众反馈,获得有价值的改进意见。

本章小结 以上介绍的有效沟通六原则不仅适用于本书与数据对话的情况,也适用于大多数带有目标性的任务中,用户养成了按照这些原则思考和执行的习惯后,往往会在项目的实践过程中得到高效、富有生产力的结果。 在下一章,我们将简单介绍这款能和数据对话的工具DataFocus的一些基本情况,接下来的章节将详细为您讲述,运用DataFocus熟悉的方式和数据对话的技巧。

第二章 DataFocus简介

2.1 DataFocus故事

DataFocus品牌创立于2014年,是一款以自然语言搜索引擎为驱动,在商业智能领域为企业提供以人工智能(AI)为驱动的大数据分析产品。经过4年的精心打磨和稳步发展,DataFocus不仅是全球首个中文自然语言大数据分析系统,更是中国商业智能领域大数据挖掘与运用的佼佼者。目前,DataFocus帮助来自不同行业的企业管理着超过百亿的数据,专注成为人工智能创新的“探路者”。

DataFocus由多名来自中科院、北京航空航天大学博士和前华为公司的顶尖数据分析专家和工程师打造,通过独创的智能数据库搜索引擎全面革新了用户的数据分析体验。公司拥有最好的产品,最专业的销售团队,最一流的技术支持,最成熟的售后服务,只为给客户打造一个最完美的数据分析平台。

DataFocus连续多年享誉人工智能产品市场,获得各个著名投资公司及大型品牌青睐,并累计为超过200家以上传统企业或工厂提供数字化、信息化转型支持。通过帮助企业实现实时数据的挖掘和应用,DataFocus将继续致力于为广大合作伙伴提供低使用成本、高使用效率的人工智能产品,在新商业智能领域中和行业同仁共同推动整个行业的发展。

2.2 DataFocus产品

DataFocus,一款新型的商业智能产品(BI,Business Intelligence),可以把这些疑难杂症用一种全新的技术——自然语言搜索,帮助企业在大数据分析领域更加智能。

2.3 DataFocus用户界面

《DataFocus 和数据对话》2.3.1
用户界面
《DataFocus 和数据对话》2.3.1 用户界面

2.4 连接数据

导入数据:DataFocus作为数据仓库来使用,可以整合不同业务系统中的数据,展现数据全貌,综合分析,导入数据支持定时更新,更新频率一般为每天、每周、每月。

《DataFocus
和数据对话》2.4.1导入数据
《DataFocus 和数据对话》2.4.1导入数据

直连数据:DataFocus直接连接数据库,数据不导入到DataFocus中,由于是直连的数据库,故可支持实时更新,数据库中数据有变化,DataFocus中直连的这些表,以及依赖这些表制作的报表等也都能实时更新。

《DataFocus 和数据对话》2.4.2
导入数据
《DataFocus 和数据对话》2.4.2 导入数据

2、本地文件:真实业务中,企业一般不仅仅只有业务系统中的数据,还会有很多本地的外部数据文件,例如excel文件、txt文件等。

《DataFocus 和数据对话》2.4.3
导入数据
《DataFocus 和数据对话》2.4.3 导入数据

导入数据可以处理较大的数据量(比如千万、亿级数据),数据分析时不影响业务系统的数据库性能,因为是在DataFocus自带的大数据仓库中进行。 直连数据不建议处理较大数据量,直连数据的分析性能,完全取决于用户的业务系统数据库(被直连的数据库),因为分析是在客户的业务数据库中进行,因此DataFocus无法保证性能。

2.5 DataFocus使用

DataFocus的使用特别的方便快捷,整个操作通过搜索或单击便可以实现。下面我们便通过“电商销售数据.csv”来进行一个简单的操作演示。 2.5.1 关键词搜索 1、单纯列名搜索分析: 单维度搜索分析 :产品名称 销售金额

《DataFocus 和数据对话》2.5.1
单纯列名搜索分析
《DataFocus 和数据对话》2.5.1 单纯列名搜索分析
图表之间可以进行转换,因为后面搜索分析会进行图表转换,所以这里提前演示图形之间,图表之间如何转换,展示常用图形:柱状图、折线图、饼图、环图、帕累托图、位置图、词云图、时序图等,目前共计有35种图形 还可以进行多维度搜索分析,例如:产品名称 区域 销售金额 销售数量 500px|缩略图|居中|《DataFocus 和数据对话》2.5.2 产品名称 区域 销售金额 销售数量 以及不同维度之间灵活更改,例如:自由添加维度、删减维度

2、关键词搜索分析: 时间日期关键词搜索分析:(可看情况添加属性列,以便更好地展示信息) 每年/每季度/每月 销售金额

《DataFocus 和数据对话》2.5.3
时间日期搜索分析
《DataFocus 和数据对话》2.5.3 时间日期搜索分析
环比:按 订单日期 计算的 销售金额的总和 的月/季度/周/年增长率
《DataFocus 和数据对话》2.5.4
时间日期搜索分析
《DataFocus 和数据对话》2.5.4 时间日期搜索分析

同比:按 订单日期 计算的 销售金额的总和 的月/季度/周/年增长率

《DataFocus 和数据对话》2.5.5
时间日期搜索分析
《DataFocus 和数据对话》2.5.5 时间日期搜索分析

排序关键词搜索分析: 排名前8的 销售金额 的总和 产品名称

居中
居中

产品名称 排名后6 的销售金额 的总和

《DataFocus 和数据对话》2.5.7
排序关键词搜索分析
《DataFocus 和数据对话》2.5.7 排序关键词搜索分析

字符串关键词搜索分析: 产品名称包含/不包含“花生” 销售金额

《DataFocus 和数据对话》2.5.8
字符串关键词
《DataFocus 和数据对话》2.5.8 字符串关键词
姓名开头是/开头不是“王” 销售金额
《DataFocus 和数据对话》2.5.9
字符串关键词
《DataFocus 和数据对话》2.5.9 字符串关键词

分组统计关键词搜索分析: 按 销售金额 分组统计的

《DataFocus 和数据对话》2.5.10
分组统计关键词搜索分析
《DataFocus 和数据对话》2.5.10 分组统计关键词搜索分析

按 销售金额 分7组统计的

《DataFocus 和数据对话》2.5.11
分组统计关键词搜索分析
《DataFocus 和数据对话》2.5.11 分组统计关键词搜索分析

按 销售金额 分组间隔为500统计的

《DataFocus 和数据对话》2.5.12
分组统计关键词搜索分析
《DataFocus 和数据对话》2.5.12 分组统计关键词搜索分析
vs关键词搜索 时间vs:去年vs今年销售金额、8月vs9月销售金额、2016vs2017销售金额
《DataFocus 和数据对话》2.5.13
vs关键词
《DataFocus 和数据对话》2.5.13 vs关键词
关键词复合搜索 某年多月环比对比: 按 订单日期 计算的 销售金额的总和 的月/季度/年/周/日增长率 九月vs十月 2016
《DataFocus 和数据对话》2.5.14
某年多月环比对比
《DataFocus 和数据对话》2.5.14 某年多月环比对比
某月多年同比对比: 按 订单日期 计算的 销售金额的总和 的月/季度/年/周/日增长率与往年同期相比 九月
《DataFocus 和数据对话》2.5.15
某月多年同比对比
《DataFocus 和数据对话》2.5.15 某月多年同比对比

多层次排名统计: 按区域统计 排名前3的销售金额的总和 产品名称

《DataFocus 和数据对话》2.5.16
多层次排名统计
《DataFocus 和数据对话》2.5.16 多层次排名统计

多年每月对比: 按月统计 2016 vs2017销售金额

《DataFocus 和数据对话》2.5.17
多年每月对比
《DataFocus 和数据对话》2.5.17 多年每月对比
2.5.2 公式应用 在实际业务中,不管是什么分析,公式都是最常用的分析手段。比如时常需要计算的各项指标、各项比率等,都是通过公式计算所得。 DataFocus支持添加公式列,其所拥有的公式基本满足企业的需要,覆盖了大部分excel的公式函数等。例如在计算销售完成率、库存周转率、存销比等都需要利用原始数据进行简单的计算,从而生成一列新值。 公式的运用有: 简单公式(excel中大部分公式函数DataFocus都有) 常用公式举例:to_string()、month()、year()、concat()、substr() 公式嵌套等。
《DataFocus 和数据对话》2.5.18
公式运用
《DataFocus 和数据对话》2.5.18 公式运用
2.5.3 中间表 在DataFocus中,提出了一个新的概念,就是中间表的概念。中间表是什么,有什么用?这是很多人在第一次听到中间表之后的瞬间反应。DataFocus的中间表,就是用来处理数据的一种手段,比如在分析一个列非常多的数据表,但是只需要分析利用其中的某几列,这时候,可以先创建一个中间表,中间表中可以只包含需要分析的列,再用此中间表进行分析,这样不仅会提高系统分析的速度效率,也会节省用户的操作时间。 DataFocus中创建中间表有两种方式,一种是通过question的方式创建,即通过搜索的方式,将搜索结果保存为中间表,此种方式保存的中间表为聚合后的数据。
《DataFocus 和数据对话》2.5.19
中间表
《DataFocus 和数据对话》2.5.19 中间表
《DataFocus 和数据对话》2.5.20
中间表
《DataFocus 和数据对话》2.5.20 中间表

2.5.4 多表查询 在实际业务中,不管是什么分析,有一种情况是需要通过两张数据表,或者更多的表进行多表复合查询。在DataFocus中可以通过创建关联关系将表与表之间进行相互关联,关联之后再进行分析。 这样的话可以解决数据多样性造成的数据壁垒,让数据分析起来更加的简单,更加充分的发掘数据价值。

《DataFocus 和数据对话》2.5.21
多表查询
《DataFocus 和数据对话》2.5.21 多表查询
2.5.5 数据填报 DataFocus支持轻量在线填报数据功能 数据类型中新增填报数据功能,用户可自定义编辑填报模板,填报审核后用于搜索查询制作历史问答,数据看板。 可对填报数据 进行 填报,审核,权限管理,编辑模板,删除操作
《DataFocus 和数据对话》2.5.22
数据填报
《DataFocus 和数据对话》2.5.22 数据填报

第三章 数值场景

我们在日常生活中我们对数值的使用习以为常:

  • (微信运动)今天走了多少步?
  • 早餐花了多少钱?
  • 这个季度赚了多少钱?
  • 本周网站的点击量有多少?

或者你对数值本身不是很敏感,可能会对这样的说法更有概念:

  • (微信运动)今天比昨天多走了多少步?
  • 今天早餐比平时多花了多少钱?
  • 这个季度比预期多赚了多少钱?
  • 本周网站的点击量比上周高了多少?

这两者都可以使用可视化进行具现,但是在DataFocus中它们根据情境不同会有不同的实现方法,在后面将介绍用哪种方法表现它会更好。

《DataFocus
和数据对话》截选自2016年巴西个城市国民统计数据
《DataFocus 和数据对话》截选自2016年巴西个城市国民统计数据
下面是本章将会用到的数据源,截选自2016年巴西个城市国民统计数据的一部分。

3.1 表现数值

表现数值有很多种方式,最基础就是数值表表格的形式,直白的将各个列的数值展示出来,但是这种形式在处理较多较为复杂的数值情况时,往往效率非常低下;再进一步还有数据透视表,从行列两个角度交叉的去摄取数值信息,就清晰了许多;而如果用合适的图形进行展示,则更加的事半功倍。接下来我们来尝试一下。 3.1.1 数值表表现数值 基于我们的数据,我们可以来看一下巴西各个州的居住人口数量。选择将数据结果用数值表进行展示。

《DataFocus 和数据对话》图3 -1- 1
巴西各州居住人口
《DataFocus 和数据对话》图3 -1- 1 巴西各州居住人口
第一个问题非常简单,让我们觉得似乎数值表也还好,那我们直接来搜索一个稍微有些复杂的问题,看看按HDI指标数值进行分组情况下的各个州的不同年龄段人口数量。
《DataFocus 和数据对话》图3-1-2
按HDI指标分组统计巴西各州不同年龄段人口
《DataFocus 和数据对话》图3-1-2 按HDI指标分组统计巴西各州不同年龄段人口
数据突然变得复杂了起来,可能长期处理数据对数值有敏感度的的人还可以使用这个数值表进行分析,但一般的使用者就会对它开始产生畏惧了。这就是数值表的局限性。 3.1.2 图表表现数值 既然说图表是我们更好的选择,那么有哪些图表可以展现数值呢,我们直接用这样的一张数据看板来说明吧,下面是一个包含了一些常用的数值展现所用的图表。
《DataFocus 和数据对话》图3-1- 3
八种常用方法来展示一个简单的数值
《DataFocus 和数据对话》图3-1- 3 八种常用方法来展示一个简单的数值
以上八种图表并不是系统里全部的数值表现图表,但都很具有代表性。这时我们就会发现,同为数值表现,这八种图表的效果却很鲜明的不同。 事实证明,我们很擅长比较长度、大小,在图形中我们可以很直观地一眼看出哪些部分是更多的、最多的、更少的、最少的。还可以在可视化图表中将鼠标移至对应区域,通过浮现出的标签,了解对应的数值的大小。 当需要精确查看的时候,透视也是个好选择,这就是为什么财务部门如此广泛地使用它们。
《DataFocus 和数据对话》图3-1-4
数据透视图
《DataFocus 和数据对话》图3-1-4 数据透视图
这里就需要使用者自己根据需要和数据可视化的目的去判断选择了。 3.1.3 排序 在数据比较繁参差时,排序是快速理清现状的好方法。在DataFocus中,有两种方式对数值进行排序: 第一种是在进行搜索输入问题时,直接写明关键词“按xxx(某数值列)的yy(聚合方式)排序/降序/升序”。
《DataFocus 和数据对话》图3-1-5
使用关键词进行排序
《DataFocus 和数据对话》图3-1-5 使用关键词进行排序
第二种是在图形画布中进行操作,你可以点击对应轴的轴设置选择排序(这里第一次点击时是降序,第二次是升序,以此类推),也可以在数值表中点击表中对应列的列名(同样是第一次点击时是降序,第二次是升序,以此类推)。

这时的显示会有一些不同,比如搜索问题中不会出现排序相关的关键词;再比如图表标题下会出现对应的排序标签,可以点击右上角的红色×将它删除,然后回到未排序状态。

《DataFocus 和数据对话》图3-1-6
通过与图形交互进行排序
《DataFocus 和数据对话》图3-1-6 通过与图形交互进行排序
现在它更有组织,不仅更容易看到不同城市的HDI指标数值和对比,而且从最多到最少的顺序可以看到。

3.1.5 标尺、目标值和告警值 我们会只满足于数值以图表的形式展现出来吗?

当然不是。在让事情变得更高效这一件事情上,发展是无止境的,就比如在一个柱状图中加入让数值更容易被理解的元素,这里我们说的就是标尺、目标值和告警值。

我们回顾一下图3-1-6,虽然柱状图以降序的方式有组织的为我们展现了数值,但是它并不算非常好阅读,因为柱体的数值很接近,在视觉上他们的高度也很接近。人眼并不是很适合于发现细微的差距,那么标尺的设置就可以让这一问题得到很好的解决,我们点击画板右上的“图表属性”,在弹出的设置选项中找到“数值标尺”,取这堆柱体的最大值和最小值的一个接近值,将Y轴的显示标尺规定为最大0.9、最小0.7。

《DataFocus 和数据对话》图3-1-7
标尺设置
《DataFocus 和数据对话》图3-1-7 标尺设置
情况显然得到了改善。

再假设,我们对HDI指标有一个期望值为0.78,然后希望可以直观的在图表中看出哪些城市达到了要求,那么一样可以满足。这里有两种方式来实现,一个是点击Y轴显示名,在对应的设置浮窗中找到“配置”,然后再目标值中填入0.78。

《DataFocus 和数据对话》图3-1-8
目标值设置期望值
《DataFocus 和数据对话》图3-1-8 目标值设置期望值
还有一种方式是在“图表属性”中的“标度”,将类型设置为“直线”,设定数值为0.78,还可以对直线的颜色、宽度样式进行调整,并在文本中设置直线的显示名,这里我们定义为“期望值”。
《DataFocus 和数据对话》图3-1-9
标度设置期望值
《DataFocus 和数据对话》图3-1-9 标度设置期望值

范围标度也是支持的,设置方式和直线一样,使用者可以尝试着自己去做,也可以直接选择最大最小值、平均值、标准差等对数值进行设置。

最后再假设一个场景,对于HDI值我们除了期望值以外,还有一个基本的指标及格线,在这个及格线之下的城市是待调整的。我不仅希望可以看到它,还想它突出标识,时刻提醒我去对它进行调整,那么就可以进行告警值的设置。数据很多,为了显示效果我们筛选出了可以在一页之内容纳的柱体(筛选Y轴为大于等于0.77),然后同样是在Y轴的设置页,找到“告警”,对告警数值进行设置,选择“<= 0.77”。

《DataFocus 和数据对话》图3-1-10
告警值
《DataFocus 和数据对话》图3-1-10 告警值
被告警部分就会被提至图形前段,并加上红色高亮闪烁效果。

使用这些细节的设置,就可以让图表在易理解、好使用的基础上更进一步,适用于更多的业务场景。

3.2 比较数值

在之前的描述中,我们可以发现,数值的展示和比较其实是分不开的,当存在多个数据时,我们就会自然而然的进行比较,这也是数值可视化的魅力所在。那么DataFocus的比较数值是怎么做的呢?

利用图表进行数值的比较是很灵活的,我们可以利用图形的高度进行比较,比如柱状图;也可以利用长度,比如条形图;也可以利用面积,比如树形图;也可以利用扇形的角度,这里很明显就是在说扇形图了;还可以直接对比数值的大小,如KPI指标图;甚至可以在三个数值维度上去同时进行比较,这里说的是气泡图。我们可以使用气泡图,去同时比较巴西27个州的居民人口、作物产值和HDI指标。

《DataFocus 和数据对话》图3-2-1
气泡图
《DataFocus 和数据对话》图3-2-1 气泡图
这里的使用就看使用者的爱好和需求。

但是这些都不是DataFocus的特色所在,它所专注的,是DataFocus类语言搜索与比较的结合,而相应的成果就是VS关键词的创新。

前面已经说到了关键词,大家应该已经了解了它的使用方式,这里特别强调的额就是VS关键词和比较数值场景的结合,当使用者想比较巴西27个州中某两个州的某项数值或某几个数值的大小时,可以通过vs关键词直接得到可视化图表的结果。比如这里想比较SP和MG州的居民人口大小,你也可用在所有州的柱状图中筛选出这两者的方式来进行比较,但vs将是更好地选择。

《DataFocus 和数据对话》图3-2-2 SP vs MG
的居民人口比较
《DataFocus 和数据对话》图3-2-2 SP vs MG 的居民人口比较

第四章 变化

到目前为止,我们在上一章说了很多数值的使用场景,数值中有一种特殊的复杂情况,是数值变化的表现,这里可以是某一个数值随时间的变化率(变化量也可以),也可是某几个数值的比值的在固定维度下的变化。前者要用到关键词中的增长关键词,后者需要使用公式。这里需要用到一个销售相关的数据。

《DataFocus
和数据对话》销售相关的数据
《DataFocus 和数据对话》销售相关的数据

4.1 增长问题

在销售场景中,我们很关注产品的销售量或者销售额的变化,我们不仅需要关注同销售周期内不同时期的数值变化,还需要关注不同周期内同个时期的数值变化,这是常用而复杂的增长问题,在数据分析系统中同样是个重难点。 DataFocus的处理方式同样是使用一个关键词,最快最好得解决它,也就是增长关键词。比如在这份零食销售数据中,我们先来使用增长关键词来查看2015年一年的销售周期内每个月份的精装纸皮核桃380g这一产品的销售数量变化。

《DataFocus 和数据对话》图4-1-1
使用增长关键词关注产品增长率问题
《DataFocus 和数据对话》图4-1-1 使用增长关键词关注产品增长率问题
这里默认选择了瀑布图。我们可以看到该产品的周期内增长率是一路下行的。 那么再来看看它不同周期内同一月份的增长量情况,也就是常说的同比增长。
《DataFocus
和数据对话》图4-1-2使用增长关键词关注产品同比增长率问题
《DataFocus 和数据对话》图4-1-2使用增长关键词关注产品同比增长率问题
结果同样不是很可期,说明我们可能需要对该产品进行优化或者调整了。

4.2 比值问题

除了单一数值的增长问题,我们常常会遇到数值比率的问题,这种就很简单了,直接使用公式去进行比率的计算,再作为一个一般的数值列进行数值分析即可。在左下角的增加公式中进行公式的新建。

《DataFocus 和数据对话》图4-1-3
建立公式
《DataFocus 和数据对话》图4-1-3 建立公式
按照使用者需求进行公式的创建,公式辅助中阐述了所有函数的使用方式,并可以对计算完成后的公式列进行列类型和默认聚合的设置。 然后就可以正常的进行使用了。
《DataFocus 和数据对话》图4-1-4
公式列的使用
《DataFocus 和数据对话》图4-1-4 公式列的使用

第五章 比例和百分比

5.1 部分对整体

为比较三种不同类型的百分比模式,我们将先从部分到整体开始介绍。所谓部分到整体,其实就是计算各部分内容占总体情况的百分比,是用百分比表达数据中最常见的一种类型。 一般情况下,各部分的百分比之和相加刚好等于100%,就像牛顿曾说的“天才就是1%的灵感加上99%的汗水”,这就是非常常见的一个部分对整体计算百分比的例子。 那么这里,我将用一组数据展示如何在DataFocus中制作出简单的部分对整体的百分比计算。这组数据是记录了皇马这支球队所有球员在2017年的表现情况,包括评分、进球次数、姓名、身高体重等一些基本信息的数据。 首先对皇马所有队员在2017年表现的评分进行画图,绘制一张柱状图,对比每位球员在2017年度获得的评分高低,如图5-1-1所示。

《DataFocus 和数据对话》图5-1-1
柱形图
《DataFocus 和数据对话》图5-1-1 柱形图
接下来对制作出的柱状图进行简单配置,从5-1-1中可以看到,评分最低的球员也突破了60分,因此设置显示的数据标尺的最小值为60,突显队员之间的评分差异,并将评分按照降序进行排列,如图5-1-2所示。
《DataFocus 和数据对话》图5-1-2
皇马球员评分
《DataFocus 和数据对话》图5-1-2 皇马球员评分
从柱状图中可以看出,皇马全部球员的最高得分为94分,最低为63分,平均分为78.76分,评分在70-90分之间的球员占大多数。 5.1.1 快速筛选 这一小节主要介绍的内容是,在上述的部分对整体的操作下,利用DataFocus对结果进行一些优化。 首先是介绍筛选功能,如图5-1-3所示,部分皇马球员在2017年的进球次数为0,也就是一整年的正式比赛中没有发生过进球事件,那么我们可以选择将这部分进球次数为0的数据不显示在图形中。(进球次数列的数据为随机数)
《DataFocus 和数据对话》图5-1-3
条形图
《DataFocus 和数据对话》图5-1-3 条形图
如图5-1-4所示,可以在框中的位置处,设置“进球次数>0”,最终结果如图5-1-5所示。
《DataFocus 和数据对话》图5-1-4
快速筛选
《DataFocus 和数据对话》图5-1-4 快速筛选
《DataFocus 和数据对话》图5-1-5
皇马球员进球情况
《DataFocus 和数据对话》图5-1-5 皇马球员进球情况
通过这个简单的筛选操作,我们可以过滤掉一些没有分析价值的数据,使得结果可以更加明显的展示。当然从上图中我们也可以看到,并没有出现具体的百分比,但是可以通过两列数据进行计算,得出具体的百分比。下一小节,我们就来介绍如何计算百分比数据。 5.1.2 计算百分比 在DataFocus的搜索页面,除了可以直接搜索关键词进行分析外,还可以通过公式建立一个新的字段。百分比的计算就是利用添加公式得到的。

在搜索页面点击“添加公式”,添加一个公式名为“进球百分比”的公式,运算法则为sum(进球次数)/sum (进球总数),进球次数就是皇马每位球员在2017年正式比赛中一共进球的数量;进球总数就是将所有的进球次数汇总求和,得到皇马所有球员2017年进球的总和。

再选择“名字”和“进球百分比”加入搜索框,系统会自动出现一张环图,如图5-1-6所示。环图是一种非常能代表百分比的图表类型,整个环就是100%,其中各个部分所占的彩色面积就是该部分内容在整个环中的占比情况。

《DataFocus 和数据对话》图5-1-6
环图
《DataFocus 和数据对话》图5-1-6 环图
通过上面这张图,我们可以很容易地确定每个球员对整个团队进球次数的的贡献。 5.1.3 用瀑布图显示 除了环图、饼图,还有一种特殊的图形可以用于表示百分比情况,那就是瀑布图。 将图5-1-6的环图更换图表类型,选择用瀑布图来显示,如图5-1-7所示。
《DataFocus 和数据对话》图5-1-7
进球百分比
《DataFocus 和数据对话》图5-1-7 进球百分比
诚然,瀑布图并不能很好的利用数据展示的空间,但它创造了一个很好的阶梯效果,能够给人一种很独特的感觉,并且非常符合部分到整体的关系。瀑布图的每一个柱体的高度都代表了球员进球数量占总体的百分比。

5.2 当前对历史

上述我们从三个角度考虑了部分对整体的关系。那么接下来,这一小节,我们要考虑当前对历史的关系。从数据中我们可以知道某一款产品今年的销售额情况,那么对比其他产品呢?和去年的销量对比又如何?在所有产品销量排行中,处于什么位置? 这些问题都是比较具有代表性的研究当前对历史问题时,容易引发的疑问。这里我们将利用最常见的增长率、增长情况做为研究对象,以去年为基年对比今年较去年销售金额的增长情况。 如图5-2-1所示,在搜索框输入增长类关键词,可以直接通过搜索得出所求产品的年增长情况,直接对比前后两年之间的销售金额差异。

《DataFocus 和数据对话》图5-2-1
零食销售年增长情况
《DataFocus 和数据对话》图5-2-1 零食销售年增长情况
从图中可以看到,浅蓝色柱体代表下降,深蓝色代表上升,因此可以判定,2015年、2016年的产品销售是下降的,直到2017年才销售金额才有所回升。

5.3 现实对目标

除了部分对整体和当前对历史,还有一种方式可以用来表达百分比的情况,那就是现实对目标。

世界上到处都是拥有配额、预算和绩效目标的人和团体。这些数据都会被严格把控,通过跟踪和监视,以确保“计划的性能”,这就是所谓的现实对目标。举个更加简单的例子:与今年年底计划要达成的目标相比,我们现在表现如何,是否能够确保正常完成今年的目标,是延期还是超额完成?

这些数据都是商业、政治、世界发展乃至个人生活中的基本问题。它们的核心是比例或百分比的比较。现实对目标属于一种特殊类型的部分对整体以及当前对历史。现实对目标基本不受1%或100%的限制,因为我们总能超越我们的目标。在配额方面,超过指标将受到欢迎,而在预算方面则并不受欢迎。

总结

比例和百分比是无处不在的。这整个章节中,我们都在介绍如何更好的表达比例和百分比,以及在DataFocus中如何有效快速的创建图表来展示百分比的情况。还介绍了简单的数据筛选、添加公式计算百分比、如何运用瀑布图等等。

第六章 均值和中位数

经常接触数据的人都会定期面对一个数据集中趋势的概念,这里将其进行简化,主要介绍可以衡量家中趋势的三个主要指标,分别是平均数、中位数、众数,首先了解其定义:

  • 平均数是将数据集中所有的数值相加然后除以值的数量得出的。平均数被使用的情况最普遍,所以经常被认为是一个比较具有代表性的数值,意思是如果用平均值替换数据集中的每个值,那么总体和不会发生变化。
  • 中位数是将数据集按照从小到大的顺序进行排列,然后取数据集中处于最中间位置的数据,称之为中位数。因此,数据集中有一半的值小于中位数,另一半大于中位数。
  • 众数是数据集中出现次数最多的值。

6.1 正态分布

正态分布,又名高斯分布,我相信接触过统计这类学科的同学们都听说过并对其有所了解。正态曲线呈钟形,两头低,中间高,左右对称,因此也可以称为“钟形曲线”,正态分布的特征如下图6-1-1所示。可以看到正态曲线呈现一种非常温和的变化,一个值若出现下降的速度越慢则代表越远离该数据的平均值。

《DataFocus 和数据对话》图6-1-1
正态分布特征
《DataFocus 和数据对话》图6-1-1 正态分布特征
要说完全达到正态分布是不可能的,但自然界存在着很多近似正态分布的例子。比如说最具有特色的就是成年人的身高特征。如果一架飞往海外的航班上有250名乘客,测量统计其身高数据,那么数据将呈现出正态分布。即使是世界上最高的人也在这架飞机上,他的身高也同样不会超过整个团队身高总和的0.5%。 接下来将展示一组正态数据和一组非正态的数据,简单观察其经验数据。 6.1.1 正态数据 现在先来展示一组正态的数据。这里选择了一组足球运动员的生日数据,通过DataFocus添加公式,计算出当前这些球员的年龄情况,然后再汇总,计算各个年龄的球员人数,结果图如图6-1-2所示。
《DataFocus 和数据对话》图6-1-2
正态数据“球员年龄”
《DataFocus 和数据对话》图6-1-2 正态数据“球员年龄”
这个数据的分布非常接近正态,可以算作是近似正态分布了,它的平均值是29.62岁,因此数据基本按照29岁划分为左右两部分,两部分的大小几乎相同。利用柱形图,我们可以非常直观的观察到数据的分布,因此柱形图也是正态数据最常用的一种图表表达类型。 6.1.2 箱型图 每个数据集都存在一个平均值、一个中位数、一个最大值和一个最小值,以及其他各种统计指标。使用箱型图是查看这些统计指标并了解数据集中多个组的分布情况的一种有效方法,如

DataFocus将每个数据集制作成一个箱型,标记其平均数、中位数、四分位数和最大最小值等等。可以非常清晰的看到数据的一些特征值,也可以马上查看出数据中可能存在的异常值,是统计方法中较为常见的图表类型之一。

《DataFocus 和数据对话》图6-1-3
箱型图
《DataFocus 和数据对话》图6-1-3 箱型图
6.1.3 非正态数据 正态分布和近似正态分布,我们生活的世界中出现更多的是非正态的数据集,这些数据集比近似正态分布的数据集更难以理解。如果说高斯分布是呈现一种温和的数据变化,那么非正态数据集则表现出一种狂野的变化形式,例如向任意一边倾斜、呈现粗尾或有较远的异常值。

举个最简单的例子,财富分配是出了名的不公平。经常听说,世界上80%的财富掌握在20%的人手中。那么剩下的80%的人只能分摊20%的财富,这听起来非常不公平,但事实就是如此。 这里举一个产品销售的例子,将零食的名称和销售金额放入搜索框,会出现如图6-1-4所示的数据分布。

《DataFocus 和数据对话》图6-1-4
“非正态”销售数据
《DataFocus 和数据对话》图6-1-4 “非正态”销售数据
这是一个非常明显的非正态数据,销售金额高的产品非常高,而销售金额低的则非常低,中间的差距有几十倍,数据分布也呈现一种一边倒的状态。

6.1.4 对异常值的敏感性

衡量集中趋势的最好方法是什么?你认为产品销售金额的“典型”标准是什么?超过四分之三的产品的销售金额低于平均值,只有10%的产品的销售金额低于众数,所以这两种数据特征都不能很好的衡量数据的集中趋势。

然而在中位数的前后都有一样多的参与者,因此中位数能较好的表达数据的集中趋势。但也因此,中位数对于新增的异常值的敏感性较低。而平均值则对异常值的敏感度较高。因此在选择非正态数据的“典型”值是可以考虑使用中位数,而当需要观察异常值时则可以选用平均数。但最好的情况就是可以同时参考三个数据特征,这样更为准确。

总结

在这一章中,我们讨论了中心倾斜度的测量方法——平均值(mean)、中位数(median)和众数(mode),以及如何可视化不同类型分布的这些值。我们还讨论了使用“平均值”和“中位数”的时候需要注意的一些问题,盲目使用平均值是非常危险的。在观测数据集中趋势时,中位数的运用显得很重要,但是当数据存在异常值时,平均值就会容易被异常值带偏,不再能作为典型数据特征来使用。

第七章 数据变化

获得数据,掌握数据价值是我们对信息化世界洞察的一种重要途径。有数据支持的决策更具有科学性。但是数据来源的产生来自不同渠道,十分杂乱,因此如果我们正在处理的数据集是有不必要信息存在的,就需要谨慎处理。

交流数据的可信原则是数据的真实性,如果数据有很大的杀意,或者我们只处理有限的样本,我们应该让读者明白这一点,否则就会误导其作出错误的决定。

在本章中,我们我讲述的就是数据的变化。所谓数据变化是指个体观察与群体中其他个体观察的差异程度。

7.1 关于变化

在第六章中,我们展现了变量在其值形式的分布类型上有根本的不同,前者表现出种型曲线的高斯特性,而后者的特征是极端异常值。Benoit Mandelbrot和Nicholas Nassim Taleb都阐明了这种区别的重要性,以及它对我们处理数据的方式的意义。简而言之,用标准偏差等方差度量来描述和预测经济学和金融学中的任何参数等是应该避免的。

7.1.1 可视化的选择 拿到数据第一步便是展示数据,也就是可视化。那么如果仅仅显示平均水平,就会得出一个过于简单的总览,因为并不是一个国家的每一个人都拥有那个国家最常见的特征,即不是数据集中的每个值都等于平均值、中位数或众数。

如图7-1-1我们展示了一个简单的每月PM2.5平均浓度的折线图。

《DataFocus 和数据对话》图7-1-1
每月PM2.5平均浓度
《DataFocus 和数据对话》图7-1-1 每月PM2.5平均浓度
然而,从这个图表中我们不知道的是,一个月中每日的PM2.5浓度是否有差异性?有什么差异?除折线图以外,我们还可以用其他不同的方法来展示数据变化,如图7-1-2所示。

7-1-2 不同时间序列数据视图方式

7.2 随时间变化:控制图

控制图说明了随着时间的推移所收集的数据是否具有统计上的重要信号。在实际运用中,我们可以通过控制图来测量过程行为,尽量减少变化或进行数据监控改善,从而提高质量。 让我们先来看看控制图的整体呈现,如图7-2-1所示,然后我们再一步步创建它。

《DataFocus 和数据对话》图7-2-1
控制图样图
《DataFocus 和数据对话》图7-2-1 控制图样图
7.2.1 控制图的要素 控制图一般包含一下基本要素:
  • 时间序列数据集
  • 平均线/控制极限
  • 信号
  • -警告值(数据点超过最高标准或低于最低标准)
  • -颜色规则(科学划分数据集,利用颜色进行划分监控)

7.2.2 DataFocus中创建控制图

我们已经了解了基本知识,接下来我们通过DataFocus数据分析工具来创建控制图。我们集合2015-2018年成都的天气情况,如图7-2-2所示。

《DataFocus 和数据对话》图7-2-2
所用数据源
《DataFocus 和数据对话》图7-2-2 所用数据源
进入搜索页面,选择“成都天气”数据源,双击选择“日期”、“PM2.5_μg/㎥”。我们以2017年的数据为例,故在搜索框中键入“2017”,选择柱状图进行呈现,见图7-2-3。
《DataFocus 和数据对话》图7-2-3
创建基本时序图
《DataFocus 和数据对话》图7-2-3 创建基本时序图
设置标准线。可以选择设置直线模式或者范围(上下限)模式。这里以直线模式为例,点击图表属性——标度,选择直线——平均值——虚线显示,见图7-2-4。
《DataFocus 和数据对话》图7-2-4
设置标准线
《DataFocus 和数据对话》图7-2-4 设置标准线
设置警告值。当PM2.5浓度大于等于250μg/㎥时,为严重污染。见图7-2-5,设置成功后,超过250 μg/㎥浓度的柱形会以红色高亮显示,并发送邮件通知用户。
《DataFocus
和数据对话》图7-2-5设置警告值
《DataFocus 和数据对话》图7-2-5设置警告值

设置颜色规则: 优:0~35μg/m³(浅绿色) 良:35~75μg/m³(深绿色) 轻度污染:75~115μg/m³(蓝色) 中度污染:115~150μg/m³(黄色) 重度污染:150~250μg/m³(红色)

《DataFocus
和数据对话》图7-2-6设置颜色规则
《DataFocus 和数据对话》图7-2-6设置颜色规则
简单几步操作后,就可以得到如图7-2-7所示的控制图。可以看到2017年年初的PM2.5浓度是不理想的,甚至有两天严重污染,属于异常值。随着时间的推移,PM2.5浓度得到了很好的控制,到2017年年底时,基本达到良及良以上。
《DataFocus 和数据对话》图7-2-7
创建PM2.5浓度控制图
《DataFocus 和数据对话》图7-2-7 创建PM2.5浓度控制图
控制图对过程数据及时间数据有广泛的应用。在DataFocus中创建控制图标是跟踪该过程并对数据中的信号发出警报的好方式,用户可以根据的需要在设置统计的严格程度,大大的节省时间和精力。

第八章 多变量

在本章之前,我们都在讨论关于一个变量的问题。但在现实数据分析中,多个变量之间的探索分析是很常见也很重要的,发现这些关系可以发现新的数据价值。

在研究两个及多个变量时,有一个点需要注意:相关性并不意味着因果关系。也就是说仅仅因为两个变量似乎发生了变化,并不一定意味着其中一个变量会导致另一个变量发生变化;第三个变量可能导致另外两个变量都发生变化,也可能是巧合,根本没有任何因果感想。

因此,但我们拥有的只是相关性证据时,我们不能迅速地就假设因果关系的存在。

在本章中,我们将使用几种方式来探索多个变量关系,并放在同一个图表中。

8.1 散点图

散点图是通常用于显示和比较数值。通常情况下,在不考虑时间的情况下,数据越多,比较的效果更好。默认情况下,散点图以圆圈显示数据点,纵横坐标分别代表不同数据列。如有第三个数据列,以圆圈的大小显示数据,即为气泡图。如图8-1-1所示是职业足球球员的统计数据散点图。

《DataFocus 和数据对话》图8-1-1
足球球员的统计数据散点图
《DataFocus 和数据对话》图8-1-1 足球球员的统计数据散点图
让我们来探索如何创建这个散点图,首先确定根据球员控球和运球能力,来探索球员的基本能力,使用这两个信息轴来定位平面上的圆。 导入相关数据源,进入DataFocus搜索页面。双击选择“运球”、“控球”、“首选用脚”、“名字”字段,切换图形为散点图,至此我们就可以得到基本的散点图。 如图8-1-2所示,Y轴为球员的控球能力,X轴为球员的运球能力,图例为首选用脚。一个散点代表一个球员。
《DataFocus 和数据对话》图8-1-2
创建基本散点图
《DataFocus 和数据对话》图8-1-2 创建基本散点图
到目前为止,我们比较了两个变量:控球和运球,如果要添加第三个数据变量,我们可以直接双击“评分”字段,切换图形为气泡图,如图8-1-3所示。
《DataFocus 和数据对话》图8-1-3
添加第三个数据变量
《DataFocus 和数据对话》图8-1-3 添加第三个数据变量
圆圈的大小越大,该球员的评分也就越高。可以看到即使控球、运球能力较低的球员,其评分也可能挺高的,说明运球控球能力并不是球员踢球的唯一标准。 8.1.1 一个圆点代表什么? 在一个没有数据标签的图表中,我们无法认识到一个圆点具体代表的是什么? 简单的显示数据标签,只能显示Y轴的数据内容,想了解具体的详细的内容,DataFocus有一个非常棒的功能点,标签提示。当用户与图表交互时,将鼠标光标悬停在一个单独标记上(在本例中是圆形),提示就会出现。 如图8-1-4所示,当鼠标光标悬停在这个圆形上时,可以看到,这个圆形代表的是名为“Manuel Neuer”的球员,其运球能力为30,控球能力为48,评分为92。
《DataFocus
和数据对话》图8-1-4标签提示
《DataFocus 和数据对话》图8-1-4标签提示
8.1.2 美化图形 做完图表后,下一步纯粹是为了美观。可以点击图标属性,对主题颜色,字体大小,图例位置等进行设置。本例中,我们选择将主题颜色设置为默认列表第二种,图例位置设置为顶部,见图8-1-5。根据自己的偏好美化可视化部分。
《DataFocus 和数据对话》图8-1-5
自定义美化
《DataFocus 和数据对话》图8-1-5 自定义美化

8.2 堆叠条

散点图并不是在同一视图中显示多个变量的唯一方法。我们可以使用另一种可视化类型,堆叠条形图。堆叠条形图一般有两种形式:堆积条形图和堆积柱状图。

8.2.1 堆积条形图

本小节将创建一个堆积条形图。我们来了解各个球员的长传和短传能力。

双击选择“名字”、“长传”、“短传”字段入搜索框,并将数据按长传的总和降序排列。切换图形为堆积条形图。如图8-2-1所示,可以看到每个球员长传和短传的综合能力。

《DataFocus 和数据对话》图8-2-1
从多个度量创建堆积条形图
《DataFocus 和数据对话》图8-2-1 从多个度量创建堆积条形图

8.2.2 堆积柱状图

本小节将创建一个堆积柱状图。我们来了解各个球员的耐力和反应能力

双击选择“名字”、“耐力”、“反应能力”字段入搜索框,并将数据按耐力的总和降序排列。切换图形为堆积条形图。如图8-2-2所示,可以看到各个球员耐力和反映能力的综合情况。

《DataFocus
和数据对话》图8-2-2从多个度量创建堆积柱状图
《DataFocus 和数据对话》图8-2-2从多个度量创建堆积柱状图

8.3 组合图

除了散点图和堆叠条形图以外,还有另一种多变量视图——组合图。组合图以折线图和柱状图的结合的方式呈现,可以设置为双Y轴,但是要注意只能探索两个变量的数据关系。

本节将创建一个组合图。我们来了解各个球员的协调性和敏捷性。

双击选择“名字”、“协调性”、“敏捷性”字段入搜索框,并将数据按协调性的总和降序排列。切换图形为组合图,并设置“敏捷性的总和”为右Y轴。如图8-3-1所示,可以看到球员的协调性和敏捷性变动基本一致,说明两个能力有一定的联系。

《DataFocus 和数据对话》图8-3-1
从两个度量创建组合图
《DataFocus 和数据对话》图8-3-1 从两个度量创建组合图

第九章 随时间变化

说到与数据交流,时间就是一切,并且时间是一个无法忽略的因素。举个例子,我们看网络上、印刷品上或办公室里的任何数据展示的时候,你往往不需要很费力就能看出时间的要素存在。还有一些比如月度失业率,季度每股收益,周末票房最高的电影等数据分析结果,如果时间元素没有在某个地方被明确表示出来,那么整个结果就失去了应有的价值。

但是,如果我们考虑到去分析一些结果是如何变化的或正在变化的,以及一些变量可能会随着时间的推移而变化,考虑这个过程而不仅仅看时间元素本身而是动态的,我们就可以开启一个全新的视角:

  • 情况是在好转还是恶化,还是在继续恶化?
  • 时间是否以不同的方式反映一个变量?
  • 在特定时间段内,数据是否存在趋势、异常值或变化?
  • 随时间变化的程度是显著的还是平缓的?

这些都是在与数据交流时关于时间的核心问题。随着时间的推移,有很多方法可以用来反映变化,我们将在本章中展示其中的一些方法,首先从简单而有效的折线图开始。

9.1 时间图表的起源

苏格兰工程师、政治经济学家威廉•普莱费尔(William Playfair)在1786年发明了折线图,当时他在自己的著作《商业与政治地图集》(the Commercial and political Atlas)中描绘了各国之间的贸易平衡。

《DataFocus 和数据对话》图表
9-1-1
《DataFocus 和数据对话》图表 9-1-1
这里描述了两行数据,显示了随时间变化而产生的变化。我们已经习惯了如今看到的折线图,但是当看到以这种方式画出的图表反倒是很新奇。然而折线图的年龄甚至还没有美国大。威廉·普莱费尔肩负着先驱者的任务,要把他这种新的数据展示模式介绍给当时的人们。

关于线图,我们来看几个例子。

9.2 线图

我们知道,电商行业是用数据的“大户”,因为其交易属性都为数字化交易。我们首先来看一个简单的数据表格。维度是大家熟悉的时间(月份)和新老客客单价及课件数数据。

《DataFocus 和数据对话》图表9-2-
1
《DataFocus 和数据对话》图表9-2- 1
为了创建一个线图,我们可以登录DataFocus系统,导入数据后,在左侧双击“月份”和其它任意维度,并在右侧图形转换按钮中选择“折线图”,创建随时间变化的折线图。
《DataFocus 和数据对话》图表9-2-
2
《DataFocus 和数据对话》图表9-2- 2
那么如何去表达或演绎它呢,在图中我们可以看到,系统已经给出了最大值和最小值,以及可以作为benchmark(标杆线)的平均值。在11月客件数达到了最大值,因为双十一的关系,同理6月亦然。在此图我们只要表达出变化的极值就可以。
《DataFocus 和数据对话》图表9-2-
3
《DataFocus 和数据对话》图表9-2- 3
而我们看客单价,是不断在变化的。11月之后就相对的一直走低,并在9月开始涨势迅猛,在11月到达了顶点,客单价为55元。类似这种变化较明显的线图,需要表示它的涨跌行为以及峰谷值。 甚至我们可以使用组合图来分析客单价和客件数的相关趋势,点击右侧图形转换按钮,点击组合图。在右侧维度上单击可转换为折线或柱状图,并且可以点击右侧坐标轴按钮,将客件数设置为单独的Y轴以便查看。
《DataFocus 和数据对话》图表9-2-
4
《DataFocus 和数据对话》图表9-2- 4
《DataFocus 和数据对话》图表9-2-
5
《DataFocus 和数据对话》图表9-2- 5
这样我们就能得到一张组合图,可以看到6月虽然客单价偏低,但是客件数较高,可以尝试用一些关联商品的方式提高客单价。

9.3 双轴线图

上述最后一张图表我们展示了组合图的表达方式,使用柱状图和折线图去表达两个维度之间的关系,以便找到最优解。事实上,很多场景上我们还可以利用双轴折线图来表达。我们举一个生活中的例子。作为一个笔记本产品经理,对比同类型同定位的竞品品牌和型号参数是非常重要的,我们列举一些平价的商务触控或轻薄笔记本的数据,如下图表格所示。

《DataFocus 和数据对话》图表9-3-
1
《DataFocus 和数据对话》图表9-3- 1
对于很多女生或者学生党来说,她们除了外观、大小等参数之外,最重视的还是笔记本的价格、厚度和重量。后两者一般来说成正比,因此我们可以抓取其中一个进行分析,比如厚度。打开DataFocus,导入数据,双击“型号”、“厚度”和“价格”进行分析,右侧“图形转换”按钮选择折线图,系统将自动生成两条折线图。并且按照上述组合图的方法,将其中一个维度设置为右Y轴,便可得到想要的双轴折线图。
《DataFocus 和数据对话》图表9-3-
2
《DataFocus 和数据对话》图表9-3- 2
我们可以看到两条曲线,上方为厚度曲线,下方为价格曲线,两者的数据表现都应是“谷值”约高越好,也就是数值越小越好。首先可以来看有“峰谷”表现的,或者说两者数值一高一低的款式,这是最容易让消费者纠结的,需要取舍。微软的Surface Book 2是上述选择中最厚的笔记本,但却拥有较低的价格,有同样“峰谷”表现的还有惠普的幽灵i5款。而“双低”表现的有XPS 13的i515寸和i7触控版本,因此如果只看重这两个维度的消费者,XPS 13的两款笔记本是较匹配的选择。 当然,为了更精确地查看数值进行对比,我们除了将鼠标移上去悬停之外,还可以点击右侧“显示数据标签”按钮。
《DataFocus 和数据对话》图表9-3-
3
《DataFocus 和数据对话》图表9-3- 3
那么同样的,对于时间来说,双轴折线图同样适用,比如我们研究电商里的付款周期。可用于对比不同付款周期人数占比随时间的变化。
《DataFocus 和数据对话》图表9-3-
4
《DataFocus 和数据对话》图表9-3- 4

9.4 按季节或其他时间变化的数据类型

所以说到时间变化,我们少不了研究按日期分析的类型以及有些时候的季节性反映情况。如果对于本地数据来说,我们需要提前养成良好习惯,将日期类型的数据提前设置属性。我们以最常出错的EXCEL为例,如若不设置,EXCEL默认将日期格式设置为“字符串”类型,因此我们有时需要进行手动设置,才能更好的用各类BI系统进行分析。

《DataFocus 和数据对话》图表9-4-
1
《DataFocus 和数据对话》图表9-4- 1
打开DataFocus,导入数据,我们以上图付款周期分析为例,如要查看每月付款周期在10分钟以内的人数占比,则可以双击10分钟以内,然后在搜索框键入“按月统计的”进行分析。
《DataFocus 和数据对话》图表9-4-
2
《DataFocus 和数据对话》图表9-4- 2
如图所示,系统会自动展示每月的付款周期在10分钟以内的占比。可以明显看到4月的此类人数占比最低而11月最高,继而我们可以把它一键转化为折线图,以更好的查看趋势。
《DataFocus 和数据对话》图表9-4-
3
《DataFocus 和数据对话》图表9-4- 3
我们都知道,很多公司都会做季度总结或季度分析,我们可以框取我们需要的月份,以单独分析,比如我们要分析第四季度,就可以框取9-12月的距离进行放大查看。
《DataFocus 和数据对话》图表9-4-
4
《DataFocus 和数据对话》图表9-4- 4
《DataFocus 和数据对话》图表9-4-
5
《DataFocus 和数据对话》图表9-4- 5
除了上述“按月”的时间关键词搜索,还可以进行如下关于时间的其他关键词搜索: 每年/每季度/每月 10分钟以内

按月统计 10分钟以内

2019(具体年份)10分钟以内—>2019 10分钟以内 9月(加上具体月份)

按周日期统计 10分钟以内

周三(具体周几) 10分钟以内

在"2019/04/01" 和"2019/05/01" 之间的10分钟以内

环比:按 日期 计算的 10分钟以内的总和 的月/季度/周/年增长率

同比:按 日期 计算的 10分钟以内的总和 的月/季度/周/年增长率

9.5 时间线

说到时间线,我们再说个故事。英国神学家和化学家约瑟夫·普里斯特利(Joseph Priestley)在威廉·普莱费尔(William Playfair)的“时间线”(line plot)问世20年前,创造了已知的首条时间线,其中每条线代表一位历史上有影响力人物的一生。

《DataFocus 和数据对话》图表 9-5-
1
《DataFocus 和数据对话》图表 9-5- 1
对我们现在的应用场景来说,这似乎是描述这类信息的一种相当便捷的方式,但对普里斯特利的读者来说,这是一种创新。在我们这个时代,像这样的时间线在项目管理中被广泛使用,DataFocus也包含很多反映时间线的图形,我们以目前最流行的瀑布图为例。

还是使用付款周期案例,点击右侧“图形转换”按钮,选择“瀑布图”,即可将上一节的内容进行转换。

《DataFocus 和数据对话》图表 9-5-
2
《DataFocus 和数据对话》图表 9-5- 2
我们可以看到随时间变化的付款周期比率变化。其中变化最大的是11月,也就是双十一期间。可以看出整个付款周期还是比较健康的,没有坏值。同样的,处理时序数据,还可以使用DataFocus图形转换—高级图形中的时序图系列。

9.6 平行图

平行图是通过通过绘制平行坐标来查看多维数据中的模式,使用平行图,我们可以直观表示数据表中的各个单元格。在平行图中绘制表示数据表中各行的相连线段。平行图最初由 Inselberg (1985) 开发,后来由 Wegman (1990) 推广使用。

我们还是以刚才的客单价/客件数为例,打开DataFocus系统,导入数据后在右侧“图形转换”按钮中的高级图形当中选择“平行图”。如下图所示:

《DataFocus 和数据对话》图表 9-6-
1
《DataFocus 和数据对话》图表 9-6- 1
图中可通过每月折线的“上升和下降”清晰洞察每月客单价和客件数的情况,要注意的是,平行图中的每个单元格需存在相关性,和业务场景相匹配,否则是无效且容易误导的,比如下图中,内存、尺寸、厚度等维度相互独立并不关联,中间的“连线”毫无意义。
《DataFocus 和数据对话》图表 9-6-
2
《DataFocus 和数据对话》图表 9-6- 2

第十章 地图和位置

地图不仅具有展示位置或空间数据的作用,而且非常实用。简单地说,地图很多时候是我们交流事物之间关系的一种方式。说到“地图”这个词时,可能我们都会想到一张世界地图的画面,但已知最早的地图是关于天空的。法国西南部拉斯科洞穴墙壁上的小点可以追溯到公元前16500年,并被解释为其作用是描述星座彼此之间的位置。

地图有很多不同类型,建筑平面图也是地图,构造图和热力图也可以显示数据表达的位置。它们的共同之处在于,它们至少有一个数据维度是物理空间中的位置变量。

一般来说,地图有两个位置编码:经度和纬度,或更普遍的是,x和y,当然实际上空间不是一个平面,因此有时候我们将需要使用其他的变量或参数,来立体的展示。

10.1 特殊的地图

1812年冬天,法国土木工程师查尔斯·约瑟夫·米纳德(Charles Joseph Minard)带着一幅地图离开了世界。这幅地图描绘了拿破仑军队在时运不济的情况下走向莫斯科,又回到莫斯科的情景。

《DataFocus 和数据对话》图表10-1-
1
《DataFocus 和数据对话》图表10-1- 1
面积的厚度代表了拿破仑军队的规模,浅色的面积带显示了法国士兵向莫斯科挺进,黑色的面积带显示了他们的归来的情况。面积带的逐渐变窄传达了在战斗中发生的损失。底部的线图显示了返回期间的温度。

这幅著名的地图最引人注目的地方在于,它是由一个根本不是专业制图师的人绘制的。米纳德的职业生涯是在水坝、运河、桥梁和铁路上度过的,他的地图在当时基本上被专业制图师所忽视。米纳德是穿越地形的群众流动方面的专家,他把他的专业知识应用到他的爱好的历史上。

使用今天的工具,只要稍加努力,任何人都可以成为像米纳德这样的制图师。我们可以用DataFocus来一键生成自己想要的地图。

10.2 经纬气泡图

和气泡图类似,经纬气泡图就是在气泡图的基础上,加入经纬维度,如分析产品的地理优势等等。我们以下图数据表为例:

《DataFocus 和数据对话》图表10-2-
1
《DataFocus 和数据对话》图表10-2- 1
打开DataFocus系统,导入数据,注意,导入后需进行一步设置,以正确显示为地区格式,如图所示。点击导入好的数据标,向右划到“地域类型”列,将地区列设置为“province”(省份),若是市级则设为“city”(城市)。
《DataFocus 和数据对话》图表10-2-
2
《DataFocus 和数据对话》图表10-2- 2
接下来在分析界面,搜索地区及想要分析的其他维度即可,如购买人数。系统将自动显示为地图图表。颜色深浅代表数值的大小,数值越大,则颜色越深,如图中购买人数最多的为浙江省。
《DataFocus
和数据对话》图表10-2-3
《DataFocus 和数据对话》图表10-2-3
那么接下来,需要展现经纬气泡图、热力图和统计图,我们需要更细致的数据,那就是具体的经纬数据,通常适用于展现具体的城市的数据,我们把上述数据表修改一下,得到具体的经纬数据。
《DataFocus 和数据对话》图表10-2-
4
《DataFocus 和数据对话》图表10-2- 4
导入数据后,也需要像位置图一样进行设置,其中“省会”设置为“city”,经度设置为“longitude”,纬度设置为“latitude”。
《DataFocus 和数据对话》图表10-2-
5
《DataFocus 和数据对话》图表10-2- 5

接下来在搜索界面,双击“省会”、“经度”、“纬度”,系统会自动生成相应的经纬图。如图所示。鼠标点击各城市图标即可获得相应数据。点击右侧图形转换按钮,即可切换为经纬气泡图,气泡颜色越深则代表数值越大。

《DataFocus 和数据对话》图表10-2-
6
《DataFocus 和数据对话》图表10-2- 6
《DataFocus 和数据对话》图表10-2-
7
《DataFocus 和数据对话》图表10-2- 7

10.3 经纬热力图

经过了上述步骤,接下来的图形制作就非常容易了,我们只需要点击右侧的图形切换即可,首先我们可以切换为经纬热力图。鼠标滚轮可以放大查看,数值大的会显示高热度,也就是红色,数值低的会显示蓝色低热度。

《DataFocus 和数据对话》图表10-3-
1
《DataFocus 和数据对话》图表10-3- 1

10.4 经纬统计图

接下来我们可以切换为经纬统计图,“条”的长度代表数值大小,若是数据较多,可以滚轮放大至某一区域进行查看。

《DataFocus 和数据对话》图表10-4-
1
《DataFocus 和数据对话》图表10-4- 1

第十一章 数据看板的乐趣

11.1 DataFocus中的数据看板

“You don’t have to cook fancy or complicated masterpieces—just good food from fresh ingredients.” —Julia Child

如果我们将数据交流与烹饪美食进行比较,那么截止目前我们在本书中所传达的内容就相当于一门关于个人进餐的课程。正如大厨都知道如何搭配各类食材来做一顿佳肴一样,一位数据沟通专家也可以利用不同的图形和表格来传递多方面的信息。

一顿丰富的美味佳肴,其中包含有各类不同的菜系,正如DataFocus中的数据看板,一个数据看板,包含了大大小小各类不同的图形或者表格。

在深入了解DataFocus数据看板之前,我们需要区分两个不同但是有关系的词:

一个是数据仪表板:

数据仪表板通常单个显示,其结合了多个数据可视化表格,图形以及文本等,以提供主题的多面视图。

另一个是DataFocus中的数据看板

DataFocus中的数据看板允许用户将一个或多个表格与其他对象(如文本,图像)组合到一个显示中。

第一个主要是描述数据如何共享的通用术语,第二个主要是与DataFocus的一些具体功能相关。 两者之间的主要区别在于,数据仪表板始终在同一大屏中包含多个视图,而DataFocus中的数据看板则不一定会包含多个视图(尽管经常这样做)。换句话说,DataFocus可以创建仅包含单个工作表的数据看板。

DataFocus中的数据看板,支持动态交互,不同类型的数据看板适应于不同的应用场景,如用户有更好的想法,可以克隆数据看板,在原看板上进行样式或功能的修改,也支持各类自定义组件,实现真正的数据看板不受限。

在DataFocus中创建的数据看板有许多优点。为了说明这些优点,我们对比一个普通的仪表板,如图11-1-1所示。

《DataFocus 和数据对话》图11-1-1
对比仪表板
《DataFocus 和数据对话》图11-1-1 对比仪表板
下面6点是DataFocus的数据看板明显具有的优势:

1. 描述性文本

在DataFocus中,可以添加描述主题或者提供重要背景信息的标题文本组件。

2. KPI和指标

在DataFocus中,可以添加重要指标,KPI或汇总值,可以自由设定KPI的摆放位置,通常位于数据看板的顶部,用于传达“大图”。

3. 多个注释文本

在解释性数据看板中,可以添加多个注释文本,即浮动文本组件来解释异常值等。

4. 过滤器

在探索性仪表板中,可以添加针对于整个数据看板的过滤器,允许用户询问和回答有关数据的许多不同问题。

5. 临时隐藏

数据看板中的每个可视化图形,为了突出显示图形中某些部分,可以临时隐藏部分图形。

6. 多媒体

可以将图像,静态的或者动态的,添加到数据看板,作为看板的背景图或者单个图表的背景图,为整个数据看板的可视化效果锦上添花。

《DataFocus
和数据对话》图11-1-2展示了六个仪表板优势
《DataFocus 和数据对话》图11-1-2展示了六个仪表板优势
《DataFocus
和数据对话》图11-1-3实际看板示例
《DataFocus 和数据对话》图11-1-3实际看板示例

正如这六个优点所表明的那样,无论用户是使用单个图表分析一个简单的问题还是通过多个可视化图形来说明一组复杂的关系,DataFocus都能提供设计自由度和交互式功能,以实现用户的目标。

本章,我们主要来了解下不同类型和样式的数据看板,以及在创建数据看板时我们需要考虑的关键因素。

11.2 一句警告

在我们深入研究数据看板之前,我们先思考一下,我们这么做是否有必要。在传递数据时,我们需要思考:将多个不同的可视化图形组合到同一个数据看板中真的有必要吗?这会不会让阅者感到视觉压力?数据看板中数据过度加载是一个非常现实的问题,分析师经常通过强制性的方式向数据看板添加越来越多的数据。

正如我们所知道的那样,最好的食物往往不是最复杂的那个。因此,最不复杂的数据显示通常以最强烈的方式传达信息。更多并不代表着更好,在向数据看板添加任何内容时应小心。 在下述情况里,数据看板中应同时显示多个图表:

  • 配置不同的图表,以便用户从多方面视角分析数据;
  • 不同图表之间的交互,例如看板过滤,允许用户分析关于数据的大量临时问题;
  • 存在一些固有的约束,例如无法用单个图表传达所需的全部内容。

11.2.1 “从心中的目的开始”

在DataFocus或任何其他工具中设计数据看板之前,用户需要清楚地知道为什么需要创建数据看板。如果只是希望通过数据可视化给阅者留下深刻印象,那么我认为最好重新思考下目标三角形:

  • 谁是目标受众?
  • 我的意图是什么?
  • 期望怎么样的效果?

一旦定义了这三个核心元素,就必须更详细地定义数据看板的关键目标,例如数据看板的主要目标是什么?有没有次要目标?

以下是另外几个需要考虑的问题:

  • 是否试图让目标受众提出问题,并且我能够回答他们的问题?
  • 我的目标受众是否对主题感兴趣,如果是,为什么?他们对数据最感兴趣的是什么?
  • 数据是否与我的目标受众负责的特定任务或决策有关?数据可以如何帮助他们决策?

一旦得到这些问题的答案,应该就能够基本确定哪种类型的数据看板最合适。

在下一节中,我们将考虑五种不同类型的数据看板。

11.3 数据看板类型

DataFocus中可以创建3种不同类型的数据看板:解释型的,探索型的,解释/探索结合型的:

1. 解释型数据看板

此类型的数据看板,主要目标是指出关于某一主题的特定事实来优化调整现有策略。主要功能包括文本注释等。解释性仪表板通常是静态的,只有极少数(如果有的话)交互元素,如图11-3-1中所示。

《DataFocus
和数据对话》图11-3-1
《DataFocus 和数据对话》图11-3-1

2. 探索型数据看板

此类数据看板主要目的是允许用户深入研究主题,并找到有关一大堆潜在问题的答案。探索性数据看板通常是交互式的,具有各种类型的控件,允许用户深入查看数据过滤数据,如图11-3-2示例所示。

《DataFocus
和数据对话》图11-3-2
《DataFocus 和数据对话》图11-3-2
3. 解释/探索结合型数据看板

此类型数据看板既支持解释事实,同时也允许进行数据分析。因此,它们通常包括可以添加注释文本的浮动文本组件,以及可以进行交互的各类控件,例如商品的库存分析,如图11-3-3所示。

《DataFocus
和数据对话》图11-3-3
《DataFocus 和数据对话》图11-3-3
11.3.1使用场景的重要性

数据看板适用于在各种不同的场景中传递数据,包括做分析、做决策支持的时候。接下来我们介绍下使用场景对数据看板的重要性:

在很多时候,比如在做分析或者需要决策支持的时候,我们通常会创建数据看板以显示一段时间内的工作绩效,并为实现增长目标所需要的管理决策提供信息。许多商业智能(BI)和Web分析仪表板以及KPI记分卡都属于这一类。图11-3-4显示了对网页浏览情况的分析。此数据看板可以回答以下问题:

  • 我们应该关注哪些版块的内容以便吸引更多的流量?
  • 流量是否与时间有关系,不同时间段内是否需要设定不同的策略来吸引流量?
  • 我们的读者主要位于哪些地方,应该如何优化营销策略?
《DataFocus
和数据对话》图11-3-4
《DataFocus 和数据对话》图11-3-4
有了上下文,有了使用场景,我们才能更好更准确地了解数据看板所传达的意义。

第十二章 创建数据看板

在上一章中,我们将创建数据看板的行为与烹饪美食进行了比较。不管是创建数据看板还是烹饪美食,很多人都会误以为“材料”越多越好,但事实并不是这样。

如果将创建数据看板比喻为造房子,那么数据就是不可或缺的粘土,而砖块就是一个个的图表,最终建完的房子就是我们的数据看板,但是很重要的一点,在造房子之前,我们需要先设计先决定房子应该造成什么样。因此,构建一个可以很好地传达数据的看板并不是那么容易就完成的,它需要一些创造性思维和勤奋的工艺。与所有创作过程一样,构建数据看板的过程很少是线性的,整个过程中通常会进行大量的返工和微调。

话虽如此,但是在DataFocus中确定数据看板创建所需要的步骤还是非常有用的:

1. 设计 了解数据类型,分析的主题,按照主题设计一些数据看板布局的粗略草图。

2. 固化 将每个数据分析图表保存固化,然后将它们添加到同一个数据看板,根据之前设计的布局方式对图表的大小位置进行调整。

3. 文本 添加标题文本,加入说明性文本或者建议性文本,比如对整个看板的分析结果做一个总结性的描述,或者是像数据看板的受众解释如何与看板进行交互等。

4. 图像 根据需要添加图像组件,可以是公司的logo,也可以是辅助数据看板传达信息的相关图片。

5. 格式化 通过调整数据看板内的字体,背景,网格线和阴影来配置数据看板的适合度和光洁度,以消除干扰并数据看板的视觉吸引力。

6. 过滤 设置数据看板的过滤器,以实现用户与数据看板之间的交互,以便帮助用户探索分析临时性问题。

7. 分享 制作完成的数据看板,可以通过在系统内分享,也可以在移动端查看分享,还可以导出到本地进行传阅。

我们最终创造怎样的数据看板在很大程度上取决于我们希望实现的目标:

  • 如果我们想让用户发现问题,我们会建议创建一个探索性的数据看板,使其易于操作,交互灵活,实时分析。
  • 如果我们想让用户知道企业存在问题的原因,那么我们将需要创建一个解释性的数据看板,来说明问题出在哪里以及解决方案是什么。

下面,我们一起来构建一个探索性的数据看板以及解释性的数据看板,体会下两者的区别之处。

12.1 创建探索性的数据看板

正如我们在前一章中所讨论的那样,探索性的数据看板,其主要目的是让用户能够通过不同的维度灵活分析数据,并发现潜在的问题。 知道了我们的目标,现在我们就按照之前所说的7个步骤,来创建一个探索性的数据看板,并不是每次都要走完7个步骤,这7个步骤是模板,在实际应用中,我们可以按照不同的需求,进行裁剪,已达到我们的目的:

1. 设计主题风格 我们这次要设计一个探索性的数据看板,主题是销售业绩,所以我们以简洁明了的风格为主,不过多的设置添加功能组件,仅从不同的维度来分析数据;

2. 搜索数据固化图表 我们将数据导入到DataFocus系统后,在搜索页面,从多个维度来分析数据;

从时间维度来查看销售以及利润情况,利用DataFocus关键词搜索的优势功能,我们可以直接在搜索框内输入:每周销售额利润,系统实时返回搜索结果,如下图12-1-1所示,将结果保存固化,点击右上角操作—保存,命名为“周销售利润”,并将其添加进新建的数据看板;

《DataFocus
和数据对话》图12-1-1
《DataFocus 和数据对话》图12-1-1
其次我们从地理位置的角度来分析利润情况,观察不同的地区其利润差异是否较大。直接在搜索框内输入:省份利润,系统会自动根据搜索结果智能推荐最合适的图表展现,如下图12-1-2所示,因为有省份信息,故以地图的形式展示数据分析结果,同样地,我们将结果固化保存,添加到同一个数据看板;
《DataFocus
和数据对话》图12-1-2
《DataFocus 和数据对话》图12-1-2

接下来我们将从客户的角度出发,分析企业的产品销售客户的类型,哪些类型的客户更容易购买我们的产品,从而加大对该类客户的运营推广,在搜索框内,我们加入客户类型,以及销售均值,最终结果同样保存固化,如下图12-1-3所示;

《DataFocus
和数据对话》图12-1-3
《DataFocus 和数据对话》图12-1-3
除分析不同客户类型的销售均值之外,我们还可以分析客户购买的产品,哪些是畅销款,哪些是滞销款需要进一步优化,例如在搜索框内加入产品、客户以及销售额这三个维度进行分析,最终结果保存固化,如下图12-1-4所示;
《DataFocus
和数据对话》图12-1-4
《DataFocus 和数据对话》图12-1-4
最后,我们从销售员的身上出发,分析不同员工其销售业绩如何,侧面反映出该员工的个人能力以及工作效率,在搜索框内输入销售人员、存货分类、销售额这三个维度,结果实时展示,最后保存固化,结果如下图12-1-5所示;
《DataFocus
和数据对话》图12-1-5
《DataFocus 和数据对话》图12-1-5
3. 设置探索分析主要工具—过滤器

在创建完数据看板之后,最重要的一步就是设置我们探索分析的功能组件—过滤器,如何设置?

在数据看板的查看页面,鼠标移至最上方,点击漏斗过滤器,选择需要的过滤字段,如下图12-1-6所示,关闭过滤设置窗口,直接在过滤器中进行筛选,即可看到如下图12-1-7所示的效果;

《DataFocus
和数据对话》图12-1-6
《DataFocus 和数据对话》图12-1-6
《DataFocus
和数据对话》图12-1-7
《DataFocus 和数据对话》图12-1-7
在探索性的数据看板中,如何灵活的分析多维度多时间段的数据是最关键的一个环节,而设置过滤器正好可以从各个维度各种不同的自由组合中分析数据,从而发现其中潜在的问题。

12.2 创建解释型的数据看板

使用数据分析,可以得出很多很多结论,如何在数据看板或者数据报告中体现你的结论,这就是解释型数据看板的意义所在。

解释型数据看板主要针对的是整个数据看板呈现的分析结果或者想要说明的事实,其中不乏需要添加一定的描述性文本,接下来我们就一起来创建一个解释型的数据看板,体会下这类看板与探索型的数据看板之间有什么区别。

首先,我们按照7大过程组来进行裁剪,因为我们制作的是解释型的数据看板,所以在7大过程组中,最重要的是前3个过程组,即了解目标,设计主题-固化报表完成看板-添加文本注释。

1. 设计主题风格

由于我们主要以描述事实为主,且文本注释在数据看板中会占据一定的位置,故我们在设计数据看板布局的时候,需要把文本注释的布局位置一同设计,总体风格以简介明了为主。

2. 固化报表

解释型数据看板,由于其目的是展现事实,因此看板中的图表不再是以各个不同的维度数据或者是汇总数据组成,而是由最终的结果图表组成,例如下面我们要创建的就是利用图文结合的方式,来描述中国楼市目前的现状;

首先想要了解中国楼市的现状,我们需要知道楼市房价的变动与哪些因素有关,以及是正相关还是负相关,因此我们主要从与房价变动有关的四个方面,来描绘出中国楼市的现状,所有数据来源于国家统计局。

其一就是GDP,从国家统计局可以找到房价以及GDP的数据,我们把数据导入datafocus中,直接搜索年份、房价增长,GDP增长这三个字段,系统智能展示图表,为了更好的展示彼此之间的规律,我们将图形转化成折线图展示,如图12-2-1所示,最后将图表固化保存,添加到新建的数据看板中;

《DataFocus
和数据对话》图12-2-1
《DataFocus 和数据对话》图12-2-1
其二就是与CPI之间的关系,同样的,我们将CPI数据与房价数据导入到系统中,并在搜索页面直接搜索相关的字段,并将最终的图表结果固化保存,添加到同一个数据看板中,如下图12-2-2所示;
《DataFocus
和数据对话》图12-2-2
《DataFocus 和数据对话》图12-2-2
第三个就是与销售面积之间的关系,图表制作的过程与之前一样,非常简单,搜索固化即可,将结果添加到同一个数据看板中,如下图12-2-3所示;
《DataFocus
和数据对话》图12-2-3
《DataFocus 和数据对话》图12-2-3
最后的一个因素就是投资方面的因素,操作全都雷同,如下图12-2-4所示;

至此,所有的图表都已制作完成,相当于数据看板已经完成了一大半,剩下的就是添加文本注释了。

《DataFocus
和数据对话》图12-2-4
《DataFocus 和数据对话》图12-2-4
**3. 添加注释文本,重要环节**

在数据看板的图表制作完成之后,我们最后一个环节,就是在数据看板中添加文本注释,用文字来描述图表所包含的意义,以便受众更清晰的了解到中国楼市的现状。

在数据看板的编辑页面,如下图12-2-5所示,在左上角有一个文本组件,可选择添加标题组件或者浮动组件,在网格布局下,我们选择标题组件即可;

《DataFocus
和数据对话》图12-2-5
《DataFocus 和数据对话》图12-2-5
在标题组件的中我们可以自由添加文本内容,并且可以调整文本组件的大小,以便更好的适应数据看板的布局,如下图12-2-6所示;
《DataFocus
和数据对话》图12-2-6
《DataFocus 和数据对话》图12-2-6
最终我们得到如下图12-2-7所示的数据看板,可以清晰的看到,与之前制作的探索型的数据看板不同,解释型的数据看板,有很大一部分内容都是文本。
《DataFocus
和数据对话》图12-2-7
《DataFocus 和数据对话》图12-2-7
我们首先创建了探索型的数据看板,然后发现了一些潜在的问题,最终讨论才得到了有效的解决方案报告。从这个意义上说,datafocus不仅是一个出色的数据展示工具,它还是一个很棒的数据探索工具。

在下一章中,我们将在数据看板构建中考虑一些更高级的用例,例如具体来了解下文本功能和嵌入图片等,如果数据看板是一个建筑物,那么这些功能就是我们在建造后安装到它们中的高科技设备。

第十三章 数据看板高级功能

在DataFocus中,可以利用很多的组件或者自定义设置,将最基础的数据看板,优化成高级多功能看板,本章我们将一起了解学习其中比较常用的功能组件。 最常用的功能组件包括以下几个: •设置数据看板动画背景 •添加自定义图像、公司logo •添加带过滤器的导航 •设置主题系列数据看板 如何使用这些功能组件,且看本章节教程内容。

13.1 设置数据看板动画

有时候,在做完数据看板后,总觉得缺少点什么,会有种怎么别人做的都是特酷炫的数据看板,你做的就是这种规规矩矩很普通的数据看板,其实这都是因为你没有很好地利用数据看板中一些隐藏的小功能而已,我现在就带你体验下如何从简单到不简单。 例如我们现在有一个如下图13-1-1所示的基础看板,嗯,确实很普通很简单。

《DataFocus
和数据对话》图13-1-1
《DataFocus 和数据对话》图13-1-1
在数据看板改造过程中,我们只需要设置一个数据看板背景,就可以将其从原先简简单单变成人人眼中酷炫的那个看板。那要怎么做的? 首先,我们进入数据看板编辑页面,可以看到有很多可以设置的地方,我们找到设置大屏背景的地方,如下图13-1-2所示;
《DataFocus
和数据对话》图13-1-2
《DataFocus 和数据对话》图13-1-2
其次,我们选择上传本地的图片作为数据看板的背景,也就是大屏背景,图片格式可以是静态的.jpg、.png等格式,也支持上传gif动图,这次我们选择上传gif动图,并且将动图的布局方式改为平铺,如下图13-1-3所示;
《DataFocus
和数据对话》图13-1-3
《DataFocus 和数据对话》图13-1-3
接下来为了更好地适应背景效果,我们需要对各个图表的背景以及文字等进行设置,例如我们将每个图表的组件背景以及标题背景设置成透明,组件文本以及标题文本等设置成白色,以区别与背景底色,设置文本以及背景的地方同样在页面右侧,如下图13-1-4所示;
《DataFocus
和数据对话》图13-1-4
《DataFocus 和数据对话》图13-1-4
最终,我们利用动态背景,将一个平平淡淡的数据看板,大变身成一个酷炫的动态看板,效果如下图13-1-5所示。
《DataFocus
和数据对话》图13-1-5
《DataFocus 和数据对话》图13-1-5
从这个例子中,我们了解到正确设置数据看板背景有多重要,其直接影响我们的视觉体验。

13.2添加自定义图像

在很多时候,我们做的一些报告会传给不同的人查看,有可能是公司内部的,但也有可能是公司外部的,而数据看板往往是报告的组成部分,这时候,我们通常需要在数据看板上打一个公司的logo,相当于是一个标识,代表着这是我们公司的独有资产,不可侵权。那么,在DataFocus,如何添加自定义图像,比如公司logo? 这部分,只需要通过一个多媒体组件即可完成,我们可以在数据看板编辑页面,选择多媒体组件,添加浮动图片,如下图13-2-1所示;

《DataFocus
和数据对话》图13-2-1
《DataFocus 和数据对话》图13-2-1
随后在已添加的图片组件中,在右侧选择上传logo图片,可自由调整图片组件的大小以及位置,一般为了布局较为合理,我们通常将logo放在左侧下方,如下图13-2-2所示;
《DataFocus
和数据对话》图13-2-2
《DataFocus 和数据对话》图13-2-2
最后呈现的效果如下图13-2-3所示,我们可以在任意的数据看板上添加自定义图像,但是在添加图像时,我们要谨记之前所说的,数据看板中并不一定是内容越多越好,而是越精越好,不要随意添加图像来破坏看板的布局,我们要做的是锦上添花,而不是从中破坏。
《DataFocus
和数据对话》图13-2-3
《DataFocus 和数据对话》图13-2-3

13.3 添加带过滤器的导航

我们可以有效地使用DataFocus作为演示工具,添加过滤器作为灵活分析各个维度的辅助工具。如果想要在整个数据看板中过滤某一条件,所有图表随过滤条件更新的话,需要确认图表的数据来源于同一个表中,否则,设置的过滤器起效果的仅仅只有某几个图表而已,而不是面向整个数据看板。如何设置过滤器,其实非常简单,仅需要一步即可。 首先需要进入数据看板的查看页面,之前进入的都是数据看板的编辑页面,其次,我们将鼠标移到页面顶部,可以看到会显示出一些设置项,选择漏斗按钮,即可开始设置过滤字段,如下图13-3-1所示;

《DataFocus
和数据对话》图13-3-1
《DataFocus 和数据对话》图13-3-1
过滤器设置完成之后,即可进行筛选过滤,例如我们筛选“湖南省”,即可看到数据看板中的图表都已“湖南”作为筛选条件进行图表更新。如下图13-3-2所示;
《DataFocus
和数据对话》图13-3-2
《DataFocus 和数据对话》图13-3-2
过滤器的设置,可以帮助我们解决很多临时性的分析问题,例如设置日期为过滤条件,即可灵活查看每一个时间段内的数据,如下图13-3-3所示,不需要再重新更改图表时间,减少大量工作。
《DataFocus
和数据对话》图13-3-3
《DataFocus 和数据对话》图13-3-3

13.4设置主题系列数据看板

在DataFocus中,可以将某一些系列的数据看板,设置在主题看板下,并分级显示,如保险业务主看板,其下可以添加保险相关的不同系列的数据看板,以便用户迅速找到保险业务相关的数据分析结果,如何创建这类分级的主题看板?只需要两步即可。 第一步,将创建好的主题看板设置成一级看板,在页面的蓝色导航栏上,可以看到有个编辑按钮,点击该按钮,将需设置的主题看板拉进左侧的框内,点击确定,即可看到页面蓝色导航栏上出现刚设置的主题看板,如图13-4-1所示,点击该看板,可以直接进入该看板查看页面,

《DataFocus
和数据对话》图13-4-1
《DataFocus 和数据对话》图13-4-1
第二步,将分级数据看板拉进左侧主题看板的下方框内,点击确定,即可看到在蓝色导航栏上的主题看板下方,会有一个已分级的二级看板,如下图13-4-2所示;
《DataFocus
和数据对话》图13-4-2
《DataFocus 和数据对话》图13-4-2
在DataFocus中,还有很多诸如上述的功能组件,主要作用就是为了帮助用户更简便的制作数据看板,以及制作更有价值的数据看板。