第一章 使用DataFocus创建可视化分析
1.1 传统信息分析的缺陷
传统的企业信息分析主要应用于处理大量数据,而且一般见于大型企业。通常它们依靠联机分析处理(OLAP)将不同的数据源连接到一个数据仓库中。虽然这些解决方案在某些程度上是可以进行灵活修改或变更的,但是它们还是需要投入大量的时间、精力和金钱,以及具有操作这些解决方案能力的技术人员。
再者,OLAP技术依赖于将结果从预聚合到预定义的查询。查询的设置复杂而冗长,需要专业知识(比如我们望而生畏的IT知识)。通常,它们是在终端用户不使用此系统时计算的,那么问题来了,虽然这对预置好的问题能够快速响应,但是对于及时问题是非常让人头大的,需要等待。比如来自业务方面的新问题,或涉及新数据的问题,可能需要数周或更长时间才能回答,这更取决于公司的IT和硬件资源。
对于企业来说,成本也是他们要考虑的重要因素。昂贵的实现和维护成本非常不利于企业信息分析解决方案的实现和具体操作,因为使用这些实现的工具或方案需要专有的技术知识。此外,很多传统的信息分析实现手段比如OLAP多维数据集依赖于数据聚合并不断复制现有数据库,随着数据的增长,这需要花费越来越多的存储空间,以及不断执行聚合和建模所需的技术技能。
而且,不仅数据在增长在变化,外部的市场环境也在不断发生着翻天覆地的变化。难以“进化”的企业信息分析系统意味着要处理巨大的数据库,但是它们的核心技术限制再次使它们处于不利地位。当数据变大时,传统的数据库和信息分析方法变得非常难以维护和控制,加上其需要更多的存储空间和计算资源。此外,如我们上面说到的,添加新的数据源和新的数据分析方法是一件复杂的事情,必须耗费不少的时间来处理。
一旦情况复杂化,就需要更多的人工和技术支持。以技术和IT为中心设置和维护的传统信息分析需要高级的技术和编码技能,并且不可避免地属于IT部门的“专属任务”。他们必须负责创建初始数据仓库,更新它以包含额外的数据源,也必须负责在出现新的业务问题时运行新的IT语句甚至重新建模。而且一般来说传统的信息分析技术需要提前建模和定义,一旦有新的需求,定义、合并和构造数据都是一个缓慢的过程。这使得最初创建一个多维数据集以及应对不断变化的需求都非常耗时。
那么对于可视化来说就更是如此。可视化相当于在原来如此复杂的传统信息分析系统上加上一道更为复杂的工序,并且工序内部也是一道道的小工序。比如一个新的需求需要依据现有数据进行分析,并创建一个桑基图、一个组合图、一个时序柱状图以及一个地图。因此,每一个图形所对应的数据,都需要进行抽取、定义、分析等步骤,每一个数据集都要进行相应的可视化建模,复杂度会以倍数上升。
1.2 可视化分析的商业案例
1.2.1 每个实体都存在3种数据
已知数据(类型1) 这些数据生成的报告一半呢用于监测企业的每日、每周和每月报告,提供用于会议和日常运作的基本报告。第一类报告并不需要进行特别的洞察,它们能让日常操作变得可靠就可以了。 您知道什么是您需要的数据(类型2)
一旦有额外的模式和异常值出现在类型1数据中,接下来的问题自然是:为什么会发生这种情况?人们需要了解异常值的原因,以便采取行动。虽然传统的数据分析工具提供了一个很好的框架来回答这种类型的查询,但是在时效性上是有问题的。 您不知道您需要的数据(类型3)
通过实时与数据交互,同时使用快速的可视化分析,DataFocus提供了查看额外模式和异常值的可能性,这些模式和异常值在type 1和type 2报告中是不可见的。与不同类型的数据交互的过程会产生不同的问题,这些问题可能导致新的洞察结果。因此,支持快速迭代分析和报告的软件正在成为有效业务信息系统的必要元素。
1.2.2 可视化分析如何改进决策?
在过去,很多人或许对数据可视化并没有很直接的观感,因为其打交道的数据应用模式无非就是EXCEL或是固定的数据模型或工具。但是随着大数据时代的到来,数据量和数据复杂性增加,模型的复杂性也随之增加。此时对于企业来说,内部业务系统之间的数据流通和分析结果的可视化对企业来说是是非常关键的工作,同时也是一个跨越性的挑战。
数据的可视化可以将复杂分析结果以丰富的图表信息的方式呈现给读者。然当这一切必须建立在分析人员对目标业务活动有深刻的了解才能更好的进行可视化展现。就如塔夫特所说,“图形表现数据。实际上比传统的统计分析法更加精确和有启发性。”对于广大的编辑、设计师、运营分析师、大数据研究者等等都需要从不同维度、不同层面、不同粒度的数据处理统计中,借助图表和信息图的方式为用户(只获得信息)、阅读者(消费信息)及管理者(利用信息进行管理和决策)呈现不同于表格式的分析结果。
数据可视化技术综合运用计算机图形学、图像、人机交互等,将采集、清洗、转换、处理过的符合标准和规范的数据映射为可识别的图形、图像、动画甚至视频,并允许用户与数据可视化进行交互和分析。而任何形式的数据可视化都会由丰富的内容、引人注意的视觉效果、精细的制作三个要素组成,概括起来就是新颖而有趣、充实而高效、美感且悦目三个特征。
不仅如此,很多基于数字化交易企业的数据量每天都在急速增长,并且来源多而杂乱,因此找到准确、精细、相关的数据变得更加困难和重要。可视化能够让决策者精准的洞察数据反映的结果,如趋势、占比等,而不需要去手动读取那些困难的表格。
我们先举一个例子,对于气象行业来说,有效利用大数据可视化至关重要。天气模型会利用大量数据进行分析呈现,消费者收到的最终预测通常是几种模型的结果。企业也是一样,当预测变得越来越复杂的时候,一种让决策者能够理解并快速采取行动的方式,或者说获取数据分析结果并传递有效信息,是企业成功的必要条件。但是还有一个问题是,一旦很多决策者得到了这些结果,在没有可视化的情况下,是需要分析人员解释的。比如很多以数据分析服务为业务的乙方公司,有非常多个不同的数据源关联各类具有不同数据属性的复杂模型,那么如何以一种使其易于操作的方式向甲方解释?这也是数据可视化的存在必要性,通过正确的图形,甲方可以快速获取并解读不同维度的复杂数据结果。
所以,无论是哪种职业和应用场景,数据可视化都有一个共同的目的,那就是准确而高效、精简而全面地传递信息和知识。可视化能将不可见的数据现象转化为可见的图形符号,能将错综复杂、看起来没法解释和关联的数据,建立起联系和关联,发现规律和特征,获得更有商业价值的洞见和价值。并且利用合适的图表直截了当且清晰而直观地表达出来,实现数据自我解释、让数据说话的目的。而人类右脑记忆图像的速度比左脑记忆抽象的文字快100万倍。因此,数据可视化能够加深和强化受众对于数据的理解和记忆。
我们可以从决策者角度来感受一下可视化的魅力。这里我们使用一种非常便捷的可视化的工具—Datafocus,它易于使用并且可供多种角色的决策场景,可以使商务人士的数据决策独立,灵活和多样化。 比如原来我们看到数据表格是这样的:
下图是经过可视化之后获得的结果:
我们可以看到,可视化不仅可以做到让数据结果美观易读,更能根据可视化需求从大量数据中提取决策者想要的数据维度,达到“想要即呈现”的目的,不必花额外时间从复杂的数据表中寻找、提取及分析解读。
1.2.3 使用可视化分析将数据转换为信息
上一小节我们详解了可视化对于决策的好处,那么何为可视化分析将数据转化为信息呢。我们在上一节尾为大家列举了一个例子。原本是一张非常难读的数据表格,无论趋势、占比还是其他信息都非常难以迅速掌握,而转化为可视化图表后,几个柱形图将关键数据的大小、占比等信息罗列的非常明显,这就是所谓的将数据转换为我们能用的,并称之为信息的方法。
因此,在这里有读者应该能够想到,信息必须对于受众是有用的,可用的,有实效性能产生实际价值的,所以可视化分析不仅仅应针对数据本身,更应针对具体的业务或学习场景。比如让业务数据化以及让数据业务化。我们都听过客户画像,这就是非常好的业务和数据结合的产品。从数据人员的角度去分析,它就是一个数据可视化的甚至是词云图的展现结果,对于业务人员来说这就是很好的反映一个客户特征并能根据这些特征进行营销的结果。所以利用可视化分析将数据变成有用的信息,必须具备如下条件:
清晰的可视化分析目标
这是结果导向的数据分析工作的出发点。只有明确分析目标,才能有一个良好的驱动过程。无论是目标驱动还是分析过程驱动,你后续的数据分析工作和报告里要呈现的全部内容事项都得紧紧围绕着这个目标主题而服务。在开始数据化之前明白要做什么很重要,如果你是主动要做一份报告,目的自然很清楚。在学习上倒是没差别,但这样的主动性在职场里并不多见,那么当我们的上司或者客户需要一份报告的时候,就需要和他做一次开放而愉快的沟通。在沟通之前,请梳理好相关的问题和疑问,沟通的目的最终也是为了明确分析的目标。同样在可视化报告制作完毕以后,也需要检查这份可视化报告有没有达到上司或者客户的预期。
简约的可视化分析框架
和软件系统的架构思维是一致的,在开发动工之前,架构和框架要先行。一份贴切而简约的框架(或者称作提纲)是报告的骨架,它能够很好地阐释报告的“有形”。一份有形也有范儿的数据化报告,不用聚焦到内容和结论,就足以让管理者心动和惊叹。 如果你的分析框架有:数据基础、分析层次、架构够清晰、主次够分明,也一定会让阅读者一目了然。
精炼的可视化分析结果
倘若我们回顾年少还在校时做数学证明题目的经历:首先没有结论,只有论证过程,则不会拿到满分,这是一个基本的常识和准则。其次,节省文字也是一种美德。要知道我们不是在写小说、散文,不需要演绎过多华丽,比如图形的丰富的颜色或是图形有多“高级”。在开始之前就需要先收起那颗追求文艺、 追求图形优美的心。结论一定是要在可视化分析结果上的提炼,把分析结果提炼成分析的知识和信息,这样传达给阅读者的东西才是有价值、有意义的。
1.3 DataFocus软件系统
近年来,随着大数据应用逐渐普及,零售业、制造业、医疗业、政府等已经成为大数据分析使用的主力。但是,大多数企业在数据分析体系的搭建以及工具的使用上,普遍存在部署及等待时间长、无法实时交互与更新、使用门槛高、可用性差等问题。而对于个人来说,无论是数据分析师还是决策者,都需要有一款能够实时响应多样需求、迅速给出可视化结果的好工具。而DataFocus便是一款无论对企业大数据分析还是个人数据分析都能实时并且高质量解决问题的得力干将。
首先,DataFocus最大的产品亮点就是让数据分析变得和搜索一样简单。DataFocus独有的类自然语言处理引擎技术,继承了搜索引擎的便捷性和易操作的优点,普通用户不需要掌握SQL语句以及其他代码知识,10分钟之内就可以熟练掌握此系统并轻松处理和分析数据。如想要分析各类商品的整体销售情况,并有序展示,只要键入关键词:类别、销售量、按销量总和降序排列。在键入以上关键词到搜索框之后,点击搜索,即可在3秒内得到可视化结果。对于辅助企业决策,最大化提升其效率。
在此之上,DataFocus能够让企业大大降低其成本。对于搜索这个动作来说,无需高薪聘用专业的分析人士,普通的业务人员简单培训也能轻松胜任数据分析工作。
第三,DataFocus部署及实施周期非常短。若是采用传统的应用开发模式,不仅项目周期长,随之产生的成本也会增加,若是中途需求突然发生变化则需要调整甚至推翻重新开发。而DataFocus最慢只需三周的时间,大型集团企业即可完成整个数据分析部署,并迅速投入使用产生生成力,效率提高100倍以上。
再者,DataFocus具备同时处理海量数据,并消灭数据孤岛的能力。DataFocus基于最新的大数据分析架构而设计,采用MPP方式将数十亿行数据缓存在内存中,分析数十亿条数据毫无压力,且数据加载速度比传统方式高出1-2个数量级,用俗话说就是“亿级数据秒级响应”。而DataFocus同样能对接不同的数据系统和开放平台,为企业搭建统一的数据决策和管理驾驶舱,让数据真正流动起来,解决原独立系统之间数据不互通的问题。如企业想要整合旗下多品牌或店铺的数据进行统一管理,或品牌想打通多平台的数据进行统一分析。而DataFocus在这方面,不仅“能”整合,而且分析“快”,搜索即可。
最后,DataFocus能够让使用者在这个瞬息万变的商业社会中实时处理各类需求,并且工作零重复。就算是普通的企业图表也有时效性,而搜索的方式能即时的搜出新的图表,并且常用图表和看板也能被保存在列表中,数据定时自动更新处理,无需重复操作,使用者可直接查看相关图表最新数据。
1.4 介绍DataFocus工作区
1.4.1 搜索页面
如图所示为DataFocus的核心模块——搜索页面。此页面是DataFocus区别于传统数据分析系统的核心部分。可以直接实现搜索即分析的数据分析方法,点击左上角选择数据表勾选需要的分析的数据以后,即可一键搜索,在5秒内生成可视化报告。不需要SQL语句、OLAP技术等IT支持,使用者本身即可轻松完成,还可进行过固化保存。分析如下图所示。
1.4.2 数据看板
点击左侧搜索页面下方的“数据看板”按钮即可进入数据看板界面。此页面主要用于存放我们的可视化大屏,每一个可视化大屏一般都由不同的历史问答(搜索保存后的数据报表)组成。此页面即可查看我们制作的每一个可视化大屏,并可点击相应的缩略图或列表名进行继续编辑或查看导出等操作。
1.4.3 历史问答
点击左侧列第三个按钮即可进入历史问答页面。历史问答顾名思义就是对系统“提问”(搜索)后的“答案”(可视化报表)。此页面能够查看在搜索分析后保存的数据表,点击相应的历史问答缩略图(或在列表模式点击名称)即可进行查看和继续编辑,左上角还可对这些数据看板进行选择、分享、删除操作。
1.4.4 数据管理
接下来是数据管理页面,此页面可让操作者导入想要分析的数据表,数据表支持本地的以及服务器数据,并且支持直连数据库,具体将在第二章进行教学。并且我们的数据权限、数据的属性管理和修改等功能也在此页面进行操作,同时我们也可以对已经导入的数据进行分类打标,点击左上角“应用分类”即可。
1.4.5 系统管理
系统管理页面能够让操作者进行角色的编辑与分配(如一个企业中有多个操作者对应不同角色,CEO为超级管理员可查看编辑所有数据;CMO为系统管理员可编辑销售数据;财务总监为审计管理员可编辑财务数据;分析师为普通用户可分析一般数据)。并且可以在此进行构建模型和查看日志、设备管理等操作。