玩转DataFocus数据分析

来自DataFocus资料库
跳到导航 跳到搜索

目录

第一章 使用DataFocus创建可视化分析

1.1 传统信息分析的缺陷

传统的企业信息分析主要应用于处理大量数据,而且一般见于大型企业。通常它们依靠联机分析处理(OLAP)将不同的数据源连接到一个数据仓库中。虽然这些解决方案在某些程度上是可以进行灵活修改或变更的,但是它们还是需要投入大量的时间、精力和金钱,以及具有操作这些解决方案能力的技术人员。

再者,OLAP技术依赖于将结果从预聚合到预定义的查询。查询的设置复杂而冗长,需要专业知识(比如我们望而生畏的IT知识)。通常,它们是在终端用户不使用此系统时计算的,那么问题来了,虽然这对预置好的问题能够快速响应,但是对于及时问题是非常让人头大的,需要等待。比如来自业务方面的新问题,或涉及新数据的问题,可能需要数周或更长时间才能回答,这更取决于公司的IT和硬件资源。

对于企业来说,成本也是他们要考虑的重要因素。昂贵的实现和维护成本非常不利于企业信息分析解决方案的实现和具体操作,因为使用这些实现的工具或方案需要专有的技术知识。此外,很多传统的信息分析实现手段比如OLAP多维数据集依赖于数据聚合并不断复制现有数据库,随着数据的增长,这需要花费越来越多的存储空间,以及不断执行聚合和建模所需的技术技能。

而且,不仅数据在增长在变化,外部的市场环境也在不断发生着翻天覆地的变化。难以“进化”的企业信息分析系统意味着要处理巨大的数据库,但是它们的核心技术限制再次使它们处于不利地位。当数据变大时,传统的数据库和信息分析方法变得非常难以维护和控制,加上其需要更多的存储空间和计算资源。此外,如我们上面说到的,添加新的数据源和新的数据分析方法是一件复杂的事情,必须耗费不少的时间来处理。

一旦情况复杂化,就需要更多的人工和技术支持。以技术和IT为中心设置和维护的传统信息分析需要高级的技术和编码技能,并且不可避免地属于IT部门的“专属任务”。他们必须负责创建初始数据仓库,更新它以包含额外的数据源,也必须负责在出现新的业务问题时运行新的IT语句甚至重新建模。而且一般来说传统的信息分析技术需要提前建模和定义,一旦有新的需求,定义、合并和构造数据都是一个缓慢的过程。这使得最初创建一个多维数据集以及应对不断变化的需求都非常耗时。

那么对于可视化来说就更是如此。可视化相当于在原来如此复杂的传统信息分析系统上加上一道更为复杂的工序,并且工序内部也是一道道的小工序。比如一个新的需求需要依据现有数据进行分析,并创建一个桑基图、一个组合图、一个时序柱状图以及一个地图。因此,每一个图形所对应的数据,都需要进行抽取、定义、分析等步骤,每一个数据集都要进行相应的可视化建模,复杂度会以倍数上升。

1.2 可视化分析的商业案例

1.2.1 每个实体都存在3种数据

已知数据(类型1) 这些数据生成的报告一半呢用于监测企业的每日、每周和每月报告,提供用于会议和日常运作的基本报告。第一类报告并不需要进行特别的洞察,它们能让日常操作变得可靠就可以了。 您知道什么是您需要的数据(类型2)

一旦有额外的模式和异常值出现在类型1数据中,接下来的问题自然是:为什么会发生这种情况?人们需要了解异常值的原因,以便采取行动。虽然传统的数据分析工具提供了一个很好的框架来回答这种类型的查询,但是在时效性上是有问题的。 您不知道您需要的数据(类型3)

通过实时与数据交互,同时使用快速的可视化分析,DataFocus提供了查看额外模式和异常值的可能性,这些模式和异常值在type 1和type 2报告中是不可见的。与不同类型的数据交互的过程会产生不同的问题,这些问题可能导致新的洞察结果。因此,支持快速迭代分析和报告的软件正在成为有效业务信息系统的必要元素。

1.2.2 可视化分析如何改进决策?

在过去,很多人或许对数据可视化并没有很直接的观感,因为其打交道的数据应用模式无非就是EXCEL或是固定的数据模型或工具。但是随着大数据时代的到来,数据量和数据复杂性增加,模型的复杂性也随之增加。此时对于企业来说,内部业务系统之间的数据流通和分析结果的可视化对企业来说是是非常关键的工作,同时也是一个跨越性的挑战。

数据的可视化可以将复杂分析结果以丰富的图表信息的方式呈现给读者。然当这一切必须建立在分析人员对目标业务活动有深刻的了解才能更好的进行可视化展现。就如塔夫特所说,“图形表现数据。实际上比传统的统计分析法更加精确和有启发性。”对于广大的编辑、设计师、运营分析师、大数据研究者等等都需要从不同维度、不同层面、不同粒度的数据处理统计中,借助图表和信息图的方式为用户(只获得信息)、阅读者(消费信息)及管理者(利用信息进行管理和决策)呈现不同于表格式的分析结果。

数据可视化技术综合运用计算机图形学、图像、人机交互等,将采集、清洗、转换、处理过的符合标准和规范的数据映射为可识别的图形、图像、动画甚至视频,并允许用户与数据可视化进行交互和分析。而任何形式的数据可视化都会由丰富的内容、引人注意的视觉效果、精细的制作三个要素组成,概括起来就是新颖而有趣、充实而高效、美感且悦目三个特征。

不仅如此,很多基于数字化交易企业的数据量每天都在急速增长,并且来源多而杂乱,因此找到准确、精细、相关的数据变得更加困难和重要。可视化能够让决策者精准的洞察数据反映的结果,如趋势、占比等,而不需要去手动读取那些困难的表格。

我们先举一个例子,对于气象行业来说,有效利用大数据可视化至关重要。天气模型会利用大量数据进行分析呈现,消费者收到的最终预测通常是几种模型的结果。企业也是一样,当预测变得越来越复杂的时候,一种让决策者能够理解并快速采取行动的方式,或者说获取数据分析结果并传递有效信息,是企业成功的必要条件。但是还有一个问题是,一旦很多决策者得到了这些结果,在没有可视化的情况下,是需要分析人员解释的。比如很多以数据分析服务为业务的乙方公司,有非常多个不同的数据源关联各类具有不同数据属性的复杂模型,那么如何以一种使其易于操作的方式向甲方解释?这也是数据可视化的存在必要性,通过正确的图形,甲方可以快速获取并解读不同维度的复杂数据结果。

所以,无论是哪种职业和应用场景,数据可视化都有一个共同的目的,那就是准确而高效、精简而全面地传递信息和知识。可视化能将不可见的数据现象转化为可见的图形符号,能将错综复杂、看起来没法解释和关联的数据,建立起联系和关联,发现规律和特征,获得更有商业价值的洞见和价值。并且利用合适的图表直截了当且清晰而直观地表达出来,实现数据自我解释、让数据说话的目的。而人类右脑记忆图像的速度比左脑记忆抽象的文字快100万倍。因此,数据可视化能够加深和强化受众对于数据的理解和记忆。

我们可以从决策者角度来感受一下可视化的魅力。这里我们使用一种非常便捷的可视化的工具—Datafocus,它易于使用并且可供多种角色的决策场景,可以使商务人士的数据决策独立,灵活和多样化。 比如原来我们看到数据表格是这样的:

《玩转DataFocus数据分析》 图表1-2- 1

下图是经过可视化之后获得的结果:

《玩转DataFocus数据分析》 图表1-2- 2


我们可以看到,可视化不仅可以做到让数据结果美观易读,更能根据可视化需求从大量数据中提取决策者想要的数据维度,达到“想要即呈现”的目的,不必花额外时间从复杂的数据表中寻找、提取及分析解读。

1.2.3 使用可视化分析将数据转换为信息

上一小节我们详解了可视化对于决策的好处,那么何为可视化分析将数据转化为信息呢。我们在上一节尾为大家列举了一个例子。原本是一张非常难读的数据表格,无论趋势、占比还是其他信息都非常难以迅速掌握,而转化为可视化图表后,几个柱形图将关键数据的大小、占比等信息罗列的非常明显,这就是所谓的将数据转换为我们能用的,并称之为信息的方法。

因此,在这里有读者应该能够想到,信息必须对于受众是有用的,可用的,有实效性能产生实际价值的,所以可视化分析不仅仅应针对数据本身,更应针对具体的业务或学习场景。比如让业务数据化以及让数据业务化。我们都听过客户画像,这就是非常好的业务和数据结合的产品。从数据人员的角度去分析,它就是一个数据可视化的甚至是词云图的展现结果,对于业务人员来说这就是很好的反映一个客户特征并能根据这些特征进行营销的结果。所以利用可视化分析将数据变成有用的信息,必须具备如下条件:

清晰的可视化分析目标

这是结果导向的数据分析工作的出发点。只有明确分析目标,才能有一个良好的驱动过程。无论是目标驱动还是分析过程驱动,你后续的数据分析工作和报告里要呈现的全部内容事项都得紧紧围绕着这个目标主题而服务。在开始数据化之前明白要做什么很重要,如果你是主动要做一份报告,目的自然很清楚。在学习上倒是没差别,但这样的主动性在职场里并不多见,那么当我们的上司或者客户需要一份报告的时候,就需要和他做一次开放而愉快的沟通。在沟通之前,请梳理好相关的问题和疑问,沟通的目的最终也是为了明确分析的目标。同样在可视化报告制作完毕以后,也需要检查这份可视化报告有没有达到上司或者客户的预期。

简约的可视化分析框架

和软件系统的架构思维是一致的,在开发动工之前,架构和框架要先行。一份贴切而简约的框架(或者称作提纲)是报告的骨架,它能够很好地阐释报告的“有形”。一份有形也有范儿的数据化报告,不用聚焦到内容和结论,就足以让管理者心动和惊叹。 如果你的分析框架有:数据基础、分析层次、架构够清晰、主次够分明,也一定会让阅读者一目了然。

精炼的可视化分析结果

倘若我们回顾年少还在校时做数学证明题目的经历:首先没有结论,只有论证过程,则不会拿到满分,这是一个基本的常识和准则。其次,节省文字也是一种美德。要知道我们不是在写小说、散文,不需要演绎过多华丽,比如图形的丰富的颜色或是图形有多“高级”。在开始之前就需要先收起那颗追求文艺、 追求图形优美的心。结论一定是要在可视化分析结果上的提炼,把分析结果提炼成分析的知识和信息,这样传达给阅读者的东西才是有价值、有意义的。

1.3 DataFocus软件系统

近年来,随着大数据应用逐渐普及,零售业、制造业、医疗业、政府等已经成为大数据分析使用的主力。但是,大多数企业在数据分析体系的搭建以及工具的使用上,普遍存在部署及等待时间长、无法实时交互与更新、使用门槛高、可用性差等问题。而对于个人来说,无论是数据分析师还是决策者,都需要有一款能够实时响应多样需求、迅速给出可视化结果的好工具。而DataFocus便是一款无论对企业大数据分析还是个人数据分析都能实时并且高质量解决问题的得力干将。

首先,DataFocus最大的产品亮点就是让数据分析变得和搜索一样简单。DataFocus独有的类自然语言处理引擎技术,继承了搜索引擎的便捷性和易操作的优点,普通用户不需要掌握SQL语句以及其他代码知识,10分钟之内就可以熟练掌握此系统并轻松处理和分析数据。如想要分析各类商品的整体销售情况,并有序展示,只要键入关键词:类别、销售量、按销量总和降序排列。在键入以上关键词到搜索框之后,点击搜索,即可在3秒内得到可视化结果。对于辅助企业决策,最大化提升其效率。

在此之上,DataFocus能够让企业大大降低其成本。对于搜索这个动作来说,无需高薪聘用专业的分析人士,普通的业务人员简单培训也能轻松胜任数据分析工作。

第三,DataFocus部署及实施周期非常短。若是采用传统的应用开发模式,不仅项目周期长,随之产生的成本也会增加,若是中途需求突然发生变化则需要调整甚至推翻重新开发。而DataFocus最慢只需三周的时间,大型集团企业即可完成整个数据分析部署,并迅速投入使用产生生成力,效率提高100倍以上。

再者,DataFocus具备同时处理海量数据,并消灭数据孤岛的能力。DataFocus基于最新的大数据分析架构而设计,采用MPP方式将数十亿行数据缓存在内存中,分析数十亿条数据毫无压力,且数据加载速度比传统方式高出1-2个数量级,用俗话说就是“亿级数据秒级响应”。而DataFocus同样能对接不同的数据系统和开放平台,为企业搭建统一的数据决策和管理驾驶舱,让数据真正流动起来,解决原独立系统之间数据不互通的问题。如企业想要整合旗下多品牌或店铺的数据进行统一管理,或品牌想打通多平台的数据进行统一分析。而DataFocus在这方面,不仅“能”整合,而且分析“快”,搜索即可。

最后,DataFocus能够让使用者在这个瞬息万变的商业社会中实时处理各类需求,并且工作零重复。就算是普通的企业图表也有时效性,而搜索的方式能即时的搜出新的图表,并且常用图表和看板也能被保存在列表中,数据定时自动更新处理,无需重复操作,使用者可直接查看相关图表最新数据。

1.4 介绍DataFocus工作区

1.4.1 搜索页面

《玩转DataFocus数据分析》 图表1-4- 1


如图所示为DataFocus的核心模块——搜索页面。此页面是DataFocus区别于传统数据分析系统的核心部分。可以直接实现搜索即分析的数据分析方法,点击左上角选择数据表勾选需要的分析的数据以后,即可一键搜索,在5秒内生成可视化报告。不需要SQL语句、OLAP技术等IT支持,使用者本身即可轻松完成,还可进行过固化保存。分析如下图所示。

《玩转DataFocus数据分析》图表1-4- 2


1.4.2 数据看板

《玩转DataFocus数据分析》图表1-4- 3


点击左侧搜索页面下方的“数据看板”按钮即可进入数据看板界面。此页面主要用于存放我们的可视化大屏,每一个可视化大屏一般都由不同的历史问答(搜索保存后的数据报表)组成。此页面即可查看我们制作的每一个可视化大屏,并可点击相应的缩略图或列表名进行继续编辑或查看导出等操作。

1.4.3 历史问答

《玩转DataFocus数据分析》

点击左侧列第三个按钮即可进入历史问答页面。历史问答顾名思义就是对系统“提问”(搜索)后的“答案”(可视化报表)。此页面能够查看在搜索分析后保存的数据表,点击相应的历史问答缩略图(或在列表模式点击名称)即可进行查看和继续编辑,左上角还可对这些数据看板进行选择、分享、删除操作。

1.4.4 数据管理

《玩转DataFocus数据分析》 图表1-4- 4


接下来是数据管理页面,此页面可让操作者导入想要分析的数据表,数据表支持本地的以及服务器数据,并且支持直连数据库,具体将在第二章进行教学。并且我们的数据权限、数据的属性管理和修改等功能也在此页面进行操作,同时我们也可以对已经导入的数据进行分类打标,点击左上角“应用分类”即可。

1.4.5 系统管理

《玩转DataFocus数据分析》图表1-4- 5


系统管理页面能够让操作者进行角色的编辑与分配(如一个企业中有多个操作者对应不同角色,CEO为超级管理员可查看编辑所有数据;CMO为系统管理员可编辑销售数据;财务总监为审计管理员可编辑财务数据;分析师为普通用户可分析一般数据)。并且可以在此进行构建模型和查看日志、设备管理等操作。

第二章 链接你的数据

无论是个人还是企业,需要分析的数据正在变得越来越多,数据的来源也变得越来越多样,这些待分析的数据往往分散在多个数据库、文本文件、电子表格,外部数据源中。DataFocus为用户提供了整合各种数据源的“数据管理”功能模块,用户可以通过它连接各种各样主流的数据库,也可以上传或者同步本地excel文件。DataFocus标准版以上产品的数据管理模块包含了大数据仓库和内存计算引擎。用户接入的数据都将以列式存储的格式保存在数仓中,这保证了分析计算的高效性。

2.1链接你的数据

2.1.1 连接本地文件

打开DataFocus系统,点击左侧数据管理,然后点击右侧操作按钮,点击导入数据。可导入本地CSV、TXT、XLS、XLSX以及JSON等本地数据文件。选中后点击上传,并确认行列属性是否正确。若行列属性不正确(如数值保留了字符串格式未转化为数值格式),则无法进行可视化分析。适用于一些本地已有文件(如一些店铺数据或是自录数据表)的分析,或是一些未购买数据库的企业。

《玩转DataFocus数据分析》 图2-1 本地数据导入界面


导入本地数据,大小限制为50MB。本地Excel文件经常存在数据不规范的问题,DataFocus的数据导入模块提供了简单的数据清理功能,具体操作为在导入数据时点击高级按钮,会展开一系列选项,用户可以设置跳过行、读取行数、跳过注释行、拆分列等操作,进行简单的数据清理。

《玩转DataFocus数据分析》 图2-2 本地数据导入高级配置

2.1.2 批量导入Excel数据

对于大量的,经常更新的本地数据源,DataFocus还提供了excel文件批量同步工具。比如有些小企业或工厂经常采用excel进行数据管理,他们将数据存放在某些固定的文件夹中,并定时更新。这种场景,就可以通过设定excel批量同步工具定时将excel数据追加上传到DataFocus的数据仓库中进行分析。

《玩转DataFocus数据分析》 图2-3批量导入Excel工具的下载


DataFocus Sync tool提供了丰富的数据同步追加功能,以及数据清洗和预处功能,足以允许部分习惯于使用excel进行数据管理的企业平滑的将其数据迁移到DataFocus中来。使用前需要用户在服务参数配置中填入对应的服务器地址和对应的Key。

《玩转DataFocus数据分析》 图2- 4 DataFocus Synctool配置界面


服务参数SecretID和SecretKey通过DataFocus系统的用户页面点击用户标识,生成对应的Key。用户完成配置连接成功后,同步工具将自动扫描所选文件夹,整理和汇总对应的数据表,如果服务器搭建在云端,应采用https加密连接方式进行。同步工具还提供了数据清理功能,用户可以自主配置规则对数据表进行过滤和筛选,这对不规范的excel表非常有用,还可以设定定时导入功能以便用户定时同步追加数据到DataFocus的服务端。DataFocuaMini及以上版本均支持同步工具的导入。


《玩转DataFocus数据分析》 图2-5 生成同步工具的key


2.1.3 连接数据库

点击左侧数据管理模块,点击上方数据源按钮,点击右侧新建数据源,可点击直连数据和导入数据。需要注意的是,导入数据为数据导入到DataFocus自带大数据仓库,直连数据为直接抽取服务器数据进行分析。若是操作大量分析,建议使用导入数据,DataFocus数据仓库性能可保障分析顺畅,否则直连数据分析则依靠对方设备的性能。数据导入后,可点击上方“开始”则可进行导入,列表可查看导入状态。

导入数据支持定时更新,更新频率一般为每天、每周、每月。直连数据可支持实时更新,数据库中数据有变化,DataFocus中直连的这些表,以及依赖这些表制作的报表等也都能实时更新。

《玩转DataFocus数据分析 图2-6 链接数据库》


《玩转DataFocus数据分析 图2-7 数据库链接方式》

2.1.4 直连数据和导入数据

使用DataFocus进行数据分析需要与数据库交互,但这与你使用ERP、CRM系统与数据库交互的形式是完全不一样的。前者属于联机分析处理OLAP(On-Line Analytical Processing)业务,一般需要进行比较复杂的数据库计算,分析数据量大、维度多;而后者则属于联机事务处理OLTP(on-line transaction processing)范畴,主要是基本的、日常的事务处理,例如销售流水记录、银行交易记录,这类分析要求实时性高,往往只需要简单的读写或者查询数据库即可。这是两种典型的数据库应用场景。DataFocus连接数据库时,同时提供了直连数据库功能和导入数据功能。这两种不同的功能分别对应着不同的应用场景。

直连数据库的优点。有少数场景也需要实时查询相应的数据,比如用于汇报或展示的数据可视化大屏、用于生产线的数据看板,均需要显示实时的产量、交易数等。DataFocus提供了直连用户数据库的功能,用户的搜索分析指令将被转交给用户业务系统的数据库进行计算,因此一般此类通过直连数据库的数据分析复杂性较低,否则会对用户业务系统数据库造成压力。

一般情况下,如果业务系统数据库稳定性要求极高,或者数据库压力过大,不推荐使用数据库直连方式,这会对用户的业务造成不可预知的影响。

数据导入的灵活性。将用户数据中的数据定时导入到DataFocus的大数据仓库中,经过模型构建再进行分析,适用于分析、探索大数据(比如上亿行数据),或者维度繁多的数据, DataFocus会将这些数据压缩成列式存储格式,并调用内存计算引擎进行高速分析,可以获得极佳的探索分析体验。

用户将数据库中的数据导入DataFocus数据仓库中进行分析,可以减轻业务系统数据库的分析压力,因为数据分析有时候需要对数年的数据,或者多张关联的数据表进行筛选、聚合、计算,其计算强度往往比业务系统中的业务流程所触发的数据库计算强度要高得多,把这些工作放到DataFocus的计算引擎中去执行,高效且可靠,不会对业务系统造成额外的压力。及时偶尔出错也不会干扰业务系统的正常运行。

通常,有经验的用户会设定DataFocus的定时导入功能从数据库中抽取数据,根据业务系统数据库能够承受的压力以及决策的时效性需求,制定合理的更新频率。第一次导入数据时可以全量导入,之后就可以定时增量更新。有时候,如果业务系统的安全性要求较高,可以设置DataFocus从备库中导入数据。

2.2数据表关联配置

2.2.1 数据表的关联关系

进行数据库记录时,为了提高效率,需要将数据按业务情况存放到多个数据表中,这些数据表之间彼此通过外键关联的方式链接起来,方便进行跨表查询和分析。DataFocus中支持的典型的数据库表关联关系一般有左连接(left join)、右连接(right join)和内链接(inner join)三种常用链接方式。


《玩转DataFocus数据分析》 图2-8 数据库关联方式 左关联(left join)
《玩转DataFocus数据分析》 图2-8 数据库关联方式 右关联(right join)


《玩转DataFocus数据分析》 图2-8 数据库关联方式 内关联(inner join)


从上图很容易看出,左连接(left join)返回包括左表中的所有记录和右表中相关联字段的记录;右连接(right join)返回包括右表中的所有记录和左表中关联字段相等的记录;内链接(inner join)则只返回两个表中关联字段相等的行。举例来说,假设A表记录了地区及编号,B表记录了姓名及编号:

《玩转DataFocus数据分析》图2-8 数据库关联方式 全关联(笛卡尔积)

表2-1 数据关联表 四种关联结果分别如下,可以看出第四种关联结果产生了大量的冗余信息,称之为笛卡儿积,这有时候会造成无意义的数据膨胀,创建关联关系时应该尽量避免。

《玩转DataFocus数据分析 表2-2 四种数据关联结果》


2.2.2 配置多表关联

在进行数据分析的时候,经常会出现需要多张表格联立使用的情况,因此就需要在系统中添加表与表之间的关联关系。 在数据管理页面,点击一张表格,在弹出的表格信息中选择“关联关系”,如图2-4-1所示。

《玩转DataFocus数据分析》 图 2-9 添加关联关系


点击“添加关联”,在弹出的具体的操作界面,如图2-4-2所示,填写关联名、维度表、连接类型、连接筛选(选填)、源列、目标列的内容。 维度表就是指要与该表建立关联关系的数据表,点击维度表的输入框会出现系统里现有的前7张表格,可以直接选择或者输入表名选择自己想要关联的表;连接类型分为三种:内连接、左连接及右连接;源列和目标列就是关联两张表格的数据列。

《玩转DataFocus数据分析》 图 2-10 填写关联信息


点击“添加关联”,就会在“关联关系”的页面出现两张表格的表名以及箭头符号,代表了关联关系的方向和关联的表格信息,如图2-4-3所示。

《玩转DataFocus数据分析》 图 2-11 关联条件


关联好的两张表格也会在数据管理页面通过两个红色小箭头标注,如图2-4-4所示。

《玩转DataFocus数据分析》 图 2-12 关联展示


2.2.3 配置条件关联

 为了更灵活的分析,有时候关联关系的配置需要设定条件,DataFocus中可以通过设定链接筛选条件实现按条件的数据关联,这在数据量非常大的情况下进行特定的分析非常有益,可以有效的降低数据量,提升分析效率。比如,如果待关联的两张表,通过时间列关联,但是用户只想分析某个特定时间段的数据,就可以设定时间在某个范围的关联条件。


《玩转DataFocus数据分析》图2-13 条件关联配置

2.2.4扇形陷阱和断层陷阱

根据上面的章节介绍,我们知道两个表要建立连接一定要存在主外键关系, 例如上节所述的表A和表B就是通过编号这个外键建立关联关系的。但有些时候,一些关系型数据库设计不规范,两个表需要关联,但是没有直接主外键,借助第三个表进行关联,按照其设置好关联关系后,构建模型容易造成扇形陷阱(Fan Traps)。

扇形陷阱通常是产生于一些事实表(Fact Table)拥有多个一对多的关联,好像扇子散开一样,而关联在一起的实体间的关联性让人产生混淆。比如:Instructors、Students、Courses这三个实体,其中一个Instructor可以有多个Student,一个Student有多个Course,一个Instructor也可以有多个Course,这时如果把关联设计为下图的形式:

《玩转DataFocus数据分析》 图2-14 造成扇形陷阱的事实表关联设计


这样就出现了扇形陷阱:其中student与course的关系非常混乱了,成了多对多。

《玩转DataFocus数据分析》 图2-15 导致扇形陷阱的关联关系


断层陷阱(Chasm Traps),还有一种情况是事实表之间该存在的关系却没有体现出来,两个事实表并没有办法找到一条路径来连接。比如:Students、Textbooks、Courses三个实体,其中一个Student可以有多个Textbook,一个Student也可以有多个Course,如果把关联设计为下图的形式:

《玩转DataFocus数据分析》 图2-16 造成断层陷阱的事实表关联设计


这就产生了断层陷阱:由于Student可以没有Textbook,Textbook就不知道是属于哪个Course的了。
 
《玩转DataFocus数据分析》 图2-17 导致断层陷阱的关联关系


2.2.5 数据表关联约束

各种数据设计缺陷,如上节所述的扇形陷阱(Fan Traps)和断层陷阱(Chasm Traps)最为常见,此外还有一些如闭环陷阱之类的问题,都会导致数据库表关联后SQL语句无法执行的问题。为了保障DataFocus能够正常运行,用户必须尽量避免以上问题的发生,在配置关联关系时,DataFocus系统对部分以上问题进行了预处理,这些处理是不彻底的(也无法做到完美),其目的是最大限度的适应用户的数据库现状,即便如此,用户依然应该尽量优化数据库设计,规避此类缺陷发生。 关联环路:用户在配置数据表关联关系的时候应避免配置成关联环路(如图2-19所示),A->B->C->A关联环路会导致事实表和纬度表关联关系混乱,DataFocus系统无法根据这样的关联关系构造出能够执行的SQL语句,所以DataFocus系统不支持配置关联环路。

《玩转DataFocus数据分析》图2-18 关联环路


关联节点闭合:用户在配置数据表关联关系的时候有可能把某一个维度表配置成闭合节点(如图2-20所示)A->C而且A->B->C则维度表C为一个闭合节点,正常来说有闭合节点的情况下构建关联查询SQL会造成C表重复关联的错误,DataFocus对此种状况做了一定的适配。把这种关联关系拆分成了A->C1和A->B-C2(如图2-21所示)其中C1和C2就是C表的但是使用的不同的别名,这样可以把构建出来可以执行的关联SQL。但是如果闭合节点C以下又有很多维度表关联的话会导致构造关联SQL的时候别名过多,所以暂时不支持闭合节点C以下关联其他维度表。

《玩转DataFocus数据分析》 图2-19 关联节点闭合


《玩转DataFocus数据分析》 图2-20 关联节点闭合适配



扇形陷阱/断层陷阱:用户在配置关联关系的时候应尽量避免配置成扇形陷阱和断层陷阱,如果用户配置关联关系造成了扇形陷阱,DataFocus为了防止扇形陷阱导致的数据极度膨胀会做一定的检测,如果检测到用户可能配置造成了扇形陷阱,会对关联关系做一定的适配处理。如图2-21 A->B和A->C表如果存在扇形陷阱,则B和C的关系将会变的混乱,不适合在一起查询,当出现这种情况,DataFocus中会做一定适配只能让A表和B表同时查询,A表和C表同时查询,B表和C表不能同时查询。

《玩转DataFocus数据分析》 图2-21 扇形陷阱适配


2.3 数据库模型

2.3.1数据类型介绍

存储在关系数据库(RMDBS)中的一般以结构化数据居多,这部分数据也最容易拿来进行分析和可视化。结构化数据一般都是以二维表的形式存储,如下表所示。在DataFocus中,我们将“姓名”、“性别”、“年龄”称作列名,对应列名下的值,如“张三”“17”等,称之为列中值,列名是进行搜索分析的重要元素,列中值则经常用来进行过滤和筛选。

姓名 性别 年龄
张三 17
李四 18

表2-3 二位数据表

列名大致分为属性列(attribute)和数值列(measure),其中属性列一般分为字符串(string)、日期(timestamp)、地理位置(Geomap)几大类,数值列则一般为int、double。


《玩转DataFocus数据分析》图2-22 属性列和数值列


数据导入DataFocus系统中时,如果是从数据库中导入数据,系统会自动继承数据表的各项属性,一般不需要用户干预,如果是从本地导入excel数据,系统会判断和识别数据类型,但地理位置类型数据,需要用户选择设定对应的省、市、区,聚合方式选择成none。如果是经纬度数据,则需要配置成LATITUE或者LONGITUDE。

《玩转DataFocus数据分析》 图2-23 地理位置类数据


不同的列属性对应着不同的数据库聚合操作。属性列默认在数据分析时不会自动聚合,如有需要则可以进行计数(统计数量)或去重计数;数值列则可以进行求最大值、最小值、平均值、求和、标准差、方差、计数等各种操作,数据分析时会默认进行聚合分析,一般不选择的情况下,会默认进行求和操作,如果不希望分析时自动聚合数据,则可以选择none,DataFocus系统默认不进行任何聚合操作。

《玩转DataFocus数据分析》图2-24 属性列的聚合操作


列的不同属性,在DataFocus中加载数据后,会以不同的图标显示出来,也意味着不同的关键词操作,比如,对于字符串类型的属性列,就可以用“姓名开头是张的”进行查询,数值列则可以进行排序和聚合,比如“成本的平均值排名前三的工序”。而特殊类型如日期列则可以直接提问“每月销售额”,地理位置图则直接以地图形式呈现可视化结果。


《玩转DataFocus数据分析》 图2-25 数据类型的标识


2.3.2星形模型和雪花模型

企业的数据库一般由多个维度表(Dimision table)和事实表(Fact table)组成,这些数据表之间的关联方式多种多样。在多维分析的商业智能解决方案中经常会用到星型数据模型(Star Schema)和雪花模型(Snowflake Schema),DataFocus同时支持这两种数据模型,鉴于着两种数据模型在不同市场场景下各有优劣,建议用户在设计数据逻辑模型时,应该认真考虑使用何种模型。 星型数据模型,当所有维度表都直接连接到“ 事实表”上时,整个表结构就像星星一样,故将该模型称为星型模型。星型模型是一种非正规化的结构,多维数据集的每一个维度都直接与事实表相连接,不存在渐变维度,所以数据有一定的冗余,如在地域维度表中,存在国家 A 省 B 的城市 C 以及国家 A 省 B 的城市 D 两条记录,那么国家 A 和省 B 的信息分别存储了两次,即存在冗余。

《玩转DataFocus数据分析》 图2-26 星型数据模型


雪花模型,当有一个或多个维度表没有直接连接到事实表上,而是通过其他维表连接到事实表上时,其图解就像多个雪花连接在一起,故称雪花模型。雪花模型是对星型模型的扩展。它对星型模型的维度表进一步层次化,原有的各维度表可能被扩展为小的事实表,形成一些局部的 " 层次 " 区域,这些被分解的表都连接到主维度表而不是事实表。如图 2,将地域维表又分解为国家,省份,城市等维表。它的优点是 : 通过最大限度地减少数据存储量以及联合较小的维表来改善查询性能。雪花型结构去除了数据冗余。

《玩转DataFocus数据分析》 图2-27 雪花型数据模型


星型模型因为数据的冗余所以很多统计查询不需要做外部的连接,因此一般情况下效率比雪花型模型要高。星型结构不用考虑很多正规化的因素,设计与实现都比较简单。雪花型模型由于去除了冗余,有些统计就需要通过表的联接才能产生,所以效率不一定有星型模型高。正规化也是一种比较复杂的过程,相应的数据库结构设计、数据的 ETL、以及后期的维护都要复杂一些。因此在冗余可以接受的前提下,实际运用中星型模型使用更多,也更有效率。

总体来讲,雪花模型使得进行复杂维度分析更加容易,比如“针对特定的广告主,有哪些客户或者公司是在线的?”星形模型做简单的指标分析更适合,比如“销售员张三的销售额?”

2.3.3数据模型构建

将数据导入DataFocus中以后,必须先按照设计的数据模型进行表间关联配置。在DataFocusMini以及DataFocus Public版本中,由于没有大数据仓库,不需要进行模型就见就可以立即进行分析。但是这种方式不能处理数据量巨大的情况;DataFocusStandard及以上版本则提供了模型构建功能,如下图所示,点击进行模型构建,100%完成后即可进行大数据分析了,后续数据库增量更新,不需要重新构建模型,但如果更改了数据模型,比如改变某些表之间的关联关系,则必须重新构建模型才能进行联表分析。


《玩转DataFocus数据分析》 图2-28 构建数据模型


当模型构建的状态变成SUCCESS,进度为100%时,代表模型构建成功,如图2-4-6所示。

《玩转DataFocus数据分析》 图 2-29 模型构建成功


关联好的多张表格可以在搜索页面进行多表联立搜索,如图2-4-7所示。 用户在创建表关联关系的时候,表关联不能出现回路和闭环。

《玩转DataFocus数据分析》图 2-30 关联搜索

第三章 构建您的第一个可视化

3.1 通过关键词进行快速简便的搜索分析

1、单纯列名搜索分析:

单维度搜索分析 :产品名称 销售金额

《玩转DataFocus数据分析》3.1.1 单纯列名搜索分析

图表之间可以进行转换,因为后面搜索分析会进行图表转换,所以这里提前演示图形之间,图表之间如何转换,展示常用图形:柱状图、折线图、饼图、环图、帕累托图、位置图、词云图、时序图等,目前共计有35种图形

还可以进行多维度搜索分析,例如:产品名称 区域 销售金额 销售数量

《玩转DataFocus数据分析》3.1.2 产品名称 区域 销售金额 销售数量

以及不同维度之间灵活更改,例如:自由添加维度、删减维度


2、关键词搜索分析:

时间日期关键词搜索分析:(可看情况添加属性列,以便更好地展示信息)

每年/每季度/每月 销售金额

《玩转DataFocus数据分析》3.1.3 时间日期搜索分析

环比:按 订单日期 计算的 销售金额的总和 的月/季度/周/年增长率

《玩转DataFocus数据分析》3.1.4 时间日期搜索分析

同比:按 订单日期 计算的 销售金额的总和 的月/季度/周/年增长率

《玩转DataFocus数据分析》3.1.5 时间日期搜索分析

排序关键词搜索分析:

排名前8的 销售金额 的总和 产品名称

《玩转DataFocus数据分析》3.1.6 排序关键词搜索分析

产品名称 排名后6 的销售金额 的总和

《玩转DataFocus数据分析》3.1.7 排序关键词搜索分析

字符串关键词搜索分析:

产品名称包含/不包含“花生” 销售金额

《玩转DataFocus数据分析》3.1.8 字符串关键词

姓名开头是/开头不是“王” 销售金额

《玩转DataFocus数据分析》3.1.9 字符串关键词

分组统计关键词搜索分析:

按 销售金额 分组统计的

《玩转DataFocus数据分析》3.1.10 分组统计关键词搜索分析

按 销售金额 分7组统计的

《玩转DataFocus数据分析》3.1.11 分组统计关键词搜索分析

按 销售金额 分组间隔为500统计的

《玩转DataFocus数据分析》3.1.12 分组统计关键词搜索分析

vs关键词搜索

时间vs:去年vs今年销售金额、8月vs9月销售金额、2016vs2017销售金额


《玩转DataFocus数据分析》3.1.13 vs关键词

关键词复合搜索

某年多月环比对比:

按 订单日期 计算的 销售金额的总和 的月/季度/年/周/日增长率 九月vs十月 2016

《玩转DataFocus数据分析》3.1.14 某年多月环比对比

某月多年同比对比: 按 订单日期 计算的 销售金额的总和 的月/季度/年/周/日增长率与往年同期相比 九月

《玩转DataFocus数据分析》3.1.15 某月多年同比对比

多层次排名统计:

按区域统计 排名前3的销售金额的总和 产品名称

《玩转DataFocus数据分析》3.1.16 多层次排名统计

多年每月对比:

按月统计 2016 vs2017销售金额

《玩转DataFocus数据分析》3.1.17 多年每月对比

3.2 How Show Me Works

3.2.1 图形展示

DataFocus支持柱状图、折线图、饼图、环图、散点图、漏斗图、气泡图、堆积柱状图、条形图、面积图、帕累托图、数据透视表、位置图、经纬图、经纬气泡图、热力图、统计图、组合图、仪表图、雷达图、树形图、词云图、瀑布图、弦图、旭日图、打包图、桑基图、平行图、KPI指标图、堆积条形图、时序柱状图、时序气泡图、时序散点图、箱型图、时序条形图共35种图表类型。在查询问题后,系统会智能地用合适的图形显示查询结果,同时用户可以点击‘图形转换’按钮将图形进行切换。 灰色显示则表示该搜索结果不适合用该种图形展示,彩色显示则表示该搜索结果适合用该种图形展示,蓝色边框显示为当前图表类型。


《玩转DataFocus数据分析》 3.2.1 图形展示

3.2.2 表格展示(表格及数据透视表)

《玩转DataFocus数据分析》3.2.2 表格


《玩转DataFocus数据分析》3.2.3 数据透视表

3.2.3 参考线(目标线、目标范围)

配置目标值 当当前轴为数值列时,可以对当前轴进行目标值的配置,令当前轴等于某一个数值的直线显示为橘色,配置完成后效果如图3.2.4。

《玩转DataFocus数据分析》

3.2.4 配置目标值

配置显示名 点击对应轴,在跳出的配置页面可以对当前轴的显示名进行特殊设置,如图3.2.5。

《玩转DataFocus数据分析》

3.2.5 显示名配置

在DataFocus系统中可以对Y轴(数值列)进行告警配置。 选择Y轴,弹出六个选项,点击“告警”,选择需要告警的数值范围,配置完成后点击确认即可应用。如下图3.2.6所示。红色闪烁条形图为该图表在告警范围内的数据。

《玩转DataFocus数据分析》

3.2.6 范围告警

当图表内数据到达预警值时,系统若开启了邮件功能,会给关注了该看板的用户发送告警邮件。

3.3 在datafocus中对数据进行排序

对数据进行排序的方式有3种:

3.3.1.搜索框中在想要进行排序的列名后面输入想要使用的排序方式,如在搜索框内输入“按销售金额降序排列”,如图3-5-1所示。

图3-3-1 搜索框输入排序方式

3.3.2.在数值表中进行操作:

点击想要进行排序的列名。首次点击的列名会以降序的方式排列,再次点击则是以升序的方式排列。此时排序的方式也会出现在图表标题下方,如图3-5-2所示。临时列不可以通过点击进行排序。

图3-3-2 数值表点击排序

3.3.3.在图形中进行操作:

点击想要进行排序的坐标轴。选择“排序”,首次点击的列名会以降序的方式排列,再次点击则是以升序的方式排列。此时排序的方式也会出现在图表标题下方,如图3-5-3所示。

图3-3-3 图形坐标轴点击排序

3.4 筛选过滤,向上向下钻取

3.4.1 筛选过滤

数据筛选过滤有4种方式:

1.在输入框中直接输入筛选条件,如“销售额大于5000”;

2.在数值表界面进行筛选:

点击想要进行筛选的对象,如图3-4-73所示;

点击后会弹出筛选条件的输入框。

数值列需要在左边选择>、<、>=、<=、!=、=这6个运算符号,右边输入具体的数值。属性列则会显示所有的列中值,只需在想要选择的列中值前面勾选即可。时间属性列的筛选则是点选相应的时间日期等。

点击确定,系统会根据筛选条件获取新的数据。

图3-4-73 数值表筛选

3.在图形界面的坐标轴进行筛选:

点击想要进行筛选的对象,如图3-4-74所示;

点击后会弹出筛选条件的输入框。

数值列需要在左边选择>、<、>=、<=、!=、=这6个运算符号,右边输入具体的数值。属性列则会显示所有的列中值,只需在想要选择的列中值前面勾选即可。时间属性列的筛选则是点选相应的时间日期等。

点击确定,系统会根据筛选条件获取新的数据。

V5.1.0 3-4-74-1.png
图3-4-74 图形坐标轴筛选

4.批量筛选:

在图形界面的坐标轴进行筛选时,还可以通过批量筛选的方式进行,点击想要进行筛选的对象,选择“批量添加值”,如图3-4-75所示;

在输入框中输入需要筛选的列中值(以中/英文逗号或空格隔开):

点击确定,系统会根据筛选条件获取新的数据。

图3-4-75 批量筛选

3.4.2 钻取

钻取数据(使用的数据必须有包含关系且不重复)是针对x轴(属性列)上具体的某个值进行的操作,它不支持数据透视表,有向上钻取数据和向下钻取数据2种方式。

对数据进行钻取的方式有2种:一是在数值表中进行钻取,二是在图形表中直接钻取。

1.在图形表中直接钻取操作如下:

在图形中选择想要进行该操作的数据,点击右键会显示出“向下钻取数据”按钮,若是数据满足要求,则点击该按钮后会显示可钻取的列信息如组图3-4-85所示。若是不满足则会提示“当前没有可以向下钻取的数据”。

在有显示钻取数据的情况下选择想要钻取的列。钻取后搜索条件也会同步显示x轴上被钻取列及其钻取列。

V5.1.0 3-4-85-2.png
图3-4-85 在图形表中进行数据钻取

2.在数值表中进行钻取操作如下:

在数值表中选择想要进行该操作的数据,点击右键会显示出“向下钻取数据”按钮,若是数据满足要求,则点击该按钮后会显示可钻取的列信息如组图3-4-86所示。若是不满足则会提示“当前没有可以向下钻取的数据”。

在有显示钻取数据的情况下选择想要钻取的列。钻取后搜索条件也会同步显示x轴上被钻取列及其钻取列。

V5.1.0 3-4-86-1.png
图3-4-86 在数值表中进行数据钻取

第四章 如何增强数据?

4.1 什么是聚合?

聚合主要指聚合函数,其定义了值的表达方式,是SQL中的基本函数,聚合函数对一组值执行计算,并返回单个值,大多数聚合函数DataFocus都是支持的。 如果您熟悉SQL,则会发现DataFocus中的大多数函数都是SQL的扩展。 DataFocus默认使用Sum聚合。 如果默认聚合不是您想要的,您可以自由选择其它更合适的聚合。 DataFocus支持的聚合函数有以下几种,所有的聚合函数在DataFocus中都有提示用法及意义:

  • average
  • count
  • cumulative_average
  • cumulative_max
  • cumulative_min
  • cumulative_sum
  • group_average
  • group_count
  • group_max
  • group_min
  • group_sum
  • group_unique_count
  • group_variance
  • max
  • min
  • moving_average
  • moving_sum
  • stddev
  • sum
  • unique_count
  • variance
  • sum_if
  • average_if
  • variance_if
  • stddev_if
  • max_if
  • min_if
  • count_if
  • unique_count_if

上述聚合函数在DataFocus的用户手册中都有明确定义。 如果您不熟悉每个聚合函数的意义,可以点击DataFocus页面的右上角“帮助——用户手册”按钮,如下图4-1-1所示,即可看到用户手册中对于各个聚合函数的解释说明。

《玩转DataFocus数据分析》 图4-1-1


4.1.1 unique_count 和count

Count是计数函数,其以不同的方式对记录进行计数,可分为非重复计数和计数。例如现有一个包含17029条记录、598个不同产品的数据集。对产品码字段执行unique_count将返回值598,如下图4-1-2所示,unique_count的目的是对特定项的唯一实例进行计数。而如直接对产品码字段执行count,则系统会得到17029的聚合总数,如下图4-1-3所示,因为它计算的是所有记录,并不排除重复的值。

《玩转DataFocus数据分析》图4-1-2



《玩转DataFocus数据分析》图4-1-3


关系数据库源支持非重复计数,但Excel、Access或文本文件等都不支持。因此,我们可以通过DataFocus从数据库中提取数据,然后在DataFocus中直接进行非重复聚合的计算。

4.1.2不同的销售聚合

在DataFocus中,不仅可以显示重复计数与非重复计数,还支持同时显示数据集中总销售额字段使用不同聚合函数聚合后的值,我们只需要在DataFocus的搜索框内输入相关的聚合方式关键词,即可实时得到聚合后的结果,如下图4-1-4所示,其在同一个表中展现了各个产品的销售额总和、平均值、方差、标准差、最大值、最小值等等。

《玩转DataFocus数据分析》图4-1-4


4.1.3 ATTRIBUTE与MEASURE

针对不同的列类型,可以使用的聚合方式不同,在DataFocus中,列类型总共有两类,一类为ATTRIBUTE列,另一类为MEASURE列。 MEASURE列,从字面意思理解,测量,计量,一般用来表示可以计算的数值列,例如常见的销售额、利润、数量、重量等可以计算的列。对于MEASURE列,DataFocus支持其使用多种聚合方式,如总和、均值、最大值、最小值等,可以直接在搜索框内输入聚合方式关键词,如下图4-1-5所示;

《玩转DataFocus数据分析》图4-1-5


DataFocus中,MEASURE列默认显示的聚合方式是总和sum,如若不想要求数据的总和,在DataFocus中,可以自由的进行调整,如上图4-1-5所示,直接在搜索框内更改聚合方式是一种方法,另外也可以直接在图形或者表格中更改可以选择的聚合方式,如下图4-1-6所示,点击Y轴measure列名,选择:聚合方式,进而选择满足要求的聚合函数。

《玩转DataFocus数据分析》图4-1-6


ATTRIBUTE列,一般我们认为是跟属性相关的列,可能包括有字符格式的属性数据,还有日期相关的数据,因为这类数据都是没法计算的,所以ATTRIBUTE列不支持总和、平均值、最大值、最小值等聚合方式,但是其支持count计数,以及unique_count非重复计数,如下图4-1-7所示。

《玩转DataFocus数据分析》图4-1-7


ATTRIBUTE列,其聚合方式同样可以用上述所讲的两种方式更改,一是直接在搜索框内修改聚合方式为“去重后的计数”,二是直接在图表中更改聚合方式,如下图4-1-8所示,可见能选择的聚合方式仅支持数量,即计数,以及去重后的数量,即非重复计数。

《玩转DataFocus数据分析》图4-1-8


4.2 如何创建公式? 在DataFocus中,支持大部分excel中的公式函数,例如上节内容提到的计数函数,也是一类公式,那么在接下来的章节中,我们主要为大家讲解如何在DataFocus中应用公式来生成新的列,以及支持哪些类型的公式。

4.2.1 公式应用

DataFocus中支持公式,且Excel中的大部分公式都支持,在日常业务中,很多时候我们需要的结果无法从原始数据中得到,而是需要通过层层计算所得,这时候,就需要运用到公式,DataFocus目前支持7大类公式,分别有:

  • 聚合类公式:例如sum、average、min、max等,经常用在需要聚合的数值列之间,例如求销售金额的汇总,月平均薪资等,这类公式是业务中最常用的公式,在DataFocus中对每一个公式的用法以及示例都有说明;
  • 转换公式:例如to_date、to_string、to_double等,这类公式主要用来转换原始数据类型,例如在原始数据中,其日期数据是以字符串形式保存的,但是为了使用DataFocus的日期关键词进行快速搜索分析,那么就需要将字符形式的日期转换成日期格式的,这时候就可以利用to_date公式进行转换;
  • 日期公式:主要有year、time、diff_days等,这类公式主要对于日期时间格式的数据生效,例如可以从日期格式中得到具体的年份、月份,或者是两个日期之间差了几天等,非常有助于经常需要从时间维度来分析数据的业务;
  • 混合函数:主要就是我们常见的大于、小于、大于等于、小于等于、不等于这类函数,主要用于判断数据;
  • 数字函数:常见的数字函数有加减乘除、乘方、对数、三角函数等,这类就比较偏向于数学中的计算了;
  • 逻辑操作符:主要是进行一些逻辑判断的函数,比如and、or、if...then...else、not等等,在日常业务中用到的概率也非常大;
  • 文本操作函数:最后一类是与文本相关的函数,例如concat、strlen、substr等,分别代表着字符串链接、求字符串长度、以及获取子字符串,在日常工作中,也会经常用到文本类函数。

那么,在DataFocus中,如何来创建公式呢?其实非常简单,在搜索页面,可以看到左下方有一个添加公式,在添加公式中可以运用上述提到的7类函数公式,并且在右边,每个函数公式都有详细的说明以及示例,可以帮助使用者了解如何运用这些公式,如下图4-2-1所示;

《玩转DataFocus数据分析》 图4-2-1


例如现在我的原始数据有销售数量以及单价,想要求销售额,即可以利用我们的数学函数中最简单的乘法,计算出我们需要的销售金额,并且将公式名改成“销售金额”,双击“销售金额,即可将公式添加到搜索狂进行搜索分析,公式计算结果会形成一个新的列,如下图所示。

《玩转DataFocus数据分析》 图4-2-2



《玩转DataFocus数据分析》 图4-2-3


4.2.2 公式嵌套

什么是公式嵌套?即在创建了一个公式之后,还可以直接利用该公式继续创建新的公式,这就是公式嵌套的用法。公式嵌套主要用在一些复杂的业务计算中,有时候单纯一个公式无法得到我们想要的结果,需要对原始数据进行“多层加工”才能得到最终我们要的那个值。 例如我们在对销售数据进行分析的时候,我们不仅需要知道其销售情况,还需要知道销售的利润情况,即企业的收益如何,这时候,我们就需要利用之前求出的销售总额,来减去各项成本总额,才能得到最终的利润。如下图所示,我们在创建第二个公式的时候,其中的一个公式字段采用了第一个公式的名称,这样就形成了一个公式的嵌套。

《玩转DataFocus数据分析》 图4-2-4


《玩转DataFocus数据分析》 图4-2-5


如果想要了解各个公式的进一步用法,可以在DataFocus的产品手册中第十章找到各个公式的用法以及例子,以便更好地处理各类业务数据。

4.3 行列转换

何为行列转换?行列转换类似于Excel中转置的功能,即把行数据转换成各个列,把各列转换成行中不同的值。同样在DataFocus中也不需要太复杂的操作,只需要将原始数据进行搜索,待搜索出结果后,点击右上角“操作—行列转换”即可,在这里,即可以将行转换成列,也可以将列转换成行,系统会自动识别哪些列或者哪些行可以进行转置操作,如下图所示,转换之前是一个属性列一个数值列,转换后变成4个数值列。

《玩转DataFocus数据分析》 图4-3-1 原始值


《玩转DataFocus数据分析》图4-3-2 行列转换


《玩转DataFocus数据分析》图4-3-3 行列转换之后


现实应用中统计报表,行列转换很常见的,就比如销售报表,把行中的年份和季度转换成列来显示数据、分析数据,这样做的很大一部分原因其实与我们的业务习惯有关,我们在分析报表或者查看报表的时候,习惯性的想要从多维度来分析数据,即显示成多列,这样更方便将数据进行左右对比,而不是上下浏览对比。

4.4 创建中间表

DataFocus中如何进行数据处理清洗?这就要利用我们独特的中间表功能了。中间表,即从原始数据到最终数据过程中对数据进行处理清洗而产生的表,即称之为“中间表”。我们可以对数据进行筛选过滤,或者新增公式列等,然后将处理后的数据保存为中间表,可以对中间表进行二次处理,如此循环,直到得到最终想要的结果。 如何创建中间表,其实有两种方式,一是创建关联中间表,二是创建问答中间表。顾名思义,问答中间表就是在搜索页面,将经过一系列操作的后的搜索结果,点击右上角“保存为中间表”,如下图4-4-1所示。

《玩转DataFocus数据分析》图4-4-1


那关联中间表,就是在数据管理页面,直接点击右上角“操作—创建中间表”,即可进入创建中间表页面,此处也可以添加公式,选择需要的列,并且可以将多个表联立创建中间表,即可实现多表分析,如下图4-4-2所示。

《玩转DataFocus数据分析》图4-4-2


问答中间表可以添加有聚合方式的公式列,而关联中间表不能添加有聚合方式的公式列,所以关联中间表中的数据是没有经过聚合的,是原始数据的剪辑版,而问答中间表的数据肯定是经过聚合的,是汇总后的数据,这就是两者之间的主要区别。在实际业务中,我们可以按照不同的需求创建不同的中间表。

4.5 合并中间表

合并中间表,在DataFocus中,还可以将多个格式一样的中间表进行合并,例如有些企业会有从不同的子公司收集数据,其格式都是统一的,但是不同的子公司都有一份独立的数据,如何把这些数据汇总进行综合分析,那这个就是合并中间表的意义了。 例如现在我有不同年份的几个数据表,我想要综合起来进行分析,那首先要做的就是合并中间表,在数据管理页面,点击右上角“操作—合并中间表”,即可进入合并中间表页面,选择需要合并的中间表,若是合并的数据表的列名以及格式一样,系统就会自动重合,如若列名不一样,但实际是同一个字段,那也可以手动匹配,如下图4-5-1所示,最终将结果保存即可形成一个新的中间表,并可对该中间表进一步分析。

《玩转DataFocus数据分析》图4-5-1

第五章 地图妙用

5.1 位置图

在做数据分析的时候,我们经常会遇到一些地理信息,如何有效的利用地理信息进行分析,是我们要考虑的问题,而DataFocus在一定程度上很好的解决了这个问题,其支持将地理位置信息以更合适的方式展示,或是以全国地图的形式展现,或是省份地图,又或是更精确的城市地图。从真实的地理位置信息,来分析数据之间的关系。 例如我们的销售数据,其销售点分布在全国各大地区,如何更好地了解各大区域省份之间的差异,一份全国销售分布图会比简单的柱状图或者表格来的更加清晰明了,如下图所示,即可体会到地理位置图的优势之处。

《玩转DataFocus数据分析》 图5-1-1


《玩转DataFocus数据分析》 图5-1-2


在DataFocus中如何创建位置图呢?其实很简单,因为DataFocus是智能适配图表,如果你的数据中含有省份信息,城市信息,或者城市的区信息,即可智能地以位置图的形式展现,不过有一个前提,就是你需要将这些地理字段的地域类型设置成对应的省份、城市或者区域。在数据管理页面,点击我们的数据表,在列信息中,找到地域类型,选择对应的省份或者城市,即设置完成,再去搜索省份销售数量,即可自动显示位置图。

《玩转DataFocus数据分析》图5-1-3


5.2 经纬图

除了5.1中我们提到的地理信息,省份,城市,区域之外,我们在实际业务中也会经常遇到经纬度信息,那么如何在DataFocus中展现经纬度信息呢?是否可以支持经纬图呢? DataFocus不仅支持经纬图,还支持多种类型的经纬图,例如经纬热力图、经纬气泡图、经纬统计图等,可按照不同的需求选择不同的经纬图类型。 同样的,在DataFocus中也是可以智能适配经纬图,只要数据中有经纬度信息即可,但也有一个前提,就是我们需要将经纬度相关字段的地域类型设置成经度或者纬度,以告诉系统这是经纬度,而不是普通的数值列,以便系统能够自动适配。其操作与位置图设置地域类型一致,如下图5-2-1所示。

《玩转DataFocus数据分析》 图5-2-1


设置完地域类型之后,我们就可以在搜索页面搜索经纬度信息了,双击选择经度以及纬度,外加需要分析的数值维度,例如人口,即可看到最终结果如下图所示,系统智能适配经纬图。

《玩转DataFocus数据分析》图5-2-2


如果搜索经纬度信息,系统智能的展示经纬图,但是不会智能匹配经纬热力图、经纬气泡图等,那么如何选择以经纬热力图或者经纬气泡图来展示数据呢?其实操作非常简单,只需要一步即可,那就是进行图形转换,点击右上角的“图形转换”按钮,在高级图形中可以看到有经纬热力图、经纬气泡图等图形,直接选择即可进行更换,如下图所示。

《玩转DataFocus数据分析》图5-2-3 经纬图


《玩转DataFocus数据分析》图5-2-4 经纬气泡图


《玩转DataFocus数据分析》图5-2-5 经纬热力图


《玩转DataFocus数据分析》图5-2-6经纬统计图

第六章 历史问答使用技巧

6.1 修改数据类型

DataFocus中的数据表可以在数据管理页面中查看表内各个列的数据类型。数据类型是在导入表的时候配置的:本地数据在导入时会有相应的配置页面,如图6-1-1所示;数据库表是与数据库内数据类型一致的;中间表数据类型来源于其数据源和公式列的设置;数据报表是在新建填报模板时配置固定的。

已经存在数据仓管理中心的表是不能直接修改数据类型的,如果需要修改表列的数据类型,目前有两种方式:

  1. 重新导入表(或创建模板),在导入过程中重新配置数据类型。
  2. 中间表功能,利用公式中的transfer函数进行数据类型的转换,然后保存为中间表再使用。
《玩转DataFocus数据分析》图6-1-1 导入配置数据类型(csv文件)


《玩转DataFocus数据分析》图6-1-2 公式修改数据类型


6.2 更改图轴

搜索页面中,当使用者想切换当前图标的X、Y轴和图例时,可以在图表区的右上角找到“配置图

《玩转DataFocus数据分析》

”按钮,在弹出的图轴设置浮窗中修改切换轴,如图6-2-1所示。

《玩转DataFocus数据分析》 图6-2-1 更改图轴


在没有图例的情况下,还可以设置双Y轴,如图6-2-2所示。

《玩转DataFocus数据分析》 图6-2-2 双Y轴


6.3 设置告警

告警值是在对应数值Y轴设置浮窗中进行配置的。打开一个历史问答,点击对应Y轴的数值列名,弹出设置浮窗,选择告警,填写告警范围,完成后点击完成按钮,即可设置成功,如组图6-3-1所示。

《玩转DataFocus数据分析》图6-3-1 告警设置
《玩转DataFocus数据分析》图6-3-1 告警设置


最终得到的告警效果如下图6-3-2所示,告警部分的柱体会呈红色闪烁样式;在使用者配置过邮件服务并且当前帐户填写了邮箱的前提下,给对应邮箱发送邮件进行提醒。

《玩转DataFocus数据分析》图6-3-2 告警效果


6.4 图表属性自定义设置

图表属性设置入口在右上角的齿轮状按钮上。

《玩转DataFocus数据分析》图6-4-1 图表属性入口按钮


图表属性会根据图形类型的不同有一定的改变,且数值表和图形图表的图表属性也有很大的不同。 在图表属性设置中,使用者可以对图表进行各个细节的设置,如基本的图表内线条字体标题等格式的设置、图表网格线的配置、数据标签的格式、数值标尺与标度的设置以及定时刷新的频率。根据图形不同还有很多细节的不同,全面的设置内容可以在DataFocus官网的产品手册中进行查看,这里就简单的介绍几个常用图形和数值表的图表属性设置。

6.4.1 数值表图表属性

1. 在表格显示的页面,点击右上角“图表属性”按钮,页面左侧弹出如下6-4-2所示的图表配置界面;

《玩转DataFocus数据分析》图6-4-2 图表属性


2. 在图表属性下点击通用按钮,弹出如下界面6-4-3所示,在该界面可设置字体文本格式,表格行列格式,修改显示设置,财务负数显示等。

《玩转DataFocus数据分析》图6-4-3 通用配置


3. 在图表属性下点击标题行按钮,弹出如下界面6-4-4所示,在该界面可设置标题行字体表格样式和字体格式;

《玩转DataFocus数据分析》图6-4-4 标题行配置


4. 在图表属性下点击总计行按钮,弹出如下界面6-4-5所示,在该界面可设置是否显示总计行,总计行的标签设置,总计行填充颜色,字体颜色字体样式,总计行显示在最前还是最后等等;

《玩转DataFocus数据分析》图6-4-5 总计行配置


6.4.5 图形图表属性

 柱状图(修改): 1. 在图表属性下点击通用按钮,弹出如下界面6-4-6所示,在该界面可设置主题颜色,字体大小(一般显示默认大小),图例显示的位置(默认显示在右侧),默认柱宽,隐藏标题以及设置图表出现时是否需要动画效果。

《玩转DataFocus数据分析》图6-4-6 通用配置


2. 在图表属性下点击网格线配置按钮,弹出如下界面6-4-7所示,在该界面可设置零线的颜色宽度,是否去除图形中平均值、最大值、最小值的刻度线,以及在图形中是否隐藏网格线。

《玩转DataFocus数据分析》图6-4-7 网格线配置


3. 在图表属性下点击数据标签格式按钮,弹出如下界面6-4-8所示,在该界面可设置数据标签的文本,也可输入已定义的宏,如下所示,以及可设置数据标签是否使用标尺缩写,即1000是否缩写成1K。 文本中宏的意义:

  • %_VALUE:直接输入该宏可显示原本的数值标签,在宏后面添加文本,即可在原本的数值标签基础上添加额外的文本信息。
  • %_CATEGORY_TOTAL:直接输入该宏可显示X轴为某个值时所有Y轴的数值之和的数值标签,在宏后面添加文本,即可在原本的数值标签基础上添加额外的文本信息。
  • %_PERCENT_OF_TOTAL:直接输入该宏可显示X轴为某个值时Y轴的数值占该Y轴所有数值和的比例的数值标签,在宏后面添加文本,即可在原本的数值标签基础上添加额外的文本信息。
  • %_PERCENT_OF_CATEGORY:直接输入该宏可显示X轴为某个值时Y轴的数值占X轴为该值时对应的所有Y轴数值和的比例的数值标签,在宏后面添加文本,即可在原本的数值标签基础上添加额外的文本信息。
  • %_SERIES_NAME:直接输入该宏显示的数值标签为对应的图例名称,在宏后面添加文本,即可在原本的数值标签基础上添加额外的文本信息。
  • %_SERIES_NUMBER:直接输入该宏显示的数值标签为对应的图例顺序,在宏后面添加文本,即可在原本的数值标签基础上添加额外的文本信息。
  • %_CATEGORY_NAME:直接输入该宏显示的数值标签为对应的X轴的值,在宏后面添加文本,即可在原本的数值标签基础上添加额外的文本信息。
  • %_CATEGORY_NUMBER:直接输入该宏显示的数值标签为对应的X轴值的顺序,在宏后面添加文本,即可在原本的数值标签基础上添加额外的文本信息。
《玩转DataFocus数据分析》图6-4-8 数值标签格式


4. 在图表属性下点击数值标尺按钮,弹出如下界面6-4-9所示,在该界面可设置有两个Y轴的情况下选择是否只使用一个Y轴,在只有一个Y轴的前提下,可设置Y轴标尺的最大值最小值。

《玩转DataFocus数据分析》图6-4-9 数值标尺


5. 在图表属性下点击悬浮文本设置按钮,弹出如下界面6-4-10所示,在该界面可设置悬浮文本的内容,也可输入已定义的宏,定义的宏与上述第3点配置中的宏用法一致。

《玩转DataFocus数据分析》图6-4-10 悬浮文本设置


6. 在图表属性下点击标度按钮,弹出如下界面6-4-11所示,在该界面可设置标度(只在一个Y轴的时候有效),标度可设置为直线或者范围,可设置标度的颜色,宽度,样式等,也可设置标度的数值。

《玩转DataFocus数据分析》图6-4-11 标度配置


 饼图: 1. 在图表属性下点击通用按钮,弹出如下界面6-4-12所示,在该界面可设置主题颜色,字体格式,标题与信息隐藏,饼图模式(传统饼图或者玫瑰形状),玫瑰模式下的画图模式(半径模式:花瓣中心角度不一样,面积模式:角度一致,只与面积有关),可设置半径起点(如下图所示),饼图的切片数,设置是否按照排序的数据显示以及设置图表出现时是否需要动画效果。

《玩转DataFocus数据分析》图6-4-12 通用配置


2. 在图表属性下点击数据标签格式按钮,弹出如下界面6-4-13所示,在该界面可设置数据标签的文本(前提显示数据标签),也可输入已定义的宏,如下所示,文本中宏的意义:

  • %_NAME:直接输入该宏可显示原本的名称标签,在宏后面添加文本,即可在原本的名称标签基础上添加额外的文本信息。
  • %_VALUE:直接输入该宏可显示原本的数值标签,在宏后面添加文本,即可在原本的数值标签基础上添加额外的文本信息。
  • %_PERCENT_OF_TOTAL:直接输入该宏可显示该区域扇形占比的百分比标签,在宏后面添加文本,即可在原本的百分比标签基础上添加额外的文本信息。
《玩转DataFocus数据分析》图6-4-13 数据标签格式


3. 在图表属性下点击悬浮图例配置按钮,弹出如下界面6-4-14所示,在该界面可设置右侧图例的文字标题内容,以及数值的聚合方式。

《玩转DataFocus数据分析》图6-4-14悬浮图例配置

第七章 数据看板的使用技巧

7.1如何将问答加入数据看板

数据看板可以汇总多个历史问答(最多20个),问答加入数据看板有两种方式: 第一种是在制作并保存完历史问答时,在搜索界面直接将问答钉到数据看板中,如图7-1-1所示。点击右上角图钉按钮,选择钉入的数据看板,也可以在这个页面创建新的数据看板,确定后即可把当前问答钉入看板。

《玩转DataFocus数据分析》

图7-1-1 在搜索页面钉问答到看板 第二种是在数据看板编辑页面进行批量导入,在数据看板汇总页面进入对应数据看板编辑页面,点击左上角的导入选项,在下拉框中选择需要加入的历史问答,已选入的问答会在名字后显示“已加入”的图章样式。

《玩转DataFocus数据分析》

图7-1-2 在数据看板添加问答

7.2 用文字组件帮助理解数据看板

数据看板中可以加入文字组件作为辅助阐述用的小技巧,使用者可以将文字组件用作标题,点明报告主题;可以作为文字总结放置在对应的图表旁边;也可以用浮窗浮于图表上方进行要点提炼,具体用法根据使用者的需求和思路来。这里举一个小例子,如图7-2-1所示。

《玩转DataFocus数据分析》

图7-2-1 文字组件应用 在数据看板的编辑页面可以进行文字组件的添加,如图7-2-2所示。

《玩转DataFocus数据分析》

图7-2-2 添加文字组件 文字组件分为标题文本和浮动文本两种,标题文本即是上图中的标题和右上角的Tip部分,浮动文本即是左侧较大图表右上角的有色文字块。可以很明显的看出,标题文本会占据布局空间,而浮动文本不会;标题文本只有在网格布局的全局模式下,才可以进行添加,浮动文本在网格布局或自由布局都可以添加。

7.3 媒体组件的应用

上一节说到了文字组件的添加,媒体组件的使用也是类似的,可以通过插入图片的方式辅助数据分析报告的展示效果,比如,在商品的货架销售分析中,可以插入商品图片进行轮播展示,同步进行商品销售分析,如图7-3-1所示。

《玩转DataFocus数据分析》

图7-3-1 媒体组应用 在数据看板的编辑页面可以进行媒体组件的添加,如图7-3-1所示

《玩转DataFocus数据分析》

图7-3-2 添加媒体组件 目前媒体组件仅支持插入图片,标题图片和浮动图片的区别与上一节的标题文本和浮动文本类似。需要注意的一点是,图片组件需要使用者自己上传图片使用,一个组件最多支持上传7张图片,当有多张图片时,系统采用轮播的方式按上传顺序对图片进行展示。

7.4 调整图表大小

调整图表和各个组件的大小使整体数据看板看起来和谐美观,是数据看板制作中非常重要的一个环节,那么如何调整图表和组件大小呢? DataFocus的数据看板中有两种布局方式:“网格布局”和“自由布局”。 网格布局下,系统自动按网格对各个组成元素进行排列(浮动组件除外),并且固定图表和组件的大小,除标题组件有额外的一种特殊的100%尺寸(即作为标题时的细长条状尺寸,如图7-4-1所示),所有图表和组件都有25%、50%、100%三种固定尺寸,使用者选中对应组成元素后,在右侧组件样式中选择相应的尺寸即可改变大小。浮动组件没有固定的尺寸。

《玩转DataFocus数据分析》

图7-4-1 网格布局下标题文字组件的尺寸 自由布局下,各个组件的大小是自由调整的,用户可以用鼠标拖住模块的边框拉动改变其大小,也可以选中相应的图表或组件,在右侧的组件样式中修改尺寸的数值,如图7-4-2所示。

《玩转DataFocus数据分析》

图7-4-2 自由布局下图表组件的尺寸

7.5 调整布局

上一节我们说到在不同的布局模式下,组件大小的调整是不同的,同理布局的调整在不同布局模式下也是不同的。 在网格布局下,固定尺寸的组件是自动排列的,可以通过拖动组件来改变他们的排列顺序(这种排列受到组件尺寸的影响),且各个组件不能发生重叠(浮动组件不受限)。 在自由布局下的布局调整就灵活很多,可以随意进行拖动到任何位置,或者在右侧的组件样式中修改位置的数值,如图7-5-1所示。

《玩转DataFocus数据分析》

图7-5-1 自由布局下调整位置 因为组件可以发生重叠,所以存在各个组件之间层级上下的关系,可以右键选中组件,将该组件上移、下移一层,或者置顶、置底;也可以在做成的层级关系缩略图中进行同样的操作(这样方便于组件过多或尺寸较小的情况),如图7-5-2所示。

《玩转DataFocus数据分析》

图7-5-2 调整层级

7.6 设置主题风格

DataFocus中内置了四种简单的主题风格,可以在全局样式侧栏中看到,如图7-6-1所示。

《玩转DataFocus数据分析》

图7-6-1 主题风格选项 使用者可以通过左右两个箭头进行左右浏览,点击相应的缩略图即可修改为该主题,还可以自由定制主题样式(仅限全局),然后保存当前样式为预设样式成为主题风格之一(排列在默认的四个主题之后),留后续使用。

7.7 导出成pdf

制作完成的数据看板可以导出到本地,比如加入业务分析的文件中帮助使用者阐述理念。目前支持将数据看板导出为PDF。在数据看板汇总页面点击查看数据看板进入数据看板预览页(在编辑页面点击右上角的预览按钮也可以)。将鼠标移至页面顶端,会浮现出预览页的操作栏,点击“保存为PDF”按钮,如图7-7-1所示,即可将当前数据看板保存到浏览器下载地址中。

《玩转DataFocus数据分析》

图7-7-1 保存为PDF 最终PDF效果如下:

《玩转DataFocus数据分析》

图7-7-2 PDF效果

7.8 数据看板分级导航

DataFocus可以通过设置分级导航来快捷的进入常用数据看板。如图7-8-1所示。

《玩转DataFocus数据分析》

图7-8-1 顶栏数据看板分级导航 使用者可以将常用看板设置在顶栏分级导航条中,点击对应的看板即可进入对应的预览页。可以设置两级导航,将鼠标放置在存在二级导航的一级导航看板的位置上,会显示出其下的二级导航看板。 那么我们来看一下如何进行设置。 点击导航条末尾的编辑按钮,进入导航设置页面,左侧为导航条的自定义看板列表,右侧为系统内全部数据看板,拖动右侧写有看板名称的胶囊状长条放入右侧,将看板拖入左侧已存在看板框体内的下方空白区域,即可设置为对应以及导航看板的二级导航看板,如图7-8-1所示。设置完成后点击确认,即可更新导航栏。

《玩转DataFocus数据分析》

图7-8-2 分级导航栏配置


第八章 注册安装

DataFocus Cloud版无需本地安装,只需接入网络,通过访问域名即可在线注册登录使用。

首先进入datafocus.ai,点击登录按钮,显示官网登录页面,如图2-1-1所示。

图8-1-1 官网登录页面

用户可以选择使用微信扫描二维码登录“DataFocus会员中心”,也可以使用账号密码登录。

支持微信扫码登录系统,如图2-1-2所示。

图8-1-2 扫码登录

支持输入账号和密码登录系统,如图2-1-3所示。

图8-1-3 账号密码登录

如果没有账号请先点击“立即注册”,完成注册后登录。输入用户名、密码、邮箱、手机号并获取验证码,填写个人信息即可完成注册,如图2-1-4所示。

图8-1-3 图2-1-4 注册页面

首次使用微信扫码登录后,需要填写个人信息并继续,如图2-1-5所示。登录后会进入DataFocus会员中心首页,如图2-1-6所示。

图8-1-5 填写个人信息
图8-1-6 DataFocus会员中心首页

进入会员中心后,点击商业分析师版的“新建”按钮,完成支付可以创建商业分析师版应用,如图2-1-7所示。

点击企业共享版的“新建”按钮,完成支付可以创建企业共享版应用,如图2-1-8所示。

图8-1-7 新建商业分析师版
图8-1-8 新建企业共享版


企业共享版可以邀请其余用户共同使用。邀请操作如下:

1)进入我的云应用,找到企业共享版的应用,点击“邀请使用者”按钮,可以邀请使用者,如图2-1-9所示。

2)输入使用者的手机号和邮箱,可以进行邀请。也可以通过上传csv文件进行批量导入与邀请,如图2-1-10所示。

3)被邀请用户会在该邮箱收到验证邮件进行确认,点击确认链接即可登录系统进行使用。

图8-1-9 我的云应用
图8-1-10 邀请使用者

第九章 使用技巧

9.1 系统内分享

在DataFocus系统内,可以将你制作的数据看板或历史问答分享给其他用户,使得原本无法他们可以查看或编辑你制作的数据看板或历史问答。接下来这一节内容就是要教大家如何进行分享以及一些分享的注意点。

9.1.1 分享单个图表

首先是介绍历史问答的分享,用户可以操作分享单个图表,也可以选中多个图表进行分享。分享历史问答有一定的限制,先来了解一下这些限制。 分享历史问答一般用于给其他用户分享该用户拥有权限的历史问答,历史问答可以是该用户自行创建的,也可以是别人分享给该用户的,但该用户分享历史问答给其他用户的权限不能高于自己所有的权限。且被分享用户对该历史问答的访问权限会受自身的数据权限限制,如被分享者没有历史问答所用数据源表的数据权限或仅有部分数据权限,则该问答对该用户无法显示数据或仅显示有权限部分的数据图表。 在历史问答页面中要将内容进行分享,操作步骤如下: 1. 将要分享的看板前的白框打勾(可多选),如图9-1-1所示;

《玩转DataFocus数据分析》

图 9-1-1 勾选问答 2. 点击左上角的“分享”按钮,点击该按钮会弹出下图9-1-2的界面;

《玩转DataFocus数据分析》

图 9-1-2 分享 3. 点击“+”,会出现如下图9-1-3所示的界面,在这里我们可以选择要分享的用户或组,选择分享给用户或组以及分享的权限。分享历史问答可以选择分享给单个用户或者是分享给组,若选择分享给组,则可以在左侧的方框内选择具体的组名称,并设置权限;若是分享给单独用户,则是在左侧的方框内选择具体的用户名称,并设置权限。

《玩转DataFocus数据分析》

图 9-1-3 分享 4. 选择对应的设置对象及其权限后,点击添加即可将该对象的信息添加,如图9-1-4所示;

《玩转DataFocus数据分析》

图 9-1-4 分享设置 5. 最后点击完成,内容便分享成功,如图9-1-5所示。

《玩转DataFocus数据分析》

图 9-1-5 完成分享

9.1.2 分享数据看板

我们可以将数据看板用同样的方式分享给其他用户,限制条件与分享历史问答一致。用户分享看板给其他用户的权限不能高于自己所有的权限以及被分享用户对该看板内问答的访问权限会受自身的数据权限限制。 1、操作流程 在数据看板页面中要将内容进行分享,因操作步骤和分享历史问答一致,这里就不再全部展示,只进行文字介绍,操作步骤如下: ①将要分享的看板前的白框打勾(可多选),如图9-1-6所示;

《玩转DataFocus数据分析》

图 9-1-6 勾选看板 ②点击左上角的‘分享’按钮,点击“+”,选择要分享给用户或组,选择分享的用户或组,以及对该看板设置使用权限; ③点击添加,用户名便会出现在创建者的下方,如图9-1-7所示;

《玩转DataFocus数据分析》

图 9-1-7 分享看板 ④最后点击完成,内容便分享成功。 2、修改权限 分享者可以修改早前设置的分享看板的使用权限,如,将某一用户或组的查看权限修改为编辑,如图9-1-8所示。

《玩转DataFocus数据分析》

图 9-1-8 修改分享权限 3、取消分享 若分享者将自己早前分享的内容取消分享,被分享的人员也将不再看到该内容。取消分享可以从以下4个步骤完成: 同分享的操作,打开“分享”对话框,点击该用户右侧的“×”按钮取消分享,如图9-1-9所示,点击完成,被分享的用户就不能再看到这个数据看板。

《玩转DataFocus数据分析》

图 9-1-9 取消分享

9.2 角色权限及数据更新

9.2.1 自定义角色

角色是系统中权限依赖的属性,无任何角色权限的用户即普通用户,在DataFocus系统中仅有被分配的数据使用权限和看板、问答的查看或编辑权限。目前系统预设有七种角色权限,分别是用户管理、权限管理、系统设备管理、数据管理、模型管理、日志管理、告警管理,可供管理员创建角色时挑选。每个角色权限的作用如下:  用户管理:查看管理用户。  权限管理:管理角色和权限并且给普通用户赋权。  系统设备管理:查看管理系统设备和服务。  数据管理:管理数据并给部门赋予数据权限。  模型管理:修改BI模型并且控制模型构建任务。  日志管理:查看审计日志。  告警管理:查看告警日志和通知。 系统预置了一些默认的管理员角色,如表9-1-1所示。 表9-1-1 系统预置角色 角色名称 拥有权限 备注 系统管理员 用户管理/权限管理/设备管理/告警管理 管理员可以配置用户,管理系统设备组件以及查看系统运行时的告警信息 数据管理员 权限管理/数据管理/模型管理 管理员可以导入数据配置权限以及管理BI模型 审计管理员 权限管理/日志管理 管理员可以查看审计日志,监控其他管理员的行为 接下来将通过一个步骤演示如何创建一个角色: 1. 点击“用户管理”页面的“角色”,即可看见当前系统的全部角色,如图9-2-1所示;

《玩转DataFocus数据分析》

图 9-2-1 角色 2. 点击右上角的“添加角色”按钮,即可跳出对应的弹窗,如图9-2-2所示。填写角色名、描述,并勾选需要的角色权限,点击确认即可完成角色创建,如图9-2-3所示;

《玩转DataFocus数据分析》

图 9-2-2 增加角色

《玩转DataFocus数据分析》

图 9-2-3 配置角色 3. 角色添加成功后,可以点击该角色名称右侧的角标,对角色进行编辑或删除操作。

《玩转DataFocus数据分析》

图 9-2-4 编辑或删除角色

9.2.2 权限设置示例

DataFocus系统中有两处可以设置系统权限,一是分配组以及用户,并为用户添加角色,从而控制不同用户对系统的使用程度及权限;二是数据权限,将数据表分配给不同的用户或者对表格的行列筛选后再分配给用户,对用户使用表格的权限进行控制。 1、组与用户 首先是介绍用户和组的权限。组的结构其实就是一个简单的父子树状结构,如图9-2-5所示,第一层级的组是最大的,也是唯一的,可以认作是整个公司;第二层级也就是二级组就是公司旗下的各个部门,可以是销售部门、运营部门、管理层等等;第三层级就可以是部门下面的小组,比如销售1组、销售2组,以此类推。

《玩转DataFocus数据分析》

图 9-2-5 组 若要添加一个组,就可以选中某一个层级,选择添加组,就会添加一个下级组,输入下级组的名称和描述,点击确定就可以添加一个用户组了,如图9-2-6所示。

《玩转DataFocus数据分析》

图 9-2-6 添加组 同样的,若是选中一个组,点击页面右侧的添加用户,就可以在改组内添加一个或多个用户,如图9-2-7所示。

《玩转DataFocus数据分析》

图 9-2-7 用户 用户的添加需要填写一些基本信息,包括用户名和密码,最主要的是还需为用户添加对应的角色,如图9-2-8所示。用户的创立依赖于角色的分配,给予用户一定的角色也就给了他操作系统的权限,无任何角色权限的用户即普通用户,在DataFocus系统中仅有被分配的数据使用权限和看板、问答的查看或编辑权限。

《玩转DataFocus数据分析》

图 9-2-8 用户信息 2、数据权限 接下来介绍的是数据权限。通过数据权限,对各个用户组的可见数据进行控制,比如将公司的财务报表对财务部门的特定人员可见,其余都不可见等等。数据表的权限是依赖于组的,仅对某一组内所有用户的数据权限进行设定。 点击数据管理页面,找到“数据权限”就可以对用户组的数据表权限进行设定,如图9-2-9所示。

《玩转DataFocus数据分析》

图 9-2-9 数据权限 在设置数据权限的过程中,还可以对数据表的行列值进行筛选。如图9-2-10,点开一张数据表,可以选中数值列,即只将该数据表中被选择的列分享给该用户组,未选中的则不可见。

《玩转DataFocus数据分析》

图 9-2-10 行筛选 还有一种是行筛选,如图9-2-11所示,为选中工作表中的某一列数据设置过滤条件,过滤掉不想对其可见的数据,比如过滤掉产品获利评估表格中总销售额中大于20000的数据值。

《玩转DataFocus数据分析》

图 9-2-11 行筛选

9.2.3 增量更新

1、本地数据 若是利用批量合并导入的excel文件中出现新增数据,则可以在工具中点击“刷新目录文件”,即会更新到新增的sheet,记录数。此时整理合并的表显示“待更新”,如图9-2-12所示。

《玩转DataFocus数据分析》

图 9-2-12 更新表数据 点击“同步导入”即会同步更新至DataFocus环境中,此时整理合并的表显示“已更新--更新成功”,如图9-2-13所示。

《玩转DataFocus数据分析》

图 9-2-13 导入状态 2、导入数据源 数据源在新建的第三步就是配置数据源导入的方式为增量更新还是全量更新,如图9-2-14所示。全量更新就是每次数据源导入时都会将企业本地数据库中的全部数据导入,增量更新则是每次只导入企业数据库中有更新变动的部分。 一般推荐使用增量更新,增量更新在第一次导入时也会选择将全部表格导入,后续导入时才会仅导入有更新表动的内容,这样选择能够大幅度减少系统的工作量。

《玩转DataFocus数据分析》

图 9-2-14 数据源更新设置

9.3 信息

9.3.1 查找信息

若在系统中遇到问题,需要帮助,除了咨询管理员之外,在系统也可以找到三种帮助的方式,第一种是产品手册,第二种是系统视频教程,第三种是系统的论坛网站,如图9-3-1所示。

《玩转DataFocus数据分析》

图 9-3-1 帮助 产品手册介绍的是系统产品运用的功能点,编写非常全面,而且在该页面中可以找到升级后不同版本的更新内容。如果需要对系统有一个全面的了解,可以仔细阅读产品手册,对照产品进行使用,如图9-3-2所示。

《玩转DataFocus数据分析》

图 9-3-2 产品手册 第二个按钮是视频教程,如图9-3-3所示。是由DataFocus工作人员录制的一些基础操作的使用视频,通过视频可以教导用户一步步了解功能点的操作方法。

《玩转DataFocus数据分析》

图 9-3-3 视频教程 第三个按钮是官网论坛,如图9-3-4所示。如果遇到一些产品手册和视频都无法解答的问题,可以在这个DataFocus系统的官网论坛处提出自己的疑问,会有工作人员或者其他用户为您进行解答。

《玩转DataFocus数据分析》

图 9-3-4 论坛

9.3.2 评论

用户在搜索页面制作完成一个历史问答,将其进行保存,就可以对这个保存后的历史问答添加评论,发表自己的观点,提供参考意见等等。 点击历史问答右上角的评论按钮(如下图9-3-5所示),会弹出如图9-3-6 所示的对话框,添加您想要发表的言论即可。

《玩转DataFocus数据分析》

图 9-3-5 评论

《玩转DataFocus数据分析》

图 9-3-6 添加评论


第十章 可视化分析案例

10.1公用事业的快速分析

本节我们以一家地方水务公司为例。该公司已在他们的呼叫中心系统中证实了呼叫量的显著性波动。但是传统的呼叫中心软件成本高是企业的一大难题。现在我们可以通过使用DataFocus数据分析工具对电话系统数据库捕获的数据进行可视化。图10.1.1显示了一个示例调用分析数据看板。

《玩转DataFocus数据分析》

图10.1.1 调用分析数据看板 数据看板提供对选定部门的呼叫量、放弃呼叫、最大等待时间和平均呼叫持续时间的时间序列信息。使用者能够在不到10分钟的时间内部署数据看板,这不仅能够提高员工在高峰期的利用率,经理们还能更快地收到用户需求的提醒。最重要的是,数据看板也可以再移动端编辑部署,随时随地查看实时动态。

10.2 聚合一所大型大学不同的数据源

大型学校的数据评估信息系统超过200个,选择合适的数据分析工具可以迅速整理出有效信息并进行数据应用,包括招生、财政、师资和课程评价等。

10.2.1可视化开发

学校在DataFocus中创建一个数据仓库,从多个数据系统中筹集数据。利用中间表、添加公式等方式清洗整理数据后,根据目标主题的不同进行数据分析整合成数据看板。后续自动更新数据进行目标跟踪查看,为决策者提供所需的新信息。需要强调的是DataFocus数据分析工具是一款非技术用户也能方便理解、分析的数据工具,为更广泛的可视化提供存储库分析使用场景。

10.2.2分析结果示例数据看板

使用DataFocus来提供学生成绩的信息和教师评估。图10.2.1包含了学生成绩与课程评估和教师评估的散点图。

《玩转DataFocus数据分析》

图10.2.1 学生成绩与课程评估和教师评估的散点图 教师研究的网站文章也可以通过DataFocus展现出来,如图10.2.2所示

《玩转DataFocus数据分析》

图10.2.2 网站战略重点提供故事和视频 财务指标也在数据看板中进行可视化。图10.2.3是一个关于学术,行政、研究中心的收入和费用分析的例子。 在增加收入和能力、降低成本和增加收入的同时,学院继续致力于促进其学术研究。DataFocus将集合数据、分析数据、数据展示组合为一体,提供改善决策所需的信息,可以快速帮助管理者做出更好的决策。

《玩转DataFocus数据分析》

图10.2.3财务业绩

10.3 速运能力分析

10.3.1 Delivery Research

在这个数字化交易愈发普遍的时代,物流行业对于连接虚拟和实际起到了关键性的作用。物流的快慢和能力决定着商品和客户之间的桥梁是否通畅。比如我们熟知的电商行业,物流甚至能够大幅影响消费者的消费体验,即使产品再完美,极慢的物流会让消费者对此家店铺甚至品牌的印象大打折扣。 从B端实际来说,很多有着O2O业务的企业也会有自己的服务体系,当中必当包含物流环节。比如天猫平台从买家下单一直到买家签收,其中的发货、在途、送达三个环节都与物流有关。因此,物流能力无论对于企业还是消费者都有着非常重要的意义。

10.3.2 How Delivery Uses DataFocus

我们以DataFocus合作客户的真实数据为例进行分析。目的是要分析此家速运公司的物流能力。要衡量一家速运公司的能力高低,快慢固然是核心因素,但是也需要考虑其在市场上的其他竞争力因素,如价格等。加上物流原始数据往往包含很多其他的非“能力”范围的数据维度,因此有条件的话我们可以先对数据进行筛选后,再导入DataFocus进行分析。 我们本次主要分析此速运公司在全国各省会城市的物流能力和竞争力。首先我们导入数据,进入搜索界面,查看最直接的运送单量和签收天数情况,并得到下图。

《玩转DataFocus数据分析》

图表10-3- 1 图中显示了各省会城市的某周期内平均运单量和签收天数。而我们会发现,由于运单量的数据基本在几千的数值,而签收天数只有个位数的数值,显然在一个坐标轴内衡量是不合适的。我们可以将签收天数另起坐标轴进行查看。

《玩转DataFocus数据分析》

图表10-3- 2

《玩转DataFocus数据分析》

图表10-3- 3 尽管我们将数值正确的在图中表示了出来,但是显然,可视化的“直观”的目的并未达成,由于城市太多,我们需要吃力地读取图中的信息。因此,我们可以发挥DataFocus即时切换图形的优势,切换为散点图。

《玩转DataFocus数据分析》

图表10-3- 4 每一个点都代表每一个城市,鼠标移到每一个点上就会出现相应的城市名。对于速运公司来说,当然是签收天数约少,而单量越高越好。那么在这个坐标轴上,右下角即为我们的最佳能力体现区域,沈阳市在此其中是数据表现最佳的,单量为8932单,平均签收天数为1.2天。同理还可组合平均运费和签收天数进行相似分析,并切换其他图形,如组合图,这个可以留给大家自己实操。 而利用简单的公式,我们还可以将现有数据分析维度进行组合,得到我们想要的新维度。比如将运单量和每单平均运费相乘,即可得到一个类似于销售额的维度。我们点开左下角“增加公式”按钮进行公式的添加。

《玩转DataFocus数据分析》

图表10-3- 5 编辑公式名为“销售额”,公式为平均运费*运送单量,点击确定即可。那么在左侧数据下方的公式下面会出现我们预定义的公式。我们可以用来搜索各省市的销售额。除了传统的柱状图,我们更可以用词云图直观的表示数值的大小,字体越大则数值越大。图中沈阳市、合肥市和福州市的销售额为最高。

《玩转DataFocus数据分析》

图表10-3- 6

10.3.3 The Overview for Delivery

我们既然分析的是全国各省会的物流能力情况,我们就需要一个“总览”来更好的告诉受众相应的信息。我们可以利用各省市的地理数据,使用DataFocus的内置地图直观的表达,如下图所示,我们可以点击经纬气泡图,颜色越深则数值越大。

《玩转DataFocus数据分析》

图表10-3- 7 同理,我们还可以切换经纬热力图和经纬统计图,前者可以一眼洞察数值最高的区域,后者可以直观看到各地的数值差异。

《玩转DataFocus数据分析》

图表10-3- 8

《玩转DataFocus数据分析》

图表10-3- 9

10.4 医院的质量指标

本节主要讲述DataFocus是如何被用来监控指标的,从而大大的减少人力和资金成本。

10.4.1奥巴马医改和医疗保险报销

在美国,2010年的《平价医疗法案》(Affordable Care Act,也被称为奥巴马医改),在原有基础上提供高质量的护理和病人体验,即基于价值的购买计划(VBP)。例如,在付薪酬时,不仅仅看员工做了多少,也看员工做了什么,病人的反馈如何。

10.4.2如何使用DataFocus分析VBP

VBP首先推出了两个篮子措施。一个是一系列的护理过程测量,例如患者被诊断患有心力衰竭的患者是否有书面出院说明,或是否对诊断为肺炎的患者进行了适当的抗生素选择。 第二个篮子由患者体验指标组成,比如如何进行病人与护士和医生沟通良好。此外,评分标准的统一性有助于最低得分目标的确定,也能方便医院做好各方面工作。所有这些分数都是混合成一个综合分数。 例如,Southern Maine医院的业绩是用曲线来划分的,最终的收入是增还长是损失取决于“最终线性交换函数(FLEF)”。这个函数成为Southern Maine创建的一个模型的输入,该模型用于分析效果对医院盈利能力的评估。 最初的盈利模式是由许多电子表格一样建立起来的,因此如果想要一个新的数字范围,他必须做一个副本Excel工作簿。没有随时间变化的视图,也没有单位度量的增益或损失的范围,只有一个大的数字。其实将数据生成表格后,可以将所有结果放入DataFocus中,创建一个数据看板,用户可以查看与前一个月相比的变化,并迅速看看哪些措施最具成效性(潜在损失/最小收益)。图10.4.1为生成的示例数据看板。

《玩转DataFocus数据分析》

图10.4.1估计基线增益/损失 DataFocus还用于监控每项指标的性能。如图10.4.2中看到一个示例数据看板,有些变化真的很明显。

《玩转DataFocus数据分析》

图10.4.2 每项指标性能

10.4.3 监控可视化的意义

2012年秋季,医疗保险公布了基于价值的采购的Southern Maine的最终数据盈利,增加1.024%。使用DataFocus监控进度,通过可视化的操作分析,改善医院财务状况,更为重要的是,提高了病人护理和体验。

10.5 大学入学测试场景案例

ACT组织是一个位于爱荷华州爱荷华市的非营利性组织,它提供各种测试和评估服务。你可能听说过这种行为测试——大学入学准备测试。 Tim Kuhns是创新研究的原则以及ACT的分析布道者,负责寻找新的方法分析、理解和沟通内部信息。ACT组织一直在为其提供测试服务超过五十年。

10.5.1 ACT如何使用DataFocus

ACT生成许多测试数据, DataFocus可以用来分析测试成绩的结果。图10.5.1显示了一个示例。

得分分布数据看板包括:通过绘制关于分数分布的数据直方图,查看综合分数分布,基本呈正态分布;散点图提供了学生人数和分数结果;右侧的条形图给读者呈现的是各种参考维度下的得分结果,包括种族、期望值相关。

10.5.2 可持续发展

Tim和他的团队采用了通过制定策略确保持续沟通包括创建内部平台等,确保ACT团队的能力得到持续扩展。有经验的咨询伙伴建立一个内部用户组进行问答,分享团队的最佳想法并为缺乏经验的用户提供例子。

《玩转DataFocus数据分析》

图10.5.1 得分分布数据看板

10.6 使用数据可视化帮助继任规划

继任规划是人力资源分析中的一部分,是指人员更替,岗位安排,是企业人员管理中的重要一环。使用DataFocus数据分析工具可以将员工数据进行可视化,简单直观的洞察到相关信息,及时作出人员调整。

10.6.1促进有效对话和行动的框架

继任规划主要任务是提供驱动劳动力的研究分析以协助人力资源规划。在帮助工资人力资源部专业人员协助运营管理者在做基于事实的决策时 ,不仅仅给管理者经理们的历史观点,而是能够给管理者提供有助于战略规划的科学信息。

10.6.2为继任规划提供渐进式信息

继任规划数据对组织的人才发展战略至关重要。通常,这些信息的结构可以帮助决策者更容易地发现潜在的陷阱,发现未来的方向并制定发现,为平稳的人力过渡做好准备。图10.6.1所示的数据看板是人力资源管理的一部分,用于促进领导和员工之间的对话。

《玩转DataFocus数据分析》

图10.6.1 继任规划数据看板 此数据看板中使用两个继任者的需求维度,分别为员工在组织中的任期和年龄。通过标度的设置,用户可以根据特定的组织需求更改视图。例如,如果公司的预期退休年龄是60岁,任期为15年,可以修改标度线来更清晰的查看员工信息。 当然,仅仅通过任期和年龄两个维度不够充分的理解关键需求。在数据看板中添加能力或其他关键技能,可以更深入地分析和理解特定人才需求,即提供一种识别人才的方法来替代每个职位的潜在人选的空缺。由于机密性,这部分信息在图10.6.1数据看板中删除了。 人力资本是每个企业最宝贵的资产。通过呈现相关维度数据,在视觉上更容易查看到异常值,提供了一种渐进式继任规划可视化。 DataFocus突破数据数亿量大关,用来分析理解海量及繁杂的数据集。存储数据的最终目标是将其转换为可用的信息,做出更科学的决策。