第6章 智能数据分析
6.1 智能洞察
智能洞察是DataFocus非常具有竞争力的一个功能。其集合了人工智能技术,只要一键,就能从数千万的组合中,发现数据之间的各种规律,此功能大大减轻了用户的工作量。举例来说,零售类企业有数以万计的SKU,数以千计的连锁门店和可分析时间段,数以百计的业务人员和促销渠道。分析师需要穷尽数亿级的组合才有可能找到一些典型的特征或趋势,比如某个单品,在特定时间段或特定门店会有快速增长的销量。
DataFocus的智能洞察模块,可以自动进行数据探索,从数亿的可能组合中,找出数据趋势和特征,并快速生成数据分析报告。
6.1.1 智能洞察分析
DataFocus系统中开展智能洞察有两个入口,一个是在数据表详情页面,一个是在搜索页面。在数据表管理模块选择需要进行智能洞察的数据表,点击进入详情页面,在右上角找到“智能洞察”,如图6-1。

图6-1 智能洞察按钮
根据实际需求勾选智能洞察列并配置洞察参数,完成后点击下一步,即可成功创建智能洞察任务,如图6-2和图6-3;

图6-2 勾选洞察列

图6-3 配置洞察参数
完成智能洞察任务的创建后,可以通过快捷按钮跳转到智能洞察页面,也可以在数据看板模块直接找到智能洞察列表,如图6-4。

图6-4 智能洞察列表
尽管有了搜索式分析的便利,企业在进行浩繁的数据分析探索时,仍然是低效的。因此在搜索页面进行数据探索时,也可以通过点击右侧图表配置区域小慧分析总结,开启洞察。其中见解部分即为小慧调用智能洞察算法进行即时分析呈现的结果,这个分析时临时的,不会自动保存分析结果,如图6-5。

图6-5 小慧分析总结
DataFocus的智能洞察非常适用于分析维度众多的数据,比如包含上万种SKU的零售数据,在分析不同品种对销售业绩的影响时,工作量会非常大,每个种类都需要进行分析,这时候,如果采用智能洞察一键分析,让系统来做这些工作,系统会从各个维度全面的分析所有数据,寻找数据之间的关系以及规律,形成一份报告,从这份分析报告中,如图6-6,我们可以清楚地知道哪些数据之间有线性关系,哪些数据中有异常值。

图6-6 智能洞察报告
6.1.2 洞察分析算法
智能洞察所涉及的分析算法共有5种,分别是离群分析、相关性分析、趋势分析、突变分析和比例分析,以下是相关分析算法的简单介绍:
- 离群分析
离群分析是寻找数据中是否有显著差异的数据点。所谓离群数据(又称离群点),就是指明显偏离其他数据、不满足数据的一般模式或行为、与其他数据存在不一致的数据,例如:某月销量显著高于各月销量均值。
系统使用Z-score法计算离群情况,即每个数据点与数据总体均值相差多少个标准差。当离群超过指定的阈值,即生成离群分析结果,如图6-7。
智能洞察可为离群分析配置离群系数K,用于判断数据是否叛离群体,K越大则被检测为离群值越少,系统默认离群系数K为3。

图6-7 离群分析示例
- 相关性分析
相关性分析就是判断两组数据中是否具有线性相关性。例如:教育水平与人均GDP的相关性。智能洞察可为相关性分析配置相关系数阈值,阈值越高则被判断存在关联的可能性越小,系统默认相关系数的阈值为0.7。
通过计算皮尔逊相关系数,衡量两个联系变量之间的线性相关,1代表完全正相关,-1代表完全负相关,0则代表无相关,当系数超出阈值时,会生成相关性分析结果,如图6-8。

图6-8 相关性分析示例
- 趋势分析
趋势分析就是通过观察和分析历史数据,识别数据在时间维度是否有升序或降序趋势,并据此预测未来的发展方向。使用Mann-Kendall趋势检验算法,当检测出存在趋势且趋势波动显著时,会生成趋势分析结果,如图6-9。

图6-9 趋势分析示例
- 突变分析
突变分析是指数据在时间维度是否有某一时刻数据发送突然变化。使用Pettitt突变检验算法,当执行度大于阈值时,会生成突变分析结果,如图6-10。

图6-10 突变分析示例
- 比例分析
比例分析是判断数据在某维度上是否一致或极端。例如:气温分布是否均匀。当维度去重数量合理(大于5)时,会生成比例分析结果,如图6-11。

图6-11 比例分析示例
除了离群系数K和相关系数阈值,系统还可以配置假设检验的置信度P值,在多个分析方法中,都可能用到这个P值,P值越小则被判断接受结果的可能性越小。默认置信度的阈值为0.05。
还有一点需要注意,每个分析方法最终给出的是一个评分(0,1),会优先返回较高分数的分析结果,低于分数阈值的则抛弃不返回,该阈值为0.6。
6.2 小慧关键词解析
通过第1章的介绍,我们已经知道,Focus Search作为DataFocus的核心功能,可以将用户的关键词输入转换成数据库能识别的结构化查询语言(Structured Query Language,SQL),极大的降低了数据的使用门槛。
然而,精准关键词的输入要求仍是其局限性,为此DataFocus推出了自然语言助手“小慧”。小慧的作用就是识别人类的自然语言或文字输入,然后将其转换为Focus Search支持的关键词语句。
6.2.1 小慧工作原理
小慧是基于大模型技术训练的专用于进行关键词解析的生成式语言模型,她可以根据用户的问题,结合数据表的列信息,生成对应的查询关键词语句,如图6-12。这样就进一步降低了开展数据分析的门槛,用户无需学习关键词的使用方法,也可以直接提问分析。

图6-12 小慧工作原理
6.2.2 对话式数据分析
在DataFocus的搜索模块,小慧位于搜索框的右侧。用户在搜索框中输入文本问题时,回车键或者直接点击小慧图标,即可调用小慧进行智能解析。例如,在搜索模块中选择数据表为《教材_电商销售数据》,然后再搜索框中输入“将不同产品子类别的销售数量按年份进行统计”并回车,小慧将输入的自然语言解析成关键词“按年统计 产品子类别 销售数量”,如图6-13。当然,如果认为小慧解析的结果不是你想要的,也可以通过“恢复”按钮将关键词恢复成输入的自然语言内容,或者直接修改解析的关键词。

图6-13 小慧对用户问题进行解析
在移动端进行文字输入往往费时费力,特别是在需要快速输入大量信息或进行复杂操作时更为不便。此时当用户采用语音查询时,小慧默认会将语音识别内容进行解析,如图6-14。语音交互免去了手动输入的繁琐,让用户能够以更加自然流畅的方式与设备进行交互,从而在处理任务时更加高效、轻松。

图6-14 小慧语音输入
6.3 FocusGPT 智能助手
2022年11月,ChatGPT的横空出世在人工智能生成内容(AIGC)领域引发了广泛的关注与讨论,在此背景下,ChatBI(Chat-based Business Intelligence)概念应运而生,ChatBI作为一种基于前沿AI技术的报表生成与分析系统,运用了自然语言处理技术,使用户能够通过日常对话的方式,轻松获取数据分析结果。这一创新简化了传统数据分析流程,增强了数据分析的交互性和用户体验。ChatBI支持多轮对话、智能追问以及联想分析功能,能够紧密追踪并延续用户的分析逻辑,确保数据分析的连贯性和深度挖掘。
6.3.1 FocusGPT工作原理
FocusGPT,就是DataFocus倾力打造的ChatBI产品,其核心目标在于通过流畅而直观的自然语言交互方式,让用户通过多轮对话开展数据分析,进一步降低使用门槛,在用户没有分析思路时,还可以对用户进行引导。
FocusGPT通过引入大型语言模型(Large Language Model,LLM)的意图识别能力,将用户输入的复杂问题进行识别和分类,如图6-15。当用户问题模糊不清或提出的是寻求建议或策略指导的问题时,FocusGPT会即刻启动其建议生成模块;而面对用户提出的具体数据分析需求,FocusGPT则会调用大模型能力进行问题规划,随后调用至小慧助手对问题进行解析。

图6-15 FocusGPT工作原理
6.3.2 Focus GPT的功能介绍
- 分析引导
当用户提出的是寻找分析思路或者请求提出建议的问题时,系统会智能地识别其需求,并针对性地做出详细的分析引导。系统不仅能够帮助用户明确分析的目标,还能提供一系列具有洞察力的数据分析方向,如图6-16。这些方向旨在引导用户深入挖掘数据背后的隐藏信息,发现潜在的趋势和关联,从而为用户的问题解决和决策制定提供支持。

图6-16 FocusGPT的分析引导
- 多轮对话
FocusGPT与小慧的最大区别就是FocusGPT支持多轮对话。多轮对话,是指在人机交互(如人与机器、人与人通过聊天软件等)过程中,双方进行的一系列连续的、有上下文关联的对话交流。这种对话模式不仅限于一问一答的简单形式,而且允许用户根据系统的首次回应提出进一步的问题或要求,系统也能够基于用户的后续输入,继续提供相关信息或进行更深入的分析和回答,如图6-17。

图6-17 FocusGPT的多轮对话
在多轮对话中,系统需要能够理解并记住之前对话的上下文内容,包括用户的问题、系统的回答以及用户可能对答案的反应或补充提问。如果长时间未进行操作,FocusGPT的多轮对话连接会自动断开,需要点击“手动连接”开启新一轮对话,如图6-18。

图6-18 多轮对话断开
- 语音提问
与小慧类似的,FocusGPT同样支持语音提问功能,极大地减轻了用户手动输入的繁琐负担,使得信息交流更加便捷与直观。这种高效的输入方式不仅为用户节省了宝贵的时间,还使得整个交互过程更加流畅自然,为用户提供了更为卓越和高效的输入体验,如图6-19。

图6-19 FocusGPT的语音提问
6.4 智能数据助手应用案例:电商销售分析
电商销售分析是一个非常基础但复杂且多维度的分析过程,通过对销售数据的深入分析,电商品牌可以发现市场机会和潜在风险,并制定相应的应对策略。
接下来将以《教材_电商销售数据》作为数据源进行电商销售分析,展示FocusGPT的多轮对话和自然语言处理等功能。
在功能模块,选择FocusGPT,并点击“+新建会话”,之后选择数据表《教材_电商销售数据》进行对话分析。如图6-20。

图6-20 FocusGPT新建会话界面
- 销售额与销售量分析
分析该电商企业在不同地域的销售额和销售量变化情况。通过分析这些地域性数据,可以深入了解各个地区的市场需求、消费者偏好以及销售趋势,从而准确把握不同地域的销售表现和市场占有率,为制定针对性的市场策略、优化资源配置和提升整体业务绩效提供有力的数据支持。
在对话框中按照自己的语言习惯进行输入,输入的文字中尽量携带左侧的属性列或度量列的列名,便于系统进行区分,也可在数据表模块提前配置列名或同义词,方便更符合用户语言习惯的文字输入。例如,在对话框中输入“统计不同区域的销售金额和销售数量”,系统自动为用户生成了一张环图,如图6-21。

图6-21 不同区域的销售情况
如果对系统自动生成的图表类型不满意,也可以点击“编辑”按钮对图表自行进行编辑,例如切换图表类型,切换图表主题色、修改分析用到的字段等。如图6-22,环图无法显示完全销售数量和销售金额,因此将图表类型切换成组合图。

图6-22 销售情况切换图表类型
- 地域性分析
继续对话AI,可以基于上图的结果进行询问,输入“其中,销售金额最高的是哪个区域”,寻找历年总销售额最高的地域,然后对该地域进行一些针对性的分析,以了解消费者的购买行为及其与地域之间的关系,如图6-23。

图6-23 销售额最高的地域
继续询问,输入“上个月,该区域中销量最高的产品子类别是”,如图6-24。用户可以有针对性的收集一些用户相关的数据和相关市场信息等加入分析。

图6-24 销售额最高地域的产品类别
- 产品类别分析
产品类别分析是企业制定市场策略、优化产品组合和进行资源配置的重要依据。在对话框中输入“各个产品名称所对应的销售数量情况如何”查询产品名称对应的销售数量之和,接下来,输入“其中,销量最高的产品名称是”找到其中销售量最高的产品名称,方便进行下一步分析,如图6-25。

图6-25 产品类别分析
分析销量最高的产品随时间的波动情况,输入“该产品名称随订单日期的月增长率变化情况如何”,如图6-26。

图6-26 产品类别销售额分析
本章小结
本章简述了DataFocus所具备的强大内存计算能力,将智能洞察作为深入分析数据集的第一步,可以减轻大量的重复性工作,并且快速识别异常值、分辨超常指标和趋势等。经典的啤酒与尿布的案例其本质就是一种数据规律的智能洞察。DataFocus的智能洞察可以在数分钟内从数千万种可能组合中找到数据的隐藏模式,并根据数据分析结果,全自动生成带描述和解释的数据分析报告。
其次,向大家介绍了一个自然语言助手——小慧,以及一个数据分析智能体——FocusGPT。通过更智能的ChatBI形式进一步降低数据分析的难度。
课后习题
1.简述小慧和FocusGPT之间的区别;
2.参考本章节内容,用一份自己的数据完成一次数据的智能洞察,且洞察结果需包含至少三种分析方法,并将结果以截图的方式导出。
3.参考本章节内容,用一份自己的数据完成一次FocusGPT的咨询,将与FocusGPT的对话内容以截图的形式导出。