Skip to content

小慧智能问数(ChatBI)功能,是基于大模型能力和FocusSearch数据库搜索引擎打造的。它能像ChatGPT和DeepSeek一样与用户对话,但其功能是聚焦在对企业级数据的查询领域。因此,用户在使用时,应尽量清晰,明了的提出和数据相关的问题。

小慧的能力相当于刚入职企业的新手数据分析师,通常来说她对于企业的内部知识,如行业术语,部门员工之间对数据的昵称、俗称,企业员工的语言习惯,工作环境等,是一无所知的。因此,用户在最初使用时,应根据本指南“搜索拓展”和“知识库”章节内容提示,尽可能给她提供相关信息。

“垃圾进,垃圾出”是数据分析领域的至理名言。在人类为主导的数据分析时代就是如此,即使进入超级人工智能时代,也概莫能外。因此,要想让小慧提供真知灼见,首先必须做好数据准备工作,俗话说“磨刀不误砍柴工”。让我们先从数据准备开始吧。

一、数据准备

(一)数据预处理

1.表结构规范

二维表格原则:数据必须整理成标准的二维表格格式,即由行和列组成。每一行代表一条完整记录,每一列代表一个特定的属性或指标。不含合并单元格、多行表头。

无交叉表:确保数据是“堆叠”格式,而非交叉表(或称透视表格式)。

2.表头表值规范

表头(列名)和表值(单元格内容)的规范性是ChatBI理解语义的关键。

简洁清晰的列名

使用简单、明确的业务术语作为列名,如 销售额、用户ID、注册日期。

避免使用空格、特殊符号、或冗长的编码和英文缩写(如 FY2023_SALES_Q1_UPDATED_v2)。

数据类型一致性

日期格式:建议使用标准格式 YYYY-MM-DD或 YYYY/MM/DD,这是最不易被误解的格式,然后在系统中数据类型选择时间戳。

数值格式:不要混入单位符号(如“100元”、“200kW”),应将单位标注在列名中(列名:销售额(元),值:100)。

处理空值与异常值

对于缺失值,建议使用统一的标识,如空单元格、NULL或 N/A,避免使用“-”、“0”等容易造成误解的值。

检查并修正明显的异常值(如年龄为1000、销售额为负值),这些值会严重干扰分析结果。

3.按主题创建数据集

系统支持用户将多张相关的数据表整合到一个“数据集”中,以服务于一个完整的分析主题,通过建立表间关联,形成一个多维度的数据模型。一个“数据集”是一个逻辑整体,它由多张数据表通过关联关系组成,共同描述一个业务主题。例如进销存数据集:

销售订单表:包含 订单ID, 销售日期, 产品ID, 客户ID, 销售数量, 销售额等。

采购入库表:包含 采购单ID, 入库日期, 产品ID, 供应商ID, 采购数量, 采购金额等。

库存流水表:包含 流水ID, 日期, 产品ID, 仓库ID, 入库数量, 出库数量, 当前库存等。

产品信息表:包含 产品ID, 产品名称, 产品类别, 规格等。

当用户想分析进销存情况时,直接选择“进销存数据集”,智能体会立刻理解用户关心的核心指标。一个专注于特定主题的数据集,列名和含义更加集中和纯粹,极大降低了智能体错误解读字段意图的可能性。

(二)搜索拓展

为提升搜索与对话的灵活性和智能性,系统支持通过“同义词”和“自定义关键词”对数据进行语义层拓展。

1.同义词

业务人员在日常分析中常使用内部术语或口语化表达,这些表述可能与企业数据系统中的标准名、列中值不一致。通过同义词配置功能,管理员可以将业务"黑话"与标准术语进行映射,使系统能够准确理解用户的真实查询意图。

同义词配置包含两种类型:列名同义词,为数据表的列名(字段名)设置别名;列中值同义词,为特定列中的具体数据值设置别名。

列名同义词

列名同义词,在数据表详情页的列信息模块,在同义词列为对应的列配置列名同义词,为该列名设置一个或多个同义词,多个同义词用逗号分隔。例如为产品类型列配置同义词“大类”。

列名同义词

此时可用同义词代替列名进行搜索,例如搜索“大类的订单金额占比 ”,此时可以看到大类映射的是产品类型。

同义词搜索

同义词示例

拥有系统管理权限的用户可以在系统管理的搜索配置中看到全局的自定义的列中值同义词,同时可以在搜索配置页面进行编辑和删除的操作,方便统一管理。

列中值同义词

列中值同义词,在数据表详情页的搜索拓展模块,通过点击“新增列中值的同义词”,在弹出的对话框中配置同义词。

1.选择目标属性列:从下拉菜单中选择需要配置同义词的数据列

2.选择列中值:选择该列中需要设置同义词的具体字段值

3.设置同义词:为该字段值设置一个或多个同义词,多个同义词用逗号分隔

列中值同义词

列中值同义词示例

2.自定义关键词

自定义关键词,允许用户通过指定的公式函数构建复杂的筛选条件,并将其封装为一个简单的业务术语,极大简化查询过程。在数据表的详情页,点击“新增关键词”按钮,新增一个高活跃用户的关键词,筛选条件是登陆次数>5。

保存后,在搜索或对话中直接使用“活跃用户的数量”,系统会自动应用用户所定义的复杂条件进行查询。

自定义关键词

注意:关键词的内容必须严格以系统中公式的格式进行配置,不能是自由文本或自然语言描述,以确保定义的准确性和可执行性。

拥有系统管理权限的用户可以在系统管理的搜索配置中看到全局的自定义关键词,同时可以在搜索配置页面进行编辑和删除的操作,方便统一管理。

3.自定义位置

系统管理模块的搜索配置模块拥有自定义位置的功能,可以通过新增自定义经纬度定义地点,也可以通过选择国家导入系统位置。

自定义位置

4.自定义日期

系统管理模块的搜索配置模块还拥有自定义日期的功能,针对一些具有循环性的电商平台活动,可以为其自定义起始日期、结束日期、是否循环及循环的时间范围、配置阴历阳历等。

自定义日期

(三)知识库

知识库分为系统知识库和个人知识库,管理员可在系统管理的知识库模块进行管理。

1.系统知识库

系统知识库分类存放,需要先点击新增知识库,然后才能向某个系统知识库新增知识。

新增系统知识库

新增知识的格式内容包括:知识内容,关键词以及知识分类。例如新增一条关键词为“总经理设定的年度销售目标”,知识内容为“总经理在年度动员会上提到2025年年度销售目标是1000亿元。”的知识

新增知识

除此之外,系统还支持通过excel的方式批量上传知识,注意需要按照系统提供的文档格式整理后批量上传,才能正确识别。

批量导入知识

同时,系统支持用户上传涵盖企业知识的文档,上传的文档将会自动被转换为1个或多个知识。

*允许上传的文件类型:.pdf , .docx , .txt , .md , 最大不得超过10M

*如果文档内字数超过10万字,则将自动截取前10万字

上传文档

2.个人知识库

个人知识库与企业知识库在用途上分区,个人知识库作用于当前用户,知识点格式与系统知识一致,并且也支持批量导入。

用户个人知识

3.小慧标记知识

小慧标记知识指的是,对小慧解析进行点赞。当智能体对问题的理解出现偏差时,用户可以直接帮助它纠正。修正完成后,点击"点赞"图标进行确认。这次修正和点赞会被系统记录,当后续遇到相似度较高的问题时,小慧会参考这次修正后的理解来进行关键词转化。

具体示例参考反馈调优中的小慧点赞。

二、对话分析

(一)选择数据

1.数据表加载机制

在新建对话时,小慧会根据当前用户输入内容的词向量,从当前的数据表中加载一批相关性高的数据表到会话当中。匹配过程:先在用户收藏和推荐数据表中进行匹配,若匹配为空再在用户有权限的其他数据表进行匹配。

这个过程时加载表的冷启动。用户可以通过修改表的名称和描述,以及收藏数据表和推荐数据表来提升小慧加载表的准确率。

冷启动之后,只有小慧主动加载额外的表时,会话中才会加载新的表。一个会话中激活在线的表有数量限制,默认配置是5。当加载的表超出限制时,小慧会剔除使用率比较低的数据表。

2.收藏数据表

为了提高智能体匹配数据表的准确性,系统支持用户对数据表收藏。智能体在匹配数据表过程中,将优先匹配用户收藏数据表。

收藏数据表

3.推荐数据表

推荐数据表支持按角色标记推荐数据表,该功能也是为了提升智能体匹配数据表的准确率。智能体在匹配数据表过程中,将优先匹配用户收藏数据表和用户所属角色的推荐数据表。

管理员可在系统管理的权限管理模块对不同角色配置推荐数据表。

配置推荐数据表

4.手动选择数据表/数据集

提问“统计一下不同来源渠道的付费金额情况”,经过搜索并没有匹配到数据表。面对这种情况小慧支持直接指定表 。

在对话框输入“@” 即可选择数据表或数据集,选择我们需要的数据表”用户行为分析”,然后小慧将根据指定表完成分析需求。

@数据表

另外还可以点击对话列表的“选择”按钮,将在弹窗中展示用户有权限的所有数据表和数据集,用户可按分析需求指定数据表或数据集。

和@区别是,这种选择按钮指定数据表的方式,还支持将不相关的数据表取消选择,或者是锁定当前选择的数据表手动排除无关数据表的干扰。

选择和锁定

(二)开始对话

1.问分析思路

当用户不知道如何分析数据时,可以使用以下问法,智能体会根据当前数据表提供一些分析方向和思路框架:

"这份数据有哪些分析维度?"

" 建议如何进行分析"

“给我一些分析思路”

2.问维度

展开属性列列中值

“列出所有的产品名称”

“列出所有的城市”

过滤+展开属性列列中值

“磕壳坚果类有哪些产品”

“今年的产品”

“今年销售额大于2000的产品有哪些”

                  问维度

3.问指标

属性列计数

支持计算属性列的数量和去重后的数量

“华东地区顾客数量是多少”

“华东地区去重后的顾客数量是多少”

统计度量列

支持计算总和、最大值、最小值、平均值、方差、标准差

“各省份的平均销售额”​

“各区域的利润最大值是多少”

过滤+统计度量列

“去年第一季度销售金额的总和”

“今年2月每个省的销售额方差是多少”

 

问指标

按属性列统计度量的占比

“今年1月各省份销售金额总和的占比”

“不同渠道客户数量占比”​​

4.问排名

“利润最差的5个产品”

“各区域内销售额排名前三的产品”

 

问排名

5.问增长

“本年度利润相比去年同期的增长幅度”

“今年1季度每月的销售额的环比增长情况如何”

 

问增长

6.追问补全

切换时间

“去年上海市的销售额平均值”

“今年的呢”

 

切换时间

切换维度

“上海销售额最高的产品是什么”

“重庆的呢”

 

切换维度

切换/增加指标

“今年每月的销售金额情况”

“那再加上销售目标呢”

 

增加指标

子查询追问

锁定第一次查询得到的特定对象(列中值),然后查询这些对象在其他指标上的表现​​

“今年1季度销售额均值最高的三个产品”

“那他们销售数量有多少”

 

7.子查询追问

 

追问示例

8.联网搜索

​​联网搜索分为默认模式和手动模式。

​​默认模式:智能体会自动判断问题是否需要联网搜索。

​​手动模式:用户可主动开启"联网搜索"按钮,强制进行联网查询。

联网搜索获得的信息,会在返回结果的左下角标注[来自网络]。

 

联网搜索

注意事项:

手动开启联网搜索仅对当前问题有效

回答完成后自动恢复智能判断模式

9.知识助手

每次用户输入时,小慧都会动态加载10条与当前查询任务相关的知识点,来辅助输出更符合用户预期的输出结果。如可以在知识点中添加“上通五是指上汽通用五菱”,当用户提问“上通五”相关的问题时,小慧会获取到该知识点并理解用户指的是“上汽通用五菱”。

注意知识库的知识用于第一阶段大模型将用户提问解析为自然语言。

(三)图表操作

1.指定图表类型

今年月度的销售趋势,用折线图展示

 

指定折线图

2.修改图表类型

直接图形切换按钮,即可修改智能体返回的图表类型。

 

图形切换

3.图表属性修改

编辑后,可修改图轴和图标属性。

 

编辑按钮

 

图表属性

(四)结果保存/导出

1.导出数据

需要点击智能体返回结果的编辑按钮,进入编辑状态,才可以导出数据。

 

导出数据

2.导出图片

需要点击智能体返回结果的编辑按钮,进入编辑状态,才可以导出图片。

 

导出图片

3.保存为中间表

需要点击智能体返回结果的编辑按钮,进入编辑状态,才可以点击保存为中间表。

 

保存为中间表

4.保存为历史问答

除了进入编辑页面,保存为历史问答,还可以点击“保存为历史问答”按钮,即可将智能体返回的结果固化存为历史问答。

 

保存为历史问答

5.添加到数据看板

点击“添加到数据看板”按钮,即可将当前返回结果固化到数据看板中,可以添加到已存在看板,也可以添加到新增看板中。

 

添加到数据看板

 

添加到数据看板弹窗

三、进阶分析

(一)归因分析

1.归因算法

系统提供两种归因分析算法:

贡献度归因:快速计算各维度对整体指标的贡献程度。该方法通过对比基准期和目标期,计算各维度变化对总体变化的贡献比例,计算速度快,适合快速分析。

夏普利值归因:基于合作博弈论,更公平地分配各因素的贡献值。该方法考虑了所有可能的因素组合方式,通过计算每个因素在不同组合下的边际贡献,最终得出公平的贡献度分配结果,适合需要精确归因的场景。

2.触发语句示例

① 为什么11月的销售额这么高?

② 为什么4月销售额下降了

③ 分析一下华东地区的销量高的原因。

 

(二)智能洞察

1.洞察算法

系统内置5种智能分析算法,可自动对数据进行分析并发现有价值的信息。

① 离群分析:使用Z-score算法识别异常数据点

② 相关性分析:使用皮尔逊系数检测指标间关联性

③ 趋势分析:使用Mann-Kendall算法识别数据变化趋势

④ 突变分析:使用Pettitt算法检测数据突变点

⑤ 比例分析:分析数据分布均衡程度

2.触发语句示例

用户可通过以下方式触发智能洞察:

① "帮我分析一下这份数据"

② "这份数据应该怎么分析?"

③ "洞察一下销售数据"

④ "看看数据有什么异常"

⑤ "分析数据特征"

系统会自动选择最适合的算法进行分析,用户无需指定具体分析方法。

 

(三)分析报告

1.开启生成报告

分析报告的自动生成,点击“生成报告”按钮,然后在对话中让智能体生成XXX数据分析报告,大概耗时3-30分钟。

 

开启生成报告

生成成功后,可在左下角的“我的分析报告”查看。

 

分析报告查看

点击列表对应分析报告的“查看分析报告”按钮,即跳转该分析报告的对话历史进行查看。

 

跳转分析报告

2.编辑报告

查看报告时,每个问答组件都支持点击“编辑”按钮进行修改。

 

编辑报告

对于文本组件,双击即可修改。

3.报告管理

用户可在“我的分析报告”对历史的分析报告进行查看和管理,支持重新生成报告,或者删除报告。

 

管理分析报告表

4.下载报告及保存为数据看板

查看报告时,可滑动到报告底部,点击“下载报告”存为PDF,以及“保存为看板”将当前报告新增为一个看板。

 

下载报告

四、智能提升

(一)结果验证

为了确保查询结果的准确性和可靠性,系统提供了完整的验证机制,让用户可以追溯和理解智能体的整个思考过程。

1.小慧解析

智能体的返回结果中,每个问答结果的右侧,都有一个"编辑"按钮。点击后可以进入该次问答的搜索页面。在这个页面中,搜索框下方显示大模型解析后的规范化自然语言和小慧最终解析后的关键词语句,即小慧将”A”解析成“B”,其中A就是大模型解析后的规范化自然语言,B是小慧最终解析后的关键词语句搜索框中显示最终使用的关键词结果。

 

解析过程

了解智能体是如何分步理解原始问题的,并在解析出错后,能发现是在哪一步出现了错误。

2.查询sql语句

在同一个编辑页面的右侧,有一个"查询SQL语句"按钮。点击后可以查看当前搜索对应的完整SQL查询语句。

 

查询sql

(二)反馈调优

1.小慧点赞

为了让智能体更准确地理解用户的查询意图,我们提供了小慧解析的反馈修正功能。当智能体对问题的理解出现偏差时,用户可以直接帮助它纠正。这个功能主要作用在小慧将自然语言问题解析成关键词的过程中,不是直接作用在大模型对自然语言的解析上。

当智能体返回结果不符合预期时,点击返回问答的编辑按钮,搜索框下方会显示小慧将大模型理解后的自然语言问题转化关键词这一过程,而搜索框里则是最终的关键词结果。用户可以修改搜索框内的关键词,修正这一解析结果。搜索框下方的解析过程也会同步修改,同时搜索返回结果会根据修改后关键词变化。

修正完成后,点击"点赞"图标进行确认。这次修正和点赞会被系统记录,当后续遇到相似度较高的问题时,智能体会参考这次修正后的理解来进行关键词转化。

 

小慧点赞

管理员可以调整搜索相似度的阈值,即配置搜索语句中相似度句式的模糊度( 默认是50%)来控制小慧点赞的应用效果。较高阈值:只有当新问题与修正过的问题非常相似时,才会调用修正记录。较低阈值:即使新问题与修正过的问题只有部分相似,也会尝试调用修正记录。管理员可以根据团队的使用情况,找到最适合的阈值设置。

 

搜索相似度

2.知识沉淀

在对话中,让智能体记住知识用以复用。这个功能让用户可以在自然对话过程中逐步完善智能体的知识体系,不需要专门到知识库界面手动新增词条。

当用户在对话中第一次提到某个专业术语或业务概念时,智能体会主动询问定义。用户可以直接在对话框中用"记住:"开头的句式来教智能体新知识。

例如,第一次问金牌产品的销售情况,如果没有该知识,智能体会向用户确认金牌产品的定义,用户在给出定义后,可以让智能体记住该定义“记住:金牌产品是指年销量排名前10的产品”。

 

记住知识点

之后,该用户可以直接使用这个被定义过的概念。例如再次提问:"金牌产品在各个区域的销售分布如何?",智能体就会调取金牌产品的定义,统计这些产品在各区域的销售分布情况。

 

知识点应用

需要注意,这种方式添加的知识点只会保存在用户的个人知识库中,该功能让用户可以在自然对话过程中逐步完善个人专用的知识体系,不需要专门到知识库界面手动新增词条。每个用户都可以建立自己常用的业务概念库,智能体会根据不同的用户调用对应的个人知识库。

 

记住知识存入个人知识库