传统B端/数据产品经理如何将AI融入到产品中,如何用AI为产品赋能,帮助业务提效降本,本文从传统BI剖析平台如何转化为对话式的智能BI剖析平台的产品设计全流程来讲。
首先,我认为AI产品经理要做的事情紧张便是清楚产品在什么场景下,什么环节中,能用什么样的模型/算法来帮助产品降本提效。
一、BI剖析平台1. 做BI剖析平台的初衷
想通过私有化支配的一个数据剖析平台,通过拖拽的办法来创建剖析图表,通过不断的通过筛选,选择维度,指标来创建不同的剖析报表,供应数据剖析,数据看板,数据管理等,目的是办理数据孤岛问题,沉淀数据资产,供应数据看板及剖析能力。
2. 做BI剖析平台时碰着的问题
紧张还是在于非专业的数据剖析职员,各个门店/业务部老板,须要关注数据的一线发卖职员/组长·BI剖析平台虽然能供应拖沓拽的数据剖析看板,但是他们没有数据意识,不知道如何组装数据,面对大量数据无从下手;
由于B端系统,特殊是数据平台操作是须要一定的学习本钱的,但是对话是符合人类直觉,基本是零本钱的,以是我们就想基于AI的能力,通过引入多轮对话,智能查询的办法来对图表进行智能推举,对话式剖析查询,实现所要即所得,降落产品利用门槛。
二、需求实现设想
如果一个用户想通过自然措辞来查询“去年各业务部的均匀发卖额”那么就该当是通过分词的办法,将“去年”“各”“业务部”“均匀”“发卖额”通过分词的办法来进行sql组装来查询,然后后给用户推送可视化的图表。
那么这个需求实现的步骤该当是:
分词:分词紧张是通过将用户输入的内容进行词语的拆分,一样平常是用Python的jieba的分词库。分词匹配的词向量中须要把稳附近词但意义不同的词(例:发卖总额;发卖总量;笔单价;客单价;人效;人均时效等);比如我想查发卖额,但是有没有可能会匹配成发卖量,一样平常可以根据余弦相似度进行匹配以及用户错别字的纠错(一样平常分为:弱纠错;中纠错;强纠错)匹配词条:把用户的内容放到词条库里面去进行匹配,然后根据知识图谱网络关系来匹配,根据语料,依存句法,进行词表映射,去识别实体,理解语意。一样平常我们会在语料库里面有大量的词可以匹配,但是由于不同的业务可能会产生不同的词条,这种是在词库里面没有的,那一样平常有两种方法,一种是内置词条,这种事须要花费一些韶光把高频关键词内置到词条库里面,还有一种便是根据余弦相似度或者皮尔逊相似度这种算法来进行近似词的演习和匹配。规则:比如排序,加权,分类,数据权限掌握,结合业务情景等,例如最近刚过双十一,用户:我要查双十一的销量情形,你就可以紧张推送今年双十一和去年双十一比拟。组装sql进行可视化推送,可视化推送的时候要把稳不同指标类型,不同量级,不同剖析情形要采取的默认推举样式(比如饼图设计原则是顺时针从大到小;柱状图把稳节点标注等,设计原则就不在这里说了)。三、系统流程基于需求的设想,整体业务流程可以分为:
用户层:用户层的功能可以包括查询窗口;可视化展示界面(一样平常只对用户开放),运营管理(针对数据运营职员展示,一样平常是数据管理职员)NLP做事:紧张是将元数据抽取到neo4j图数据库中,来形成知识图谱算法层:紧张是卖力处理自然措辞的解析过程,类似nl 2 sql的过程BI后端:卖力解析算法,并组装成sql schema实行查询,并在前端展示view用户端在输入要查询的自然措辞之后,NLP根据预先构建的词库进行分词,分词处理的时候会过滤出关键词,剩余的词会与被比拟词库进行相似度的打算,并且根据元数据同义词库,对相应的词进行更换,相似度较高的词语会到图数据库中进行搜索,图数据库的搜索结果返回给NLP,NLP按照sql引擎的查询,须要的sql schema进行数据组装。
四、功能架构图数据做事:卖力构建图数据库,供应实体查询,供应根据维度度量文本搜索,返回现在已经构建的模型及其干系信息NLP做事:卖力对用户输入的文本进行理解,对维度,度量,维度值,过滤条件等类别的文本进行分类,结合图数据库存储关系数据构建sql查询用的schema,实现nl 2 sql的功能运营模块:卖力管理和监控图数据库的构建过程,对用户历史输入数据进行管理,管理用户自定义关键词和元数据同义词,管理映射关系数据
五、原型演示1. 移动端移动真个能力(部分):
支持移动真个快速查询数据,方便用户通过移动端快速查询和输出干系数据及报表支持自然措辞查询,减少利用数据的本钱支持多轮对话,智能推举,通过知识图谱的办法来进行数据连锁建议支持数据图表解析,帮助用户解读数据支持用户反馈,用户反馈能帮助模型持续演习,也能网络用户需求移动端来说会更加的大略,移动端紧张的浸染是面向用户能快速的查询数据的能力。
2. pc端
2.1 pc端对话剖析
PC真个能力(部分):
支持pc端用户通过自然措辞查询支持pc端用户快速配置想要的数据模型支持pc端多维度的数据组合产出支持数据推举,通过知识图谱关联推举支持AI数据解析,收藏等操作2.2 知识抽取
知识抽取紧张是对链接的Mysql数据库表进行抽取,应支持对应数据,对应的表,选择之后同步,天生图数据库,包含字段,数据库表,数据成员,表与表之间的关系,做映射,然后通过知识映射关系的配置,来支持数据同步到线上模型。
2.3 知识设置
知识设置支持的能力(部分):
通过设置数据字段和数据成员的同义词,添加到知识图谱中,提高关键词模型的泛化程度支持设置数据模型韶光的默认字段,让用户在查询数据的时候返回相对合理的韶光范围(比如:发卖金额应看不同业务场景,是默认近7天,还是1个月,还是3个月,还是近一年)支持设置韶光的默认粒度,让用户查询数据的时候返回合理的韶光粒度设置度量字段的聚合办法,是求和,还是计数,还是求均匀值,还是找最大最小值,还是分组聚合等支持度量字段的数据格式,比如是int,还是浮点型,还是日期型等2.4 知识测试
知识测试支持的能力(部分):
支持运营真个自然措辞查询结果,让运营端可以自主测试目前模型跑出来的情形是怎么样的,相称于一个测试服,并且可以随时调度参数支持运营端配置推举语料,也可以由机器自动进行配置或者推举,可以用协同过滤的办法进行千人千面推举(看实现本钱和收益)支持运营端对不准确的语料进行人工手动掩护处理用户反馈六、技能实现NLP做事与词库识别技能构造:
1. 词库与数据同步逻辑
词库模块的紧张实现办法是通过接管后端对源数据同步的要求,调用知识图谱的接口,获取用户对数据同步的所有源数据,来比拟之前的源数据信息,对数据进行增删,对新的数据源在进行词嵌入,再构建milvus索引,以便搜索做事做词向量相似度的搜索。
2. 数据存储构造
一个表可能涌如今多个数据源中,一个维度可能涌如今多个表中,一个维度值也可能涌如今多个维度中。
Node Labels:tenant、数据源datasource、表/模型table、字段/成员值column
Property Keys:
name(en):记录实体名称
comment(cn)):实体的中文名称
data_type:实体类型,分为dalasource数据源,table表、dimension维度、ENTITY实体,measure座量、datetime韶光、d_value维度值
value;维度值的映射值
inks:节点之间的关系,分为relale 租户和数据源的关系、tablelnDalaSourca表和数据源的关系、columninTabie字段和表的关系、entyinTable实体和引用表的关系(元数据)、valuelnDimension维度值和维度的关系、re1表和表之间的关系
3. 词匹配基于milvus相似度检索和同义词更换后的词语,通过设定的不同阈值采纳精确匹配和模糊匹配的策略,重新天生真正要查询的词语,排列组合并根据综合打分进行排序形成所需6组语料,每组语料通过最短路径查询,把实体关联到干系的表,再关联所属的数据源,从而搜索出多条路径,末了返给np端所须要的结果形式。
七、产品能力1. 机器多轮对话的部分场景和能力
2. 智能BI的部分版本能力构思以上便是我在做BI数据平台时,通过思考产品代价,探究如何结合AI自然措辞对话,意图理解,机器学习,知识图谱等能力的整体产品设计参考。
本文由 @生产队的产品人 原创发布于大家都是产品经理。未经容许,禁止转载
题图来自Unsplash,基于CC0协议
该文不雅观点仅代表作者本人,大家都是产品经理平台仅供应信息存储空间做事。