这也是小爱同学的紧张事情范围。小爱同学是小米集团的人工智能交互引擎,搭载在小米手机、音箱、电视、电脑等浩瀚小米设备中,可以充当用户生活中的智能助手。小爱同学的紧张任务包括:设备掌握类、信息查询类、生活做事类、闲聊对话类等。
2022年10月,小爱同学开始探索大模型运用,小米集团小爱总经理王刚创造,大模型可以帮小爱同学大幅提升用户生动度,并提升中长尾问题的回答满意度。目前,小爱同学月活1.3亿,每天的交互次数2亿。
2024年5月9日,在阿里云的AI峰会上,小米集团小爱总经理王刚分享了过去两年小爱同学在大模型上的探索与思考。
以下是王刚分享的紧张内容,经亿邦动力编辑,未经讲者审核。
大家好,我是小米集团小爱同学的王刚,很荣幸在这个场合跟大家先容过去两年小爱同学在大模型上的探索。
小爱同学研发于2016年,到现在已经8年,广泛运用在小米的各个终端设备上。小爱同学是一个软硬件结合的智能助手,背后是大量硬件的声学链路设计、前真个语音处理、系统级的运用设计。
小爱同学的详细任务包括几大类:设备掌握类最多,还有信息查询、内容做事、生活做事、闲聊对话等大概54类,月活1.3亿,每天的交互次数2亿。
我们在2022年10月开始运用大模型技能,到本日为止,已经在汽车、手机、音箱等多种设备上利用。我们创造,大模型技能能显著提升用户满意度,提高用户生动度。
比如,大模型提升了很多中长尾问题的满意度,还有闲聊互动的满意度。原来中长尾提问的满意度在30%-40%,有了大模型之后提升到80%,用户生动度大概提升了10%。
再比如商品助手这个产品,要回答用户关于售前、售后的各种问题,某个商品的参数、配置、价格等问题,如何利用产品,故障之后如何修理等。
在过去的AI技能下,我们须要写大量问答对,才能把问题回答出来。但大模型有通用办理范式,通过RAG技能、检索匹配,可以得到最优答案。这让原来繁芜的问题变得很大略。
小爱同学内有大量NLP任务,以前每一个NLP的任务都须要网络针对性的演习数据,做针对化演习。大模型时期的开拓范式跟以前有一个巨大的差别,大模型具有天下知识,通用能力特殊强,在办理分外NLP任务时,我们只须要用小数据加上大模型,就可以运用到不同NLP任务中,效果还比之前还好。以是我们也看到,在非常多的NLP任务上,大模型改变了原有的办理问题的办法。
小爱同学在吸收到用户语音后,须要先对用户需求做意图理解,意图理可以分成几大类任务:
一个是内容类任务,范例的是点歌需求。通过小爱同学点歌,这个任务对搜索推举有强依赖。我们通过大模型进行用户需求理解,辅导用户想搜什么样的歌曲,然后用相对传统的搜索推举技能去办理任务。
一个是天生式问题,这是大模型特殊善于的,原来的技能也做不到。
最难的是知识问答类任务,这类任务对准确性哀求高,常日只有唯一答案,以是对大模型的通用能力哀求特殊高。这块也是我们看到的大模型最难办理的地方。到目前为止,大模型间隔真正办理用户需求还有明显差距。
这也是我们很关心的问题。每次我们在跟基座大模型同行谈天的时候,都会问:大模型现在有没有到天花板?间隔天花板还有多远?同行会回答,大模型的天花板还很高,我们当下离天花板还很远,我们会用更大SCALE训的练数据,让大模型能力能变得更强。这也是我们特殊期待的。
小爱同学在大模型运用方面,步骤和大家差不多,包括培植业务所须要的评测集;选择业务场景下的适配模型;针对场景做定制优化微调。
举个例子,我们最关注的模型指标是两个:一个效果,一个性能。在效果上,我们划分了9大类42小类的效果指标,对所有的模型去做评价。在性能上,根据不同场景、不同需求,我们遍历所有大模型,探求最优模型。
在小米汽车SU7上,“小爱同学”可以屈服搭客的自然措辞指令,在车载中控屏画出“小猫爬上窗台”等画面,增加亲子互动和乘车乐趣。通过优化算法、蒸馏模型,大模型在确保图片质量的条件下可做到5秒出图,将出图韶光缩短一半。
在小米手机真个“小爱同学”还可以完成一键拍照天生菜谱、户型图剖析、供应P图建议等繁芜的图片理解任务。用户还可以向“小爱同学”发出语音指令,请它创作一幅山水画、梗图或创意设计文案。
总结一下,在随着大模型能力越强,我们对小爱同学后续的能力升级抱有非常大的期待。
我们当下最关注的AI趋势,一个是AI Agent,一个是多模态,还有一个是端侧大模型。
AI Agent是一个非常主要的观点,它能帮助用户完成一些繁芜任务,但当下还没法真正用起来,由于一个任务如果不能以95%以上的准确率完成,这个产品还不太可用。我们希望去加快跟我们大模型厂商的互助,能去把一些AIAgent的准确率大幅提升。
多模态是现在的必备技能。
末了是端侧大模型,端侧大模型可以可以办理用户的隐私的问题,可以在用户数据不上传的情形下,帮助用户搜索文件,解答问题,包括在无网、弱网场景下,直接跟用户交互。
总结一下,对小爱同学来说,我们关注的事情就两条,一条是效果,一条是本钱。当前效果更主要。从效果上看,我们又看中两点:一个是通用能力,一个是场景适配能力。
以是阿里云的百炼平台对我们很有吸引力,可以让我们把业务场景和大模型进行高效适配,阿里云也发布了百炼平台2.0,我们也会作为一个主要的内部平台把它用起来,希望百炼平台能帮我们做事好业务场景。
这是我本日的分享,感激大家。