作为较早思考将AI运用于社交领域的平台,Soul积极推动AI情绪互动能力的研究,目前干系技能已运用于异天下回响、AI苟蛋、群聊派对等AI陪伴、AI赞助的创新场景。这次入选也意味着,继其推出的AI运用/功能得到的用户认可之后,Soul的底层技能能力培植和布局方向也得到了行业和学界的认可。
近年来,情绪打算一贯都是人工智能方向研究生动的领域。在多媒体处理、剖析与打算领域最具影响力的国际顶级会议,同时也是中国打算机学会推举的多媒体领域A类国际学术会议 ——ACM(国际多媒体会议)上专门举办多模态与可靠脾气感打算研讨会(MRAC24),正是源于学术领域对情绪打算在人机交互领域发展、实际运用的关注,因此吸引了浩瀚有名高校、学者、科技企业的目光。
不久前,人工智能领域顶级的国际学术会议之一国际人工智能联合会议(International Joint Conference on Artificial Intelligence,IJCAI)上组织的多模态情绪识别寻衅赛MER24同样也是情绪打算在当下备受关注的一个缩影。由来自清华大学、中国科学院自动化研究所、帝国理工学院、奥卢大学、南洋理工大学等高校的多位专家学者发起的MER24上,设置了SEMI(半监督学习)、NOISE(噪声鲁棒性)、OV(开放式词汇感情识别)三个赛道,共有来自有名高校、科技企业等近百支军队参赛。个中,Soul语音技能团队凭借平台踏实的技能能力积累和创新技能方案,在难度最高、竞争最激烈的SEMI赛道中得到第一名。
《Multimodal Emotion Recognition with Vision-language Prompting and Modality Dropout》一文中核心先容了Soul团队为提高感情识别的准确性和泛化性能,提出的多模态感情识别方法。
首先,Soul提出了基于视觉措辞提示学习的微调模型EmoVCLIP,用于基于视频的感情识别任务。为了提高文本模态情绪识别能力,团队针对文本模态利用 GPT-4 打情绪伪标签,充分利用 GPT-4 的情绪关注能力,提高文本模态在情绪识别的准确率,为后续进一步模态领悟打下根本。
此外,为理解决多模态领悟中的模态依赖性问题,团队采取 Modality Dropout 策略来进行鲁棒信息领悟。末了,Soul利用自我演习策略来利用未标记的信息。实验结果表明,Soul的模型在测试中上达到了90.15%的准确率,在MER2024-SEMI赛道中排名第一。
MER2024-SEMI赛道比赛结果
Soul App CTO陶明表示,“在全体AI赛道上我们有两条主线,一条主线是赞助社交,赞助人和人的双边关系,用AI去加强人的表达,提升关系网络建立的效率和质量;第二条主线,是探索人机互动,我们认为未来所有的社友谊势都会发生变革,要在人机互动这个方向探索AI情绪式陪伴。”
为让AI更好“理解”人,实现有情绪、有温度的人机交互,Soul持续推进干系研究和技能积累事情,这次论文也是平台阶段性研究成果和能力的总结之一。现阶段,Soul已积极将干系技能能力运用于异天下回响、AI苟蛋、狼人魅影等多个社交场景,为用户带来更好的交互体验和陪伴感。
例如,在AI互动场景“异天下回响”,拥有多模态情绪互动能力的自研大模型支持下,个性化的智能体能够根据用户的语音、笔墨等信息实时识别感情,并快速给予相应的情绪反馈。据理解,团队目前还在探索在群聊派对、兴趣群组等社交场景中引入情绪化AI能力,赞助关系网络建立,提升社交体验。
如今,AIGC技能已广泛运用于各行各业,并在提效方面展现出了惊人的效果。但在强调感情代价的社交领域,除了提效,AI情绪互动能力带来的差异化体验,或将成为AI社交方向下一阶段竞争的焦点。对Soul来说,接下来,将连续加大技能投入,持续探索AI情绪互动能力在社交场景的深度领悟运用,致力于构建人机交互新场景的同时,真正实现人与AI的双向情绪智能交互。