阿里妹导读:文娱内容很难有完全的量化指标体系,内容的繁芜性决定了文娱产品的不愿定性。我们如何利用AI+大数据能力,建造文娱的内容认知大脑?串联内容全生命周期,实现对内容、流量、宣推等的“未卜先知”,提升对爆款的预测和生产能力?这本《5G+AI 阿里文娱技能实践》会见告你。
全新电子书《5G+AI 阿里文娱技能实践》正式上线!
通过窄宽高清改造、大麦物联网技能、6DoF视频技能等5大板块,带你全面理解阿里文娱独具魅力的思考。
如何下载
https://developer.aliyun.com/article/726887?spm=a1z389.11499242.0.0.65452413maANgc&utm_content=g_1000087249
一、文娱家当趋势及技能寻衅
文娱内容不像商品有完全的量化指标体系,它是一个繁芜的实体,它跟意识形态以及用户体验强干系,对内容进行量化评估和衡量是非常困难的。
比如,选角儿。我们不能通过单一指标去衡量一个演员,我们须要综合考量演员的演技、气质、颜值、潜力等与否与某一个角色匹配,并且能天生数据指标,以实现纵横向的比拟。其余,导演、主演组盘是否为最优组合,能否成为爆款?这是更加繁芜的选择模式问题。本日面临的技能寻衅是如何进行知识的抽取、挖掘以及推理,确定什么样的组合是最优解。
除上述两个问题,影片的拍摄过程更是一个弘大的系统工程和艺术创作过程。以《长安十二时辰》为例,该片非群演有约1000人,群演有300到1500人,历时7个月拍摄217天。我们参考软件工程行业,软件工程发展了70年,紧张研究三个层面:方法论、过程以及工具,然后是如何将三者组合。软件行业的敏捷开拓对付软件工程的质量和效率都有非常大的提升,如何将这些理论运用到内容制作家当,让内容制作敏捷起来?
内容敏捷即知晓过程对结果造成的影响是什么,并快速地调度内容创作过程,让它更敏捷。但内容行业面临的独占特点“延迟知足”,让用户在内容的某一分钟特殊嗨,可能来自于前面的30分钟铺垫在那一分钟爆发了,针对内容的这个特点,我们除了要做基本的知识图谱语义的理解之外,还要考虑如何去做有效的对应剖析,如何去做对应的知识抽取等问题。
本日这个问题加剧了,比过去还要繁芜。在过去的5到10年里,UPGC加上全体内容的生产量极大的发展,用户的消费分层化、多样化。全民爆款越来越少,用户对内容的需求更加个性化。相应于内容生产端,就须要考虑不同用户群的个性化需求。
二、文娱大脑基本框架:内容认知新动力
针对上面几大困难,我们本日在做文娱大脑——优酷北斗星智库来办理。我们将所有的内容形式和用户消费的数据都采集下来,将人工智能的技能手段、业务领域的细分理论做整合领悟,构建内容认知框架。
内容认知框架分为两部分,内容和用户。其思路便是生理学发展的基本的思路。
1)内容侧:对内容进行理解,包括外延和内涵。外延便是内容的各种基本属性,比如主创阵容、题材类型等;内涵紧张研究内容的戏剧理论和视据说话,环绕制作内容的支撑要素,我们用传统的机器学习办法对内容进行理解,再基于戏剧理论和视据说话布局内容的衡量要素。
2)用户侧:剖析用户的不雅观看行为。用户行为来自于用户的生理偏好、生理感情。用户生理偏好、生理感情来自于生理布局,基于生理学的五大人格理论和用户的不雅观看行为,构建模型建立左边和右边的连接,从而知道创造什么样的内容,用户会有什么样的感想熏染。
三、贯穿全生命周期的文娱大脑生产力
基于内容认知框架,我们在内容生命周期的每个阶段都做了详细事情:开播前供应内容评估、艺人挖掘和内容感情挖掘等能力;在早期为内容评估供应有效的数据支撑;在制作阶段供应现场办理方案,比之前更敏捷的反馈机制;同样在播出后也供应数据支持,实现更好的宣发。
1、IP/剧本剖析
上图是《长安十二时辰》的剖析示例,我们把已有的剧本作为样本,让机器去学习,识别出剧本的所有角色,把角色直接交互的对白、行为识别出来,再进行社团的划分。《长安》剧本终极划分出来几个群体:反恐防暴小分队以张小敬为中央,唐朝核心管理团队以皇上为中央。通过这种办法快速定位全体剧本的人物和人物关系的展开。
2、用户感情识别与成片感情挖掘
环绕角色关系,将全体剧本的角色感情也识别出来,布局成如上的曲线。基于对海量剧本的剖析曲线,抽取出各个指标(出镜率、戏份、感情值等)并形成benchmark,对付之后的每一个剧本进行衡量,相称于对剧本进行一个“体检”。
同样是“体检”的方法,对付《药神》和《长安十二时辰》,我们做了用户感情的识别、体检的扫描,参考零线的位置。我们创造《药神》险些都是正向和负向级的,直到末了涌现一个正向区间,基本上后期都因此眼泪为主。而《长安十二时辰》的感情状态比较稳定。对照感情高低点的详细情节,我们创造,曲线表达的感情和详细的故事情节是非常符合的。
3、感情强度预测与网络收视率
然后我们拿更多的办法去验证它的合理性,上图抽取《长安十二时辰》的剧集,每集有两条曲线,蓝线是刚才预测的感情曲线,黄线是播放指数(表示每一秒钟有多少用户在看),通过两条曲线比拟,我们可以创造,两条曲线的干系性比较高的将近60%,感情的高峰、低谷和用户的不雅观看行为状态是吻合的,由此我们就供应了一种能力,基于这种能力对剧本或影片做感情扫描,实现对影片热度的未播先知,再比拟benchmark,帮助制作者更高效的完成制作。
4、用户情绪曲线在技能上是如何实现的?
首先,我们把用户不雅观影感情的表述,映射到认知打算中常用的二维空间表示,也便是Valence 和Arousal。Valence表示感情正负极性,Arousal表示情绪激烈程度;
其次,基于感情极性跟强度供应一个预测,这个是我们今年产出的论文。近两年,生理学研究的核心不雅观点是为什么用户会感同身受?这来自于前两年的一个理论——静向神经元,以是我们选择场景、表情、动作以及声音作为基本的模型的输入,对模型参数进行学习。
如上所讲,内容家当有强延迟知足的问题,我们通过两层剖析来办理是非期知足的问题,除用户感情剖析,我们也做内容角色的感情识别。通过图片表情识别模型,识别不同题材类型的影片,可以得到不同角色刻画的人物性情。如2004年的《反贪风暴》,时隔十多年,主创人物形象的脸谱还是正向的。上图显示的负面角色感情以愉快、害怕为主,正面形象以悲哀、生气为主,与负面反派的愉快恰好相对,正面的人一贯很沮丧,是一个有些压抑角色形象。
同样,我们剖析角色的每秒感情,形成角色的正负感情曲线,部分影片的剖析结果曲线如上图,不同题材类型的节目会有不同的感情密度。以是,你想放松的时候,要看的不一定是笑剧,笑剧实在不一定会放松,由于角色的正负向感情一直交替,由于延迟知足,大脑负荷非常大,须要做是非影象,反而很多爱情片对大脑的占用相对低。
角色感情检测是一个分类问题,以是利用人脸landmark对初始图像做识别,天生densemap作为附加通道,和原始图片RGB三通道拼接合并后作为模型输入,这样可以使densemap对应的关键区域权重更大,更随意马虎让模型捕捉关键区域特色;合成的输入送入到Reduced Xception 网络进行特色提取;在loss方面,我们引入了基于SVM的marge loss,提升各感情类别的类间差距,提升感情识别的效果,详细如上图。
基于前面对内容的各种理解产生的各种纬度的内容的量化纬度,我们构建了预测模型,可以提前预测出节目的流量走势,如内容认知框架中所讲的,首先对内容进行量化,然后对内容相应的量化纬度进行提前的预测,为业务决策供应赞助支撑。
末了,分享我对未来趋势的一些见地。在强人工智能尚迢遥的环境下,如何结合机器AI和人工履历将是个永恒主题。一是结合符号学派智能和链接学派智能,培植和完善决策引擎,包括结合人工逻辑规则和可学习数据AI,不愿定性剖析框架和耐久不衰的贝叶斯因果决策,以及神经元化的稠浊智能打算框架。二是量化的生理学研究也越来越主要,如何结合大数据运用代价非常大。这也是阿里文娱大脑探索的方向。
从优酷窄宽高清改造布局
到大麦物联网的实践之路
从文娱内容认知的AI大脑
到交互式的6DoF视频技能
5G时期来临
如何用新技能提升用户体验?
《5G+AI 阿里文娱技能实践》正式上线!
点击:https://developer.aliyun.com/article/726887?spm=a1z389.11499242.0.0.65452413maANgc&utm_content=g_1000087249急速下载。