北京韶光9月21日清晨,OpenAI官方发布一条视频,配以“DALL·E 3(握手)ChatGPT”的笔墨,正式发布了旗下两大AI大模型的结合。
官网还给出了详细上线韶光:会员版(20美元/月)和企业版10月可用,面向开拓实验室的API接口则在今年秋日晚些时候供应。
大措辞模型竞赛最初引爆点的ChatGPT自不必多说,另一款DALL·E模型则面向图像天生领域,在2021年1月5日推出,是最早的一批AI图像天生大模型,也称得上是AI绘画领域的开启者和引领者。
而现在,两个各自领域的引领者的合并,或许又将引发新一轮的风暴。
···
OpenAI官方宣告,新的结合体即DALL·E模型第三代——DALL·E 3。
它不再须要以往AI绘画的繁芜到自成体系(乃至须要专门学习)的提示词,也不再只有笔墨之间的谈天。用户只须要用最自然浅近的笔墨描述自己想象中的场景,善于阅读理解的ChatGPT和专长画画的DALL·E,就能直接一步到位天生图像。
就像是官网放出的例子,给出的描述(从左往右,从上至下)是:
人行道上的行人们熙熙攘攘,正在享受他们的夜生活。
满月照耀着繁华的都邑街道。
在街角的小摊上,一位满头红发、身着标志性天鹅绒年夜氅的年轻女子正与脾气暴躁的老摊主讨价还价。
脾气暴躁的老摊主身材高大、成熟,穿着笔挺的西装,留着引人瞩目的小胡子,正在用他的蒸汽朋克式电话兴致勃勃地交谈。
可以看到,末了天生的图像不仅逐一还原出了“满头红发”“天鹅绒年夜氅”“蒸汽朋克式电话”这些关键词,连“享受夜生活”“脾气暴躁”“兴致勃勃”等较为模糊、主不雅观色彩较浓的描述,也给出了自己的理解。
而比拟尚未结合ChatGPT的第二代DALL·E模型,面对相同的描述——“一幅富有表现力的篮球运动员扣篮油画”,DALL·E 2将“星云爆炸”的意象与扣篮动作拼在了一起,而DALL·E 3则直接将“星云爆炸”意象与扣篮运动员进行了领悟。
左为DALL·E 2,右为DALL·E 3
从官网放出的示例图片和视频来看,DALL·E 3的最大上风在于整合了ChatGPT强大的自然措辞处理能力,不仅在措辞理解上大幅飞跃,还能自己写机器易于理解的提示词,再将其“转达”给图像天生的模块,终极就能天生细节和还原想象程度都再次飞跃的图像。
···
除了上述核心功能,AI图像标注、隐私安全、演习数据来源等一贯备受关注的问题也均在这次新产品中有所涉及。
OpenAI表示,他们正在开拓一种图像来源“鉴别器”,以帮助人们识别某一图像是否是由DALL·E 3天生的AI产物。这一工具会嵌套在DALL·E 3内部,在未来一起推出。
在隐私安全上,OpenAI提出已与红队专家(对模型进行压力测试的领域专家)互助,防止DALL·E 3天生暴力、色情或其他有害图片,在对付"大众人物干系的照片和信息也会提高风险评估能力。
还有当前很多创造者所诟病的“我的绘画未经赞许便被爬取作为演习数据”的情形,OpenAI表示,艺术家可以填写表格,禁止他们的网络爬虫GPTBot访问自己的个人网站,还可以直接向官方发送邮件指明自己的隐私图像,这样,官方也会将其从演习数据中删掉。
采写:南都 杨博雯