本次大会深度聚焦 AIGC 运用,约请到了全国各地近百家互助伙伴参会,以及来自产研、投资机构、高校、AIGC 创业者等浩瀚行业精英和专家,共同分享过去一年 AIGC 运用进展,磋商未来发展趋势。
无界AI创始人长铗出席大会并做主题演讲:《光合浸染:无界在 AI 生态中的定位》。他讲到,AIGC的过程特殊像是光合浸染,“光”是文本、语音、图像等外界的信息输入,“二氧化碳和水”是演习的数据集,“碳水化合物”是天生的图片。无界AI的定位是光合浸染中的“叶绿体”,为生态伙伴赋能。
长铗表示,在过去一年,无界 AI 演习了大概1000万张图片素材,并且与海内50多所高校、博物馆建立了数据上的互助。近期,无界AI将陆续上线各大行业模型和国风、艺术插画、私人影像等模型,将自己的模型能力更好地输出给生态伙伴。未来一年,无界AI 还将在技能上进一步升级,加强对自然措辞的支持,支持笔墨天生和书法天生等功能。
以下是AI新智界整理的演讲内容,为方便阅读进行了部分删减:
无界AI的定位
AIGC的过程特殊像是光合浸染,“光”是文本、语音、图像等外界的信息输入,“二氧化碳和水”是演习的数据集,“碳水化合物”是天生的图片。无界AI的定位相称于生态中的叶绿体,从宏不雅观层面来说便是这个生态中的植物。生态中的动物是那些把我们模型能力运用得好,做涌征象级、杀手级,或者国民级运用的生态互助伙伴。
定位有toB和toC之分。 toB是一个效率工具,能够节省韶光;toC是一个情绪陪伴,消磨韶光。无界AI更倾向于toB,我非常相信将来生态伙伴能做涌征象级的运用。当前,无界更希望将模型能力赋能生态互助伙伴,专注帮企业降本增效。
模型演习的两大流派
模型演习分为两个流派:参数派和像素派。
参数派,便是各种追求CLIP(天生图片与提示词的同等性)、FID(天生图片与演习素材的同等性)等这些可以用算法来评价的参数,通过优化参数实现霸榜。他们非常关注参数的规模,而忽略人类的审美,由于审美很难用算法来评价。无界属于像素派,也便是说我们更看重在像素层面的优化。我们非常关注人类审美的反馈,也便是社区用户的反馈。
说到像素派,我们就要提到 Midjourney,它的审美是一贯在线的,它也属于像素派。我们和Midjourney有什么不一样呢?
模型方案不同
最大的差异便是我们在产品的模型方案上有很大不同。Midjourney实质上只有两个模型,一个是对应通用的方向的Midjourney模型;其余是对应二次元的方向的Niji模型。我们不太一样,我们把模型细分为汽车设计、产品设计、服装设计、建筑设计平分歧的垂直领域,同时要做到美学上比Midjourney表现更好。
上图是无界AI与其他模型在天生效果上的评分示意图,如果SDXL是均匀分70分的模型,Midjourney的得分是80分。我们对美学的哀求更高,在细分赛道的模型要做到80分以上,才能达到模型上线的标准。
美学风格不同
无界 AI 与Midjourney 在理念上也不太一样。Midjourney有非常强烈的美学特色,下图中左边的图片很随意马虎看出是Midjourney画的,它有很强烈的MJ艺术风格,个性化,具有辨识度。我们更强调的是模型艺术上的多样性,由于很难用单一的标准来评价美,以是我们尽可能还原美。
产品体验不同
如果把Midjourney比作米其林大厨,无界AI便是邪术师。米其林大厨把菜做到了90%,用户只须要大略的热一下,就可以直接享用。我们更希望用户自己成为邪术师,在不同的瓶瓶罐罐里添入不同的材料、不同的配方,调配出专属于自己的艺术风格。
易用性和灵巧性不同
Midjourney的产品易用性更高,只须要大略的提示词就可以天生非常俊秀的图片。无界AI产品的灵巧度更高,支持图片的后期处理。
我们在研发工艺美术模型时,和十几个高校和博物馆进行了学术上的互换。例如,在演习过程中,我们天生了一幅画珐琅鼻烟壶的图像,并向山东工艺美术学院韩明老师请教。他给出的辅导见地是,胎底材料应为琉璃而非陶瓷,以是该当带有一点半透明的质感。我们迅速用工艺美术模型搭配玻璃质感的LoRA,将权重设为0.8,很快就调出了韩明老师描述的质感,这便是无界产品的灵巧性表示。
灵巧性和易用性是可以兼备的。虽然我们的用户一开始入手难度可能会比较高,但我们可以通过产品上的设计,比如事情流的机制,把所有参数设置都封装好。我这里要提前透露一下,我们将来可能会支持Midjourney controller的一些运用,也便是说用户可以直接在无界上利用MJ的模型,同时可以得到非常丰富的后期处理功能。
审美偏好不同
我们画一张穿着汉服的女孩图像,MJ V6的效果确实非常惊艳,但画出来是一个穿和服的女子,解释它可能不是特殊懂中国的审美。右边是我用无界AI 的汉服模型画的汉服女孩,得到了空想的效果。我们是一个海内的团队,立足本土,以是在更懂中国的审美。
人类反馈不同
在人类反馈方面,Midjourney 就做了一个大略的处理,每天生4张图片,用户挑选最好的一张,这样也是帮它做了反馈。无界 AI 基于APP可以网络到非常多元的用户反馈数据,有点赞、收藏、同款、用户的调研等等。
版权逻辑的不同
产品理念的不一样,也会导致版权的逻辑不一样。根据 Midjourney的版权规定,免费的用户不可以商业利用,但付用度户可以得到商业利用授权。我们要把稳到,这是一个商业利用的授权,不是版权著作权,也不是所有权。
无界AI很早之前就宣告,凡是用无界AI创作的图片,版权归创作者所有,这个理念是比较超前的。我们每一张作品都是上链存证的,而且和杭州互联网法院是打通的。当时存在较大争议,人们认为用提示词创作并不是原创。但现在已经有越来越多的案例显示,用户在创作图片的过程中有非常多智力的参与,该当尊重创作者的智力成果。比如前段韶光互联网AI图片侵权第一案,北京互联网法院就支持了这样的不雅观念。
无界AI模型演习成果
在过去一年,无界 AI 演习了大概1000万张图片素材。同时,我们还和海内50多所高校、博物馆都建立了数据上的互助。
我们来看一下无界 AI 演习的模型:
1.汉服模型。这也是我们第一个出圈的模型,右边这4张图是我们的用户结合水墨风格创作的一组汉服图片,参加了浙江省委宣扬部举办的“梦溪杯”。
2.汽车设计模型。一言以蔽之,无论是100多年来汽车工业涌现的所有汽车品牌和产品,还是现在的国产新势力最新的车型,我们的汽车设计模型都能画。即便是设计未来的观点车型,也不在话下。
3.工艺美术模型。这个模型我们是把市情上能网络到所有拥有数字博物馆资源都演习了一遍,相称于一个变革的国家版本馆。国家版本馆大家都知道,它有非常丰富的数字资源,但它的数字资源是一种静态的展示。当工艺美术模型演习过往后,它就变成了流动的资源或者变革的资源,用户可以非常方便地利用提示词实现不同博物馆馆藏之间的联名,把它们的风格结合起来。
4. 壁纸模型。这个模型的利用率很高,看到这些图片我就不禁感慨,往后谁还会用那些图库的网站呢?用户天生的每一张图片都比它精美,而且著作权还属于自己。以是这就隐含着一个逻辑,每个模型背后就对应着一个一个行业的颠覆。
5. 私人影像模型。这个模型就是非常精准对标影楼这个场景或者行业,凡是拍写真、证件照、婚纱照,往后都可以在家里直接进行。影楼这个行业我认为也会被颠覆。
同样我们最近也上线了“个性相机”,支持用户利用一张照片演习私人模型,实现快速换脸。最近我们和热播大剧《神隐》互助,粉丝上传一张自己的照片,就能穿上剧中女主的穿着。
6. 产品美学模型。这个模型利用率同样很高。下面这几张图形都是我创作的。左上角大家可以猜猜利用了什么样的提示词,实在非常大略,我大概是利用了“阴阳、太极,减振、气垫、发光材料,耐克鞋”这些提示词,就可以出这样的效果。这将是电商和产品设计行业的一个利器。
7. 建筑模型。不管是当代还是古典的建筑艺术风格都可以出,也包括天下各地和海内各种城市的地标。
8.室内设计模型。也从草图设计到建模方案呈现,短期内就能供应室内设计方案。
无界AI模型演习的未来趋势
对付模型演习的未来趋势,我认为有以下四点,也是无界接下来要完善的:
1.对自然措辞的支持会越来越好。由于大措辞模型现在和文生图模型之间还存在一些间隔,文生图模型大部分都是基于标签式的提示词体系。未来,我们将升级文本编码器,加强对自然措辞的支持,无缝对接大措辞模型。
2.支持笔墨天生和书法天生。一些英笔墨母和一些数字已经可以画了。但支持中国书法或者汉字的模型,目前比较少,这个将来也会实现。
3.视频天生模型也会逐渐的成熟。
4.天生模型会越来越像搜索。这是一个什么观点呢?意味着将来随机浏览一个互联网的网页,你看到一张非常的精美图片,只要复制图片下面一段描述性的笔墨放在无界模型中,就能画出和同样的艺术风格和主题的图片。
无界AI生态伙伴互助办法
无界目前和生态伙伴互助的一些模式:
1.API接入,支持互助伙伴直接调用无界AI已经演习好的模型。
2.模型演习,支持互助伙伴对现有模型连续优化,微调出专属于自己私有的模型。
3.产品与模型深度定制,无界AI全流程深度参与客户产品与模型的定制,24 小时全天候技能支持。
末了,谈一点对AIGC的感想。对付AIGC,我认为可以用这样一句话来概括,便是“以宏不雅观叙事,从微不雅观行事”。
宏不雅观叙事,AIGC这样一个大浪潮不因此个人意志为转移的,它是一种“灰犀牛”,是一种时期的潮流。我们抵触和谢绝实在意义不大,最好的办法便是加入个中。在详细实践当中,一定要从微不雅观行事去理解客户详细的需求,去办理详细的问题。