AI魔法学院客服
数字人直播哪家强?百度、硅基、风平与闪剪四大AI数字人横向评测!
这篇文章主要讨论了AI大模型在驱动数字人产业升级方面的作用,以及如何帮助中小企业实现降本增效的目标。AI大模型的爆发将加速AI大模型对部分产业的颠覆,并带来数字人产业的新机遇。在AI大模型的驱动下,基于深度学习的自然语言生成技术与数字人结合成为可能,使得数字人的智能化水平有望大幅提升。这将帮助中小企业降低人力成本,提高生产效率。随着AI技术的不断发展,AI大模型的应用也越来越广泛。在数字人产业中,AI大模型的应用将带来更多的机遇和挑战。同时,对于中小企业而言,如何利用AI技术实现降本增效的目标,将成为了一个值得探讨的问题。此外,文章也提到了数字人的数据安全性和隐私保护问题,这也是我们在使用数字人时需要重视的问题。
 2023-12-12
收藏 复制地址分享海报

AI大模型驱动数字人产业升级,助力中小企业降本增效

近几年来,受全球经济环境不确定性的影响,以及疫情后生产恢复的压力,“降本增效”成为释放经济发展活力的关键,也是我国企业经营过程中的普遍性共识,而数字化转型成为新时期企业降本增效的必然选择。

iiMedia Research(艾媒咨询)调研数据显示,超七成的受访者认为降本增效是AIGC最主要的应用价值。同时,数字化时代,企业信息和数据的安全性至关重要,数字人的重要问题之一就是数据的安全性和隐私保护。因此,为企业实现降本增效的目标和数据保护的服务型数字人是未来的发展趋势。

2023年,AIGC技术的爆发将加速AI大模型对部分产业的颠覆,并带来数字人产业的新机遇。在AI大模型的驱动下,基于深度学习的自然语言生成技术与数字人结合成为可能,使得数字人的智能化水平有望大幅提升,解决了数字人技术门槛高、资金投入大等难题,真正赋予数字人以"人"的要素。中小企业可以通过应用AI大模型驱动的数字人来降低人力成本,提高生产效率。目前,中国的虚拟数字人行业政策处于初步规划阶段,随着后续实践的不断探索和完善,政策措施和行业规范将进一步完善,促进数字人技术的快速发展,为数字人产业的高质量发展提供更好的环境。


整体体验与易用性

百度曦灵数字人直播平台 Lite

首先是百度曦灵数字人直播平台 Lite,虽然兼具数字人短视频与直播两大功能,但总体来看可用简陋两个字来形容,特别是短视频生成功能,只能用声音文件驱动数字人,并且智能生成绿幕视频,生成之后需要再用第三方剪辑软件,比如Pr去抠图、剪辑处理,这无疑增加了使用门槛。特别是抠图最好用Pr、FCP等专业剪辑软件,剪映目前抠绿幕的效果用过的都知道like a shit 。简而言之,百度曦灵只解决数字人口播视频的合成,但不管最终成片,只是省去了真人拍摄这么一个过程。 不过好的地方是目前百度曦灵库里面的公用数字人数量较多,制作水平很统一。
直播功能相对来说要完善一些,可以插入贴图与商品文案话术,并且曦灵还接入了百度自家的文心一言,在智能回答中,可以根据文案直接通过文心一言分析出常见的问题,可以比较方便的根据商品去建立话术,这绝对是一大亮点。但不足是,仍无法换掉绿幕背景。

总体而言,百度曦灵数字人直播平台 Lite整体使用体验并不高,主要是功能比较简陋,不论是短视频还是直播,都只能生成绿幕素材,需要第三方剪辑软件或直播伴侣中再去扣绿幕处理。

硅基智能「小播秀」
然后是硅基智能,由于硅基智能的短视频和直播功能是两个产品,因为「硅语」相对简单,这里来说直播工具「小播秀」。

「小播秀」是一个电脑端软件,比较有意思的是最新安装包附带的说明文档中,对于电脑配置的要求非常高,如果做淘宝直播推荐电脑配置为13代酷睿i9 13900K+32G内存+RTX3060以上显卡,抖音与其他平台推荐配置为13代酷睿i7 13700K+32G内存+RTX3060以上显卡。这套推荐配置要求有点高的吓人,应该没有什么公司的办公电脑能有这么高的配置,就是游戏玩家都没几个能配到i9 13900K的。关于做直播真的需要如此高的CPU配置,我的观点是,在比较极端的直播场景中,比如用4K摄像头采集画面,直播中插入了大尺寸的视频素材、全程开人物美颜、开抠背景,那么就真的需要13700K、13900K这样的高端配置才能确保流畅。但常规直播应该用不了这么高,特别是用AI数字人一般不需要开美颜、不需要实时扣背景这些比较耗费资源功能,所以硅基推荐这配置要么是为了保险,要么是「小播秀」本身非常吃硬件配置。

在使用上,硅基智能「小播秀」给我的感觉就是专业,UI界面清爽,各个功能板块,包括直播模板、直播管理、数字人管理都比较直观。「小播秀」自带一些制作比较精良的模板,可以直接套用。但我认为直播不同于短视频,套用模板的情况可能不多,因为做带货直播,背景和素材肯定都要换掉的,和自己新建直播间差不多。不过,这些模板可以作为学习的样例,找一个打开后就可以知道建立直播间都需要哪些素材。

硅基智能「小播秀」的产品设计思路比较明确,就是要打造一个专业的数字人直播带货的工具, 直播间的搭建和开播等各方面功能,都是针对带货直播设计的。比如在创建直播间之前,最好先建立产品库,就是把带货商品的素材物料的图片素材先传上去。在建立直播间时,直播间类型有“憋单播”和“平播”两种选项。直播间搭建界面的选项很多,选数字人、选背景加贴图、添加直播文案(话术)这些常规操作相对简单,但关于直播互动方面的设置就比较复杂了,简单的说就是各种互动问答话术的设置,包括触发某些条件的指定话术,比如在线人数达到某个数值、一轮直播结束、用户评论了某些关键词、有人送礼等等条件的话术,还有就是自定义话术库,在直播中可以让数字人口播所选择的话术库内容。这些都需要提前进行设置。如果建立一个时间在1个小时以上,互动话术齐全的直播,工作量可不小。

所以,个人认为硅基智能「小播秀」易用性不是很高,没有专业直播搭建经验的用户需要一定的学习成本,它面向的用户应该是对带货直播很熟悉的企业用户和带货直播达人。

总的来说,硅基智能「小播秀」在数字人直播功能的专业度上,应该是我用过的数字人直播工具里最专业的,看的出来硅基智能下了不少功夫,产品也进行了不少的迭代。

但是,个人认为「小播秀」还是基于传统直播流程打造,并不是基于AI智能化的。为什么这么说?因为用它搭建一个直播间的工作量很大,比如需要写大量的脚本(话术),以及各种的配图,各种情况下如何互动回复,都要人工来策划与一步一步的操作,直播时也需要一个场控人员来处理互动回复方面的事情,工作量相当可观,甚至有可能比用真人主播工作量还要大,因为真人专业主播你只要告诉他带货什么产品,产品话术真人主播自己就可以临场发挥,互动内容更是随手拈来。还有一点不能忽视的是,在直播平台规则层面,每一次直播话术用完之后,短时间内不能重复使用,否则容易被判录播封号。因此,如果每天都要做直播的话,这种数字人+传统直播生产流程,将会是相当大的工作量。

所以我认为硅基智能「小播秀」还是传统的直播工具,它只是解决了用数字人代替真人出镜这个问题,但是没有解决除此之外的工作量。所以严格的说,它是一个半AI化的数字人直播工具。形成对比的是,百度曦灵和风平智能目前的版本都已经展现出来用AI来降低工作量的能力。

风平智能「风平IP智造」

风平智能的「风平IP智造」同时具备数字人短视频生成和直播功能,但也提供只有短视频功能的版本,而这里我体验的是全功能的旗舰版。在硬件配置上,「风平IP智造」官方推荐配置不算很夸张,推荐配置为11代酷睿i5或以上CPU,32G内存,以及RTX3060或以上显卡,很多老电脑虽然依然达不到,但至少不那么夸张。

「风平IP智造」主界面简洁直观,主要功能分为AI创作、短视频和直播。短视频提供了不同行业的多款模板,但直播页面没有什么模板,并且功能设计也不像硅基智能那样就是为带货直播而专门打造,有很多看起来专业的选项。但是,这也使得「风平IP智造」通用性更高,既可以做带货直播,也可以做其他类型直播。
使用上「风平IP智造」颇为直观,基础操作就是选择数字人和背景,然后根据场景划分,整段粘贴文案或者上传录音文件即可,不需要根据产品来一条一条建立话术,基本上不需要特别的学习培训,不用有做直播的经验,只要自己试一试研究一会就可以快速搭建一个直播间。另外,数字人短视频和直播的搭建页面和使用方法几乎是相同的,只需要选择数字人和AI语音,选择场景和贴图,拖拖拽拽布局好,点击生成就能出片,减少额外的学习成本。

从产品体验上看,风平智能和硅基智能的数字人直播产品的设计思路有比较明显的不同,它并没有针对某一类直播做专门优化,你可以说他通用性更高,也可以说在直播带货这个特定方向上,没有硅基智能更细致与专业。但是,你用风平智能的功能,也可以搭建出来和硅基相同效果的直播间,关键还是灵活使用。

「风平IP智造」虽然对外宣传的AI功能虽然还没有全部实现,但已经具备AI文案撰写、AI文案改写,以及AI直播互动能能。前者简单的说就是类似ChatGPT或者文心一言的功能,输入你的想法就可以为你写文案,也可以给它一段文案,让它来改写。后者是智能直播互动能力,就是用类ChatGPT大语言模型学习直播内容,实现自动回答问题,甚至与直播间用户闲聊,「风平IP智造」应该是截稿时业内唯一实现这一功能的产品。

另外根据风平智能的对外的一些短视频和宣传,他们后面还要开放AI作画,还有一个叫「1号AI」的小程序,可以全程AI生成文案、作画,生成短视频,如果真的可以实现,那绝对是易用性的天花板。

闪剪

闪剪是另一款将短视频和直播功能分开的厂商,同样也是相互独立收费。其中用于数字人短视频创作的「闪剪」有网页端和APP两种,使用下来感觉比手机版剪映APP还要易用,并且具有AI生成文案功能,可以解决写文案头痛的烦恼。

而「闪剪智播」一样以简单易用著称,界面的直观程度,相比风平智能还有过之而无不及。软件提供了一些模板,打开一个看一看就会明白「闪剪智播」的直播间搭建操作,就是选择数字人、选择背景,插入前景贴图,上传话术录音即可。另外,「闪剪智播」目前没有不同套餐版本的功能区分,只需要花钱买合成时间即可。

「闪剪智播」在使用上有一个点与其他三款产品都不同,就是它的数字人只能使用录音文件驱动,虽然它本身也有一个插件是文本转AI声音,而且声音库还很丰富,但合成的音频却不能用于驱动数字人。我的理解是,闪剪这样做的目的是希望用户使用真人录音去驱动数字人,这样可以很大限度防止直播封禁的问题。

总的来说,百度曦灵略目前产品的打造显粗糙,虽然有大模型文心一言的无缝嵌入这一亮点,但整体功能和使用体验依旧有所欠缺。硅基智能「小播秀」的直播功能专业,如果做带货直播它可能是最齐全、最灵活的选择,但上手难度略高,它更适合电商和本地生活直播用户。「风平IP智造」将专业性与易用性结合的很好,短视频和直播功能可以满足各种类型的需求,操作上也非常直观,降低了学习难度,同时「风平IP智造」很早就规划了全AI内容生成的框架,AI功能也是目前最强大的。闪剪则是几款里门槛最低的,无需先行付费也可直接体验除去最终合成之外的绝大多数功能,特别是数字人短视频易用而强大,而直播产品目前的功能积淀还是略逊色,后续版本还有较大的提升空间。
数字人效果

数字人产品的核心竞争力,无疑是数字人的品质效果,即便你平台的易用性不好、功能不够多、模板不够丰富,但如果数字人做出来足够清晰、口型准确度足够高、动作表情自然,那么哪怕我是绿幕输出后期做视频做直播再去扣背景,也会有竞争力。

2D真人数字人的质量,一般和模型的训练算法、素材拍摄质量、AI合成的声音质量,还有数字人平台输出的算法、参数设置有关。目前2D数字真人建模算法的实现,包括百度、硅基、风平和闪剪用的都是相似原理的方案,都是以一段实际拍摄的真人拍摄的视频为素材,用AI神经网络去训练读每个字的口型,最后训练出来可说任意内容的数字人。

全口型动作建模素材的拍摄方法
在具体实现上,大致又有两个分支,其中一个是录制完整真人开口说话的视频素材,训练也用的是真实的口型,它的优点是效果真实,录制时可以通过口播台词,来实现说话和语气、动作的匹配,训练出来的数字人动作表情也会切合使用场景。但相对来说,它对训练素材拍摄要求略微高一点点,主要是看人,如果是口才好不怯场、习惯在镜头前表达的人,只要10分钟就能搞定拍摄素材;如果是镜头前怯场的人,那就要多拍几遍。三款产品里,风平智能、硅基智能和闪剪都采用这种数字人模型的训练方式。

百度曦灵数字人使用AI模拟预测口型
第二种算是简易速成的方法,录制的真人视频素材不用开口说话,数字真人是用AI算法去模拟预测口型的开合,这样的好处是对训练素材的要求低,只要拍摄者在镜头前面闭着嘴做一些手势动作就可以,而且建模速度快,不到1天就可以完成建模。但不足是,既然是速成的方法,所以效果不如前一种方法好,一是算法合预测合成的口型和牙齿,再怎么做也无法和真实口型相比,而且拍摄素材是不讲话光比划动作,除非是非常专业的演员,否则普通人很难不说话去做出来自然、恰当的动作,因此做出来的数字人会有比较明显的机械感,或者说不协调感感,肢体动作比较出戏,口型牙齿略显不自然,无法体现出不同人的不同气质特点。三款产品里,百度曦灵的数字人是唯一使用这种建模方法的产品。

硅语和闪剪的照片说话功能
另外,现在还有一种让照片说话的玩法,国外成名比较早的AI项目是D-ID,在其火爆之后,最近国内一些数字人产品也加入了这个功能,用的也是AI模拟口型的方法,让照片的中人物的嘴动起来说话,但由于效果有限,一般只作为附加小功能,其中硅基和闪剪的短视频产品都有这项功能。

风平智能的建模流程,截取自官方说明文档
再来说说私有专属数字人定制的流程,各家基本是大同小异的。一般是自己想办法拍摄一段符合要求的视频素材,提交给平台进行训练。拍摄过程并不复杂,就是在镜头前说话几分钟,但无论如何一定要重视,因为取材拍摄的质量直接决定最后数字人训练出来的效果。所以建议大家在拍摄的时候要苛求完美,妆容、服装搭配、打灯效果,还有录制时的神态与动作等都要追求完美,为了最后的效果多拍几遍是值得的。值得一提的是,风平智能还提供AI捏脸生成数字人的选项,就是通过AI技术融合出一个现实中不存的面容的数字人,可以很大程度上避开真人形象存在肖像使用权的问题。

综上来看,从建模方案上,百度曦灵由于采用简易的建模方式,所以数字人的效果相对较差一些,主要表现就是口型自然度和表情动作相对不融洽,不论是做短视频还是做直播,一般可以看出来是数字人。其余三家的数字人采用更为复杂但效果更好的建模方法,只要提供的视频素材足够优秀,建模出来的数字人上限就可以很高。另外的一个要点是声音,选用一款适合的AI声音或用真人语音驱动,才能让嘴型准确度达到更好的水平。

百度曦灵的公用数字人
四款数字人平台都提供了一定数量的公用数字人,所有付费会员都可以直接使用。其中百度的公用数字人数目前大概有56个,全部数字人标准统一,模特质量都很高。硅基智能提供了51个,数量多但质量有些参差不齐,有些数字人像是充数的感觉。风平智能的公用数字人最少,仅为14个,不过建模标准相对统一,品质良好,14个人里面有11个面孔,重复率低是个亮点。

闪剪智播的公用数字人
公用数字人最多的是闪剪,截稿时有多达84个,而且覆盖的类型非常丰富,不同职业服装、不同国家、不同姿势的都有,甚至连黑人建模的数字人都有,是四款产品里独树一帜的。

不过,我的观点是公用数字人的多少不是考量产品的主要指标,不建议大家做短视频、做直播使用公用数字人。原因很简单,因为公用数字人你能用他也能用,就存在一个撞脸问题,不利于品牌形象和IP的打造。还有更现实的问题,如果大家都用同一个数字人做直播,那么会直接增加被判违规封号的概率。因为逻辑上同一个人不可能同一时间、不同地点用不同的账号同时开不同内容的直播,很明显是有问题的,容易被平台识别为是录播,这会导致被踢下线,甚至被封号的可能性增高。

数字人普遍支持声音驱动
数字人的声音也很重要,数字人一般有两种驱动方式,一种是文本驱动,一种是真人声音驱动。其中文本驱动是用AI合成的声音输出来配合数字人,目前除了百度曦灵的声音库数量偏少外,硅基智能、风平智能和闪剪目前声音库基本都有50款以上,里面都会有效果好的,也有效果差一些凑数的,一般用平台默认推荐的几个声音都比较好。有必要说明的是,闪剪智播里虽然有AI合成声音的插件和功能,但无法用于数字人驱动,只能用录音文件驱动,这点前面提到过。

另外,AI合成的声音还有一种更高级的存在,就是克隆自己的声音,用自己克隆的声音匹配自己的数字人模型,口型匹配度非常高,数字人更容易达到以假乱真的水平,刘润的数字人短视频作品就是例子,难以识别真假。但声音克隆的成本比较高,一般费用要8000元或更多,风平智能和硅基智能都有声音克隆的选项。

还有一个容易被忽视的问题,就是私有数字人的隐私安全,行业还没有广泛形成统一的规范。如果自己的数字人被制作公司,被他人盗用,危害程度远比个人信息和照片隐私泄露可怕,如果有人用你的数字人形象和声音发表不正当言论,后果非常严重。目前多数数字人公司可以做到定制数字人时,对定制人的授权确认,防止在未经本人允许的情况下定制的数字人。除此之外的隐私安全措施,绝大多数数字人品牌都没有额外提及,可以搜索查找到的,只有风平智能对数字人安全态度积极,产品里有一个拥有专利技术的5AS风险管理系统。

另外想额外提一下扩展能力。其实在更早的时候市面上出现过一些3D数字人产品,但由于算力和成本等问题,它们不太适合直播带货使用,所以逐渐被2D数字真人取代。但3D数字人在一些领域也有市场,比如游戏、VR等领域。所以如果有特别的需求,可以额外关注数字人平台是否支持3D数字人。

「风平IP智造」使用Unity底座
这次评测的4款数字人产品,经过一些资料查找和确认,风平智能的「风平IP智造」基于Unity 底座,平台可以直接支持3D数字人,不需要另外的平台。而且Unity也方便跨平台导入其他应用,比如VR、元宇宙应用等,具有未来的扩展性。而另外3款数字人平台都是基于2D数字真人打造的,无法直接支持3D数字人。如果有3D数字人业务,应该会是另外一套不同的平台,另外一套收费。

总的来看,四款产品里数字人整体效果比较好的是风平智能、硅基智能和闪剪,三者都采用更真实的数字人建模方法,并且可以定制克隆声音,数字人效果的上限很高,比如刘润、金错刀、环球网等大V、媒体号上的数字人,就是具体的案例。而百度曦灵由于采用一个相对简易的模型训练方法,定制效率虽然大大提高,但是数字人的效果相对不佳,会有一定的机械感,用来做短视频或者直播比较影响效果。
数字人直播效果

数字人用于直播是现在需求量最大的,但在选择数字人直播产品时,有一个不能忽视的问题,就是用数字人直播有可能在一些平台上,比如抖音、视频号上出现违规的问题。其中态度最明确的是抖音,在今年5月份出台具体的规范,在认可数字人直播的同时也做出了一些限制,比如画面中需要标明为AI生成的内容,另外要求数字人要由人工驱动或参与,不能全AI驱动。

但是, 我们使用数字人做直播希望达到的就是无人工驱动,这样才能达到降本增效的目的,所以也会有各种数字人防封禁的策略。所以在选择数字人直播产品的时候,一定要注意这方面的表现,包括一些避开平台规则的改变画面与声音的措施,也包括数字人的互动能力。终极解决办法肯定是更高级别的AI交互能力,让平台,甚至包括我们自己都识别不出来直播的到底是真人还是数字人。所以说,数字人直播最终比拼的还要是AI能力,看谁家的数字人AI互动能力最高。

首先来看看百度曦灵,相比它的短视频功能,直播功能相对完善,并针对带货直播做了一些优化,可以通过文心一言来AI生成话术,直接从文案里提取互动的问题线索,可以大大节省人力,提高搭建直播间的效率。但不足是,输出的视频还是绿幕的形式,需要在直播伴侣里再去扣绿幕加背景,这样的操作不仅繁琐,而且实时扣绿幕会明显增加直播电脑的CPU负担,如果电脑配置不够高,会明显降低直播帧率,甚至出现卡顿情况。

另外开播上,百度灵犀云端版只提供了“窗口捕获”一种导入直播伴侣的方法,就是曦灵会单独弹出来一个网页窗口页面,然后用直播伴侣的“窗口捕获”获取画面源。这种方式其实也会增加平台判违规的风险。因为理论上,各个平台的直播伴侣有可能具备一定的内容甄别功能,如果直播内容是从一个窗口里获取的,而不是从一个硬件摄像头设备获取的,理论上容易被视为录播内容。另外,硅基智能默认也是窗口捕获的方式,但另外提供直播间推流与拉流的方式,不过这两种方式也一定程度上存在提高被判录播概率的风险。相对而言,风平智能和闪剪则是将数字人视频流虚拟成一个摄像头硬件设备,在直播直播伴侣里添加摄像头即可获取画面流,理论上可以一定程度降低被判录播的风险。

然后是硅基智能和风平智能,他们是直播功能做的最好的两家,「小播秀」和「风平IP智造」在防封禁上都做出了很多的尝试,也开发出了一些功能措施,比如实时时钟,就是画面里放一个与标准时间的时钟来证明不是录播,比如直播时话术场景的顺序可以随机切换,比如故意给画面和声音制造一些噪音噪音,干扰平台的判断等等。总体来说,两家的数字人直播功能大体相似,但也有一定的区别。

重点是直播交互能力,「小播秀」和「风平IP智造」都支持自动应答、自动回复功能,也都支持插播和真人接管功能。自动回复方面,两家都可以支持插播功能,就是在直播过程中,可以根据直播的情况,可以随时通过文本驱动数字人,临时插入任意新加入的内容。

还有真人接管功能,得益于实时驱动能力,「小播秀」和「风平IP智造」可以用真人说话来实时驱动数字人。从抖音平台的规范看,这种就属于人工驱动的数字人,是规则被允许的不属于违规行为。其实这算是一个悖论,用数字人的目的是省去人工,但为了符合平台要求而用人工驱动数字人,又偏离了AI数字人节省人工成本的目的。而「小播秀」和「风平IP智造」加入这个功能的初衷,更多的是在数字人直播中如果出现一些特殊情况,可以人工接管进行应对。

闪剪的 「闪剪智播」的易用性很好,其界面和功能设计应该是比较多的借鉴了直播伴侣,可插入的素材方面最为全面,不只是图片、视频和音频,还可以插入窗口、浏览器、摄像头、麦克风到其中。只是这些功能在直播伴侣里都可以实现,把他们挪到软件里,似乎不太符合直播的操作习惯。

「闪剪智播」的直播和互动能能还比较初级,缺少一些高阶功能。首先,「闪剪智播」是4款产品中唯一不具备实时驱动的数字人直播产品,简单的解释就是创建一个新的话术,需要先提交训练,训练完成后才能直播使用,相当于把数字人的话术提前生成为视频,直播时再去播放。这种方式的不足是,一是训练是需要时间的,所以闪剪说明文档里建议在开播前一天提交训练;二是如果训练完成后发现有话术错误,想要修改需要重新提交训练,需要生成时间不仅会打乱直播计划,而且还会消耗合成时长;三是如果直播要暂停,那么数字人就完全静止不动了。

而实时驱动的数字人,无需预先训练无需等待,新插入的文案话术都可以直接开直播,话术写错了直接改过来就可以,无需训练等待。另外还有一个小优点,就是直播中如果按暂停,数字人也只是闭嘴不说话,身体都是会动的。

「闪剪智播」具备基本的交互能力,可以设定条件话术,在直播中回答用户的问题。而其他防封禁策略上,「闪剪智播」除去场景循序打乱之外,只能用录音文件驱动数字人,算是半强迫的让用户去真人录音,从而降低封禁的风险。

百度曦灵使用文心一言自动识别与提取文本中的问答

最后谈谈数字人直播真正核心的能力——AI互动,它的实现基础是ChatGPT、文心一言这类大预言模型。百度、硅基智能和风平智能三家对外宣传中都提到这样的功能,但截稿时只有风平智能的「风平IP智造」具备这一功能。

百度曦灵理论上背靠自家的文心一言,有近水楼台的优势,但文心一言的功能仅限于产品话术生成与从文案脚本快速学习生成问答库问题,其中具体问答还需要人工筛选与确定,属于比较初级的AI。

硅基智能对外宣传中提到高级版具备AI大脑功能,基于GPT4可根据直播间数据实时优化直播话术,但目前版本还未实现这一功能,而且也不具备话术生成等辅助AI功能。而闪剪的短视频工具虽然有AI文案功能,但直播工具却完全没有,有些遗憾。

「风平IP智造」的AI知识大脑与AI闲聊选项
现在AI互动实现水平最高的是风平智能,最新版本已接入类ChatGPT大语言模型,可以直接上传直播内容相关的文档,AI自动对文档内容以及直播脚本内容进行学习,直播中用户提出问题,数字人会根据文档中的内容进行分析并组织回答,并且无需像百度那样需要提前人工筛选与配置问题。更有意思的是,如果用户提问的是文档中没有涉及到的内容,则会用大语言模型与用户进行相关话题的“闲聊”。经过测试,从评论区输入问题,到数字人进行口播回答,大约30s到1分钟的时候,考虑的网络延迟、算力实时生成,这样的相应速度已经很快,具备很高的实用性。如果是提前给好脚本提前训练学习的内容,感觉AI大脑是比较智能的,可以按文本里的内容组织回答。闲聊感觉就像和GPT等聊天感觉差不多,问什么都可以答出个相关的内容。个人感觉,配合这个AI大脑和AI闲聊,数字人直播交互可以说有了质的变化,甚至可以说是革命,最直接的好处是,比如即便使用同一套文案,只要直播中观众提出不同的问题,也会变成不一样的直播内容,这样一方面直播变得有趣了,可以像真人那样互动,二是同一个脚本可以一定程度上重复使用,节省工作量。

总体而言,目前市面上的数字人直播系统,基本上谁都无法保证100%做到防封禁,需要在搭建直播间的时候充分利用各种已知的措施。而在数字人直播交互方面,现阶段风平智能做的最好,已经在直播互动环节部署了AI大语言模型 ,可以直接通过学习进行问题交互,甚至是AI聊天,直播防封达到了一个新高度。
数字人短视频

数字人短视频是另外一大高需求应用场景,目前实现程度也非常高,各大短视频平台基本对AI数字人短视频没有什么限制,现在一些大V、企业和媒体都用数字人生产的短视频内容,有些已经达到难以分清是真人还是数字人的程度,比如前面提到的刘润、环球网等案例。这些知名的案例里面,其实就有这次评测的数字人平台定制的数字人。

短视频这部分功能体验,我介绍的要相对简单一些,因为功能和数字人效果与直播的表现都非常相似。

百度灵犀输出的最终效果
首先短视频生成的功能和体验上,毫无疑问百度曦灵体验最差,原因之一就是功能过于简陋,只能输出未加工的绿幕数字人口播视频,只能用音频文件驱动数字人,需要配合其他剪辑软件才能做出来最终的短视频,它并不是一个完整的解决方案。第二个原因是,由于百度数字人用的是AI合成非原生的口型牙齿,数字人的口型、动作可能会不太恰当,观感效果略显不足。

硅基智能的「硅语」APP
硅基智能的「硅语」是需要另购的独立产品,除去会员时长外,里面也会有一些收费的公用数字人。在数字人的效果上,「硅语」与「小播秀」的数字人效果一致,但公用数字人的质量似乎更好,主要是库里的付费数字人要比「小播秀」里面的拍摄制效果好一些,AI声音也比小播秀的声音多。

「硅语」输出的最终效果(不支持前景贴图)
在功能上「硅语」比较齐全,提供了比较丰富的模板,文案方面可以使用文本驱动、录音文件驱动,也可以从网上别人发的短视频里扒文案,但比较遗憾的是不具备AI文案的功能。另外很奇怪的是,视频编辑页面里,没有在数字人上面加前景贴图的功能,但模板里却有这个效果,令人费解。
还有,硅语中也加入了趣味功能,比如照片说话、数字名片等,可以算是锦上添花的趣味功能。

总体来说硅基智能「硅语」的整体效果不错,使用上也比较顺手,但功能上还不够完善,AI功能文案功能缺失。

风平智能的「风平IP智造」的短视频功能总体不错,由于和直播功能在使用上几乎完全相同,数字人与声音库也是共用的,所以操作、资源库和数字人效果这块无需再次赘述。与直播不同的是,短视频这里附带了不少视频模板,可以直接套用。另外在编辑窗口里,也是可以建立多个场景的,这种设计的好处是可以不同场景有不同的画面内容,比如第一个场景是短视频标题封面,第二个是数字人口播将内容,第三个场景是全屏素材展示等等,比较灵活。

「风平IP智造」输出的最终效果(唯一支持前景透明贴图)
素材支持方面「风平IP智造」是四款产品里最好的,可支持字幕,可以任意插入图片或视频素材,灵活调整图层,而且经过测试,「风平IP智造」是四款里唯一支持透明贴图功能的。

另外就是风平智能支持AI文案生成功能,AI写作能力感觉和ChatGPT相当。另外生成文案后,上面还有个一键成片的按钮,点一下就可以将文案按照模板样式生成短视频,可以略微提升制作效率。

最近从经销商那里看到风平智能的一个宣传视频,一个名为「1号AI」的微信小程序将在近期上架。「1号AI」是个主打一键成片的数字人短视频工具,只要输入你的想法,然后文案、配图、数字人生成等等全部AI自动生成,直接出片。并且还可以直接将网上看到的好玩的短视频的网址粘进去,AI会直接抓取文案,并自动对文案进行改写,输出同款样式但内容不同的短视频。
总体来说,风平IP智造的短视频功能完善,简单易用,本身就属于非常好的数字人短视频生成工具。如果即将上架的「1号AI」真的如宣传片里介绍那般智能,那么它会是一个开创性的数字人短视频生成工具。

闪剪和硅基一样,短视频工具是独立的产品,提供网页版与APP版本。但使用下来,个人认为闪剪要明显比硅语好用一些,而且费用还要低于硅语低。

这里主要以闪剪APP进行测试,除去图文快剪功能外,它还包括AI文案、智能成片,以及照片数字人功能。闪剪提供了比较多的视频模板,不过一些模板设计不算很精良,就是换了不同的背景图片。在视频编辑页面里,可以设置和调节的项目很多,换背景,加前景贴图素材和字幕功能都有。但是比较遗憾的是,闪剪APP中的贴图不支持透明图片,这大大限制前景图片的效果,反之,网页版则是可以支持的。总之,我觉得闪剪的操作还有可以优化的空间,可以做的比现在操作更顺手。

闪剪输出 的最终效果(APP端不支持透明前景图片)
闪剪的智能成片功能用起来还可以,它可以按照需要话题和一些预设的要求生成短视频文案,再用文案生成短视频,水平与电脑端的「风平IP智造」相似。

整体来说,闪剪的数字人短视频效果较好,功能丰富易用性也不错,是一个价格相对低廉的数字人短视频解决方案。

我用了同一个脚本,用4家的数字人分别生成了同样视频,都未经过其他剪辑软件处理,大家可以点击上面网盘地址,下载观看各家的数字人短视频的真实效果。需要说明的是,由于只有风平智能支持透明图片前景图片,其余目前均不支持,所以视频都没有前景贴图,如果需要透明前景图片可在第三方软件中添加。网盘地址放在下面评论区了,可以自行查看。

综上,除去百度曦灵的短视频功能体验比较差之外,另外三家的水平整体都达到了很不错的水平。三者比较的话,相对来说硅基智能的「硅语」中规中矩,闪剪的视频编辑、剪辑功能丰富,易用性好。而风平智能的「风平IP智造」在保证数字人短视频的功能与效果的同时,比较突出AI能力。
总结

最后我就不长篇大论去做文字总结,不去做盖棺定论了,放一张图表对四款产品的各方各面做一个总结,每款产品表现比较突出的地方都用红字标重点了,哪一款产品更适合自己,请大家自行斟酌与参考。

有一点大家可能发现了,这次对比我并没有过多的说明每家产品和套餐价格。这是因为当前数字人产品主要面向企业用户与专业内容生产者,数字人对他们来说是赚钱工具,对价格相对不那么敏感。如果你是老板,去挑选一款数字人直播产品,那么2万元1年效果一般,需要大量人工操作,还容易封号的产品,和5万元1年可以实时驱动,直播互动能力强,不容易封号,选哪个是不是显而易见了?作为企业级应用,并不能单纯的用产品单价来衡量,况且数字人单品价格也不算很高,谁能降本增效,谁能覆盖掉成本实现营收,那么它就是性价比更高、更好的产品。

本文档由网友提供,仅限参考学习,如有不妥或产生版权问题,请联系我们及时删除。 客服请加微信:skillupvip
评论
2 评论
Dogerge2023/12/12 13:01:34
在降本增效方面,AI大模型确实能帮助中小企业提升生产效率,降低人力成本。当然,数据安全性和隐私保护问题也需要引起重视。期待AI大模型在数字人产业带来更多的创新和突破!
莓气泄漏2023/12/12 13:01:31
好文章!AI大模型在数字人产业的应用前景广阔,深度学习技术也给数字人带来了更多可能性。