騰訊云智能打造AI+數(shù)智人生產(chǎn)工廠,3分鐘樣本訓(xùn)練即可定制數(shù)字分身
智能
2023/04/28 16:21:12 33659閱讀
“大家好,我是劉興亮,這是我的首個數(shù)智人分身。”
4月25日,在騰訊云智能“數(shù)智人媒體溝通會”上,數(shù)字經(jīng)濟學(xué)者劉興亮現(xiàn)場展示了他的專屬“數(shù)智人”,以及由這個“數(shù)智分身”輸出的短視頻“亮三點”。劉興亮分享稱:“這個形象近似真人,表情、唇型匹配自然,包括我的特色口音也模擬得惟妙惟俏的數(shù)智人,正是騰訊云智能小樣本數(shù)智人。未來,不需要搭建拍攝場地,也不用提前化妝彩排,不受空間、時間限制,數(shù)智人可以隨時隨地幫我生成口播視頻,解放我的生產(chǎn)力。”
(圖:數(shù)字經(jīng)濟學(xué)者劉興亮用小樣本數(shù)智人生產(chǎn)視頻)
越來越多的數(shù)字人走入各行各業(yè),投入實際應(yīng)用,但高昂的制作和運營成本讓不少企業(yè)望而卻步。如何讓數(shù)字人從大企業(yè)走向小商戶,成為小微企業(yè)經(jīng)營的“可選項”,甚至成為個人創(chuàng)作者的創(chuàng)作工具?過往復(fù)雜的訓(xùn)練樣本數(shù)據(jù)采集,導(dǎo)致數(shù)字人定制過程長、成本高,一定程度上限制了數(shù)字人的快速應(yīng)用落地。
溝通會上,騰訊云智能小樣本數(shù)智人生產(chǎn)平臺首次對外發(fā)布,平臺具有訓(xùn)練樣本小、生產(chǎn)效率高、自動化生產(chǎn)等特性,可以輕松實現(xiàn)“自助式”數(shù)智人生產(chǎn)制作。依托騰訊自研AI能力和技術(shù)經(jīng)驗,只需要3分鐘真人口播視頻、100句語音素材,平臺便可通過音頻、文本多模態(tài)數(shù)據(jù)輸入,實時建模并生成高清人像,在24小時內(nèi)制作出與真人近似的“數(shù)智人”。千元級別的成本,小時級的制作時長,大幅降低數(shù)字人使用門檻,騰訊云智能小樣本數(shù)智人為短視頻創(chuàng)作、知識分享、帶貨直播等場景應(yīng)用提供了更多可能性。

騰訊云智能數(shù)智人產(chǎn)品總經(jīng)理陳磊表示,騰訊云智能正致力打造自動化的“AI+數(shù)智人工廠”,以“產(chǎn)、銷、服”一站式平臺,實現(xiàn)“自助式”購買、生產(chǎn)和應(yīng)用數(shù)智人。通過開箱即用的數(shù)智人服務(wù),騰訊云智能還將廣泛開展生態(tài)被集成合作,攜手合作伙伴將更逼真、更智慧、更高效的數(shù)智人應(yīng)用落地千行百業(yè)。
自研小樣本數(shù)智人驅(qū)動技術(shù)框架,24小時實現(xiàn)數(shù)字分身復(fù)刻
騰訊云智能依托自研小樣本數(shù)智人驅(qū)動前沿技術(shù)框架,以及基于自監(jiān)督機制的通用多模態(tài)模型,讓用戶實現(xiàn)提交少數(shù)樣本數(shù)據(jù)進(jìn)行AI訓(xùn)練,例如3分鐘真人口播視頻、100句語音素材,即可獲得與真人形象、語音近似的數(shù)智人,生產(chǎn)周期縮短至天級別。千元級的價格,自助式的服務(wù),讓數(shù)智人成為“用得起”的數(shù)字化服務(wù)。
陳磊表示,小樣本數(shù)智人支持半身、全身形象展示,也支持錄制背景任意更換,適用于直播帶貨等更廣泛的商用場景。相較于2D真人精品數(shù)字人,小樣本數(shù)智人無需專業(yè)影棚錄制素材,成本更低;相較于照片生成、僅能呈現(xiàn)面部形態(tài)的數(shù)字人,小樣本數(shù)智人可根據(jù)文本設(shè)計手勢,唇動、口型、表情復(fù)現(xiàn)真人風(fēng)格。
(小樣本數(shù)智人形象、音色接近真人,支持半身、全身形象展示,適用于更廣泛的商用場景)
以知識分享口播視頻生產(chǎn)為例,小樣本數(shù)智人可以代醫(yī)生、律師等專業(yè)人士出鏡,大大節(jié)省視頻錄制時間。在溝通會現(xiàn)場,浙江樹蘭醫(yī)院盛國平博士展示如何用“數(shù)字分身”輸出醫(yī)學(xué)知識科普視頻,在忙碌工作中緩解視頻錄制壓力。按日更計算,如果以“妝發(fā)+調(diào)試+錄制”平均兩小時/期來算,一周就可以省下14個小時,一年可節(jié)省近800-900小時,相當(dāng)于省下30-40天的制作時間。
打造數(shù)智人aPaaS平臺提供“產(chǎn)、銷、服”一體化服務(wù)
為了加速數(shù)智人服務(wù)普及,騰訊云智能還提出自動化“AI+數(shù)智人工廠”的方向。開箱即用的數(shù)智人生產(chǎn)服務(wù),依托騰訊云TI平臺,內(nèi)置超過10項AI算法能力。未來,無需任何算法、研發(fā)經(jīng)驗,只要在平臺導(dǎo)入視頻、語音訓(xùn)練素材,即可通過“自助式”服務(wù),完成大批量數(shù)智人形象、音色定制。
針對數(shù)智人運營,騰訊云智能提供播報數(shù)智人平臺、交互數(shù)智人平臺服務(wù)。播報數(shù)智人平臺支持通過文字、語音輸入快速生成數(shù)智人視頻;交互數(shù)智人平臺可打造“超長待機”的數(shù)智員工,可定制專屬問答庫,提供7*24小時人機雙向交互服務(wù)。同時,也可實現(xiàn)數(shù)智人直播服務(wù),直播間7*24小時不斷檔,自由切換真人語音接管,與用戶問答互動。
陳磊表示,騰訊云智能專注做厚aPaaS數(shù)智人平臺,以API接口形式向合作伙伴開放“產(chǎn)、銷、服”一體化服務(wù),支持合作伙伴開發(fā)更多適用于垂直行業(yè)、垂直場景的數(shù)智人SaaS服務(wù)。目前,已經(jīng)有數(shù)十家合作伙伴依托平臺,向行業(yè)提供數(shù)智人直播SaaS、知識口播SaaS應(yīng)用,覆蓋醫(yī)療、傳媒、金融多個行業(yè)。
作為騰訊云智能的生態(tài)集成伙伴,醫(yī)微訊創(chuàng)始人、CEO潘耿表示,騰訊云智能數(shù)智人生產(chǎn)及運營能力的開放,助力我們?yōu)榭蛻舸蛟炝诉m用于醫(yī)療行業(yè)的數(shù)字人服務(wù)。微媒數(shù)字會議CEO天狐表示,微媒將全力和云智能共創(chuàng)數(shù)字分身解決方案,形成可持續(xù)發(fā)展的品牌營銷生態(tài),為企業(yè)與個人進(jìn)行IP打造。
“皺紋級”形象還原,“音素級”音色復(fù)刻
騰訊自2018年開始投入數(shù)智人研發(fā)和服務(wù),是國內(nèi)最早投入數(shù)字人領(lǐng)域的企業(yè)之一,已發(fā)布數(shù)百篇相關(guān)技術(shù)頂會、期刊論文、專利近百份。
在技術(shù)解讀分享中,騰訊優(yōu)圖實驗室研究總監(jiān)汪鋮杰表示,2D小樣本技術(shù)的背后是3D技術(shù)。“小樣本數(shù)智人從直觀上感受是2D視頻,背后其實是3D人像在做支撐。從‘文本/音頻’信息到‘3D人像驅(qū)動’再到‘2D人像視頻’的模式,通3D人臉結(jié)構(gòu)的先驗信息引入,使數(shù)智人口型、表情更到位,讓小樣本數(shù)智人形象實現(xiàn)‘皺紋級’還原。”
另一方面,“小(樣本)"的背后是"大”。基于自監(jiān)督機制的通用多模態(tài)模型經(jīng)過大規(guī)模數(shù)據(jù)訓(xùn)練,可以將語音、文本與人像的表情、口型進(jìn)行關(guān)聯(lián)。“3分鐘”的訓(xùn)練視頻正是基于這個模型,學(xué)習(xí)每個人個性化的發(fā)音和口型特征。
汪鋮杰表示,雖然小樣本數(shù)智人使用門檻、成本都大幅降低,但他們希望能“用跑車的性能,服務(wù)家用轎車的用戶”,通過綜合運用多項視覺AI技術(shù),提升小樣本數(shù)智人品質(zhì),其中就包括高精度人像分割、光照優(yōu)化、人像美化、視線矯正等。他舉例稱,當(dāng)錄制視頻出現(xiàn)較暗、較朦等情況,小樣本數(shù)智人可以通過光照優(yōu)化技術(shù)進(jìn)行亮度提升,也能通過高精度的人像美化提升皮膚質(zhì)感。
在聲音復(fù)刻方面,基于騰訊自研的新一代小樣本音色定制技術(shù),依托深度學(xué)習(xí)的聲學(xué)模型及神經(jīng)網(wǎng)絡(luò)聲碼器,小樣本數(shù)智人改善了傳統(tǒng)聲學(xué)模型語音韻律單一,語調(diào)平淡的問題,讓語音合成更加精細(xì)化。例如,一段文字中哪里該讀重音、哪里情緒有變化等因素,都會經(jīng)由AI訓(xùn)練識別,復(fù)現(xiàn)個人音色以及表達(dá)風(fēng)格,最終實現(xiàn)接近本人的自然表達(dá)。
此外,通過構(gòu)建大規(guī)模高質(zhì)量音色數(shù)據(jù)的預(yù)訓(xùn)練基底模型,未來小樣本數(shù)智人還將支持用戶只錄制普通話,即可合成英文及方言語音。
目前,騰訊云智能數(shù)智人已經(jīng)覆蓋3D寫實、3D半寫實、3D卡通、2D真人、2D卡通五種形象風(fēng)格,可實現(xiàn)超細(xì)微面部情感表情以及數(shù)百種肢體動作,支持形象資產(chǎn)管理、業(yè)務(wù)服務(wù)配置及內(nèi)容生產(chǎn)相關(guān)服務(wù),以滿足不同場景下的服務(wù)需求。作為數(shù)智員工,騰訊云智能數(shù)智人已成功“入職”傳媒、金融、出行、文旅、政務(wù)等多個行業(yè),依托新一代的多模態(tài)人機交互系統(tǒng),同時連接騰訊豐富的內(nèi)容和服務(wù)生態(tài),實現(xiàn)從“數(shù)字人”智能升級到“數(shù)智人”。
未來,面向數(shù)智人應(yīng)用,騰訊云智能將不斷通過CV、TTS、NLP、ASR等多項自研AI技術(shù),推動數(shù)智人服務(wù)更廣泛落地,以“普惠化”服務(wù)走入千行百業(yè)。