騰訊云智能打造AI+數智人生產工廠,3分鐘樣本訓練即可定制數字分身
智能
2023/04/28 16:21:12 29674閱讀
“大家好,我是劉興亮,這是我的首個數智人分身。”
4月25日,在騰訊云智能“數智人媒體溝通會”上,數字經濟學者劉興亮現場展示了他的專屬“數智人”,以及由這個“數智分身”輸出的短視頻“亮三點”。劉興亮分享稱:“這個形象近似真人,表情、唇型匹配自然,包括我的特色口音也模擬得惟妙惟俏的數智人,正是騰訊云智能小樣本數智人。未來,不需要搭建拍攝場地,也不用提前化妝彩排,不受空間、時間限制,數智人可以隨時隨地幫我生成口播視頻,解放我的生產力。”
(圖:數字經濟學者劉興亮用小樣本數智人生產視頻)
越來越多的數字人走入各行各業,投入實際應用,但高昂的制作和運營成本讓不少企業望而卻步。如何讓數字人從大企業走向小商戶,成為小微企業經營的“可選項”,甚至成為個人創作者的創作工具?過往復雜的訓練樣本數據采集,導致數字人定制過程長、成本高,一定程度上限制了數字人的快速應用落地。
溝通會上,騰訊云智能小樣本數智人生產平臺首次對外發布,平臺具有訓練樣本小、生產效率高、自動化生產等特性,可以輕松實現“自助式”數智人生產制作。依托騰訊自研AI能力和技術經驗,只需要3分鐘真人口播視頻、100句語音素材,平臺便可通過音頻、文本多模態數據輸入,實時建模并生成高清人像,在24小時內制作出與真人近似的“數智人”。千元級別的成本,小時級的制作時長,大幅降低數字人使用門檻,騰訊云智能小樣本數智人為短視頻創作、知識分享、帶貨直播等場景應用提供了更多可能性。
騰訊云智能數智人產品總經理陳磊表示,騰訊云智能正致力打造自動化的“AI+數智人工廠”,以“產、銷、服”一站式平臺,實現“自助式”購買、生產和應用數智人。通過開箱即用的數智人服務,騰訊云智能還將廣泛開展生態被集成合作,攜手合作伙伴將更逼真、更智慧、更高效的數智人應用落地千行百業。
自研小樣本數智人驅動技術框架,24小時實現數字分身復刻
騰訊云智能依托自研小樣本數智人驅動前沿技術框架,以及基于自監督機制的通用多模態模型,讓用戶實現提交少數樣本數據進行AI訓練,例如3分鐘真人口播視頻、100句語音素材,即可獲得與真人形象、語音近似的數智人,生產周期縮短至天級別。千元級的價格,自助式的服務,讓數智人成為“用得起”的數字化服務。
陳磊表示,小樣本數智人支持半身、全身形象展示,也支持錄制背景任意更換,適用于直播帶貨等更廣泛的商用場景。相較于2D真人精品數字人,小樣本數智人無需專業影棚錄制素材,成本更低;相較于照片生成、僅能呈現面部形態的數字人,小樣本數智人可根據文本設計手勢,唇動、口型、表情復現真人風格。
(小樣本數智人形象、音色接近真人,支持半身、全身形象展示,適用于更廣泛的商用場景)
以知識分享口播視頻生產為例,小樣本數智人可以代醫生、律師等專業人士出鏡,大大節省視頻錄制時間。在溝通會現場,浙江樹蘭醫院盛國平博士展示如何用“數字分身”輸出醫學知識科普視頻,在忙碌工作中緩解視頻錄制壓力。按日更計算,如果以“妝發+調試+錄制”平均兩小時/期來算,一周就可以省下14個小時,一年可節省近800-900小時,相當于省下30-40天的制作時間。
打造數智人aPaaS平臺提供“產、銷、服”一體化服務
為了加速數智人服務普及,騰訊云智能還提出自動化“AI+數智人工廠”的方向。開箱即用的數智人生產服務,依托騰訊云TI平臺,內置超過10項AI算法能力。未來,無需任何算法、研發經驗,只要在平臺導入視頻、語音訓練素材,即可通過“自助式”服務,完成大批量數智人形象、音色定制。
針對數智人運營,騰訊云智能提供播報數智人平臺、交互數智人平臺服務。播報數智人平臺支持通過文字、語音輸入快速生成數智人視頻;交互數智人平臺可打造“超長待機”的數智員工,可定制專屬問答庫,提供7*24小時人機雙向交互服務。同時,也可實現數智人直播服務,直播間7*24小時不斷檔,自由切換真人語音接管,與用戶問答互動。
陳磊表示,騰訊云智能專注做厚aPaaS數智人平臺,以API接口形式向合作伙伴開放“產、銷、服”一體化服務,支持合作伙伴開發更多適用于垂直行業、垂直場景的數智人SaaS服務。目前,已經有數十家合作伙伴依托平臺,向行業提供數智人直播SaaS、知識口播SaaS應用,覆蓋醫療、傳媒、金融多個行業。
作為騰訊云智能的生態集成伙伴,醫微訊創始人、CEO潘耿表示,騰訊云智能數智人生產及運營能力的開放,助力我們為客戶打造了適用于醫療行業的數字人服務。微媒數字會議CEO天狐表示,微媒將全力和云智能共創數字分身解決方案,形成可持續發展的品牌營銷生態,為企業與個人進行IP打造。
“皺紋級”形象還原,“音素級”音色復刻
騰訊自2018年開始投入數智人研發和服務,是國內最早投入數字人領域的企業之一,已發布數百篇相關技術頂會、期刊論文、專利近百份。
在技術解讀分享中,騰訊優圖實驗室研究總監汪鋮杰表示,2D小樣本技術的背后是3D技術。“小樣本數智人從直觀上感受是2D視頻,背后其實是3D人像在做支撐。從‘文本/音頻’信息到‘3D人像驅動’再到‘2D人像視頻’的模式,通3D人臉結構的先驗信息引入,使數智人口型、表情更到位,讓小樣本數智人形象實現‘皺紋級’還原。”
另一方面,“小(樣本)"的背后是"大”。基于自監督機制的通用多模態模型經過大規模數據訓練,可以將語音、文本與人像的表情、口型進行關聯。“3分鐘”的訓練視頻正是基于這個模型,學習每個人個性化的發音和口型特征。
汪鋮杰表示,雖然小樣本數智人使用門檻、成本都大幅降低,但他們希望能“用跑車的性能,服務家用轎車的用戶”,通過綜合運用多項視覺AI技術,提升小樣本數智人品質,其中就包括高精度人像分割、光照優化、人像美化、視線矯正等。他舉例稱,當錄制視頻出現較暗、較朦等情況,小樣本數智人可以通過光照優化技術進行亮度提升,也能通過高精度的人像美化提升皮膚質感。
在聲音復刻方面,基于騰訊自研的新一代小樣本音色定制技術,依托深度學習的聲學模型及神經網絡聲碼器,小樣本數智人改善了傳統聲學模型語音韻律單一,語調平淡的問題,讓語音合成更加精細化。例如,一段文字中哪里該讀重音、哪里情緒有變化等因素,都會經由AI訓練識別,復現個人音色以及表達風格,最終實現接近本人的自然表達。
此外,通過構建大規模高質量音色數據的預訓練基底模型,未來小樣本數智人還將支持用戶只錄制普通話,即可合成英文及方言語音。
目前,騰訊云智能數智人已經覆蓋3D寫實、3D半寫實、3D卡通、2D真人、2D卡通五種形象風格,可實現超細微面部情感表情以及數百種肢體動作,支持形象資產管理、業務服務配置及內容生產相關服務,以滿足不同場景下的服務需求。作為數智員工,騰訊云智能數智人已成功“入職”傳媒、金融、出行、文旅、政務等多個行業,依托新一代的多模態人機交互系統,同時連接騰訊豐富的內容和服務生態,實現從“數字人”智能升級到“數智人”。
未來,面向數智人應用,騰訊云智能將不斷通過CV、TTS、NLP、ASR等多項自研AI技術,推動數智人服務更廣泛落地,以“普惠化”服務走入千行百業。