8月19日,中國圖象圖形大會CCIG 2022在成都召開。百度集團副總裁、深度學習技術及應用國家工程研究中心副主任吳甜在會上發表《跨模態大模型技術創新與實踐》主題演講,并正式發布AI藝術和創意輔助平臺——文心·一格,這是百度依托飛槳、文心大模型的技術創新推出的“AI作畫”首款產品。
(百度集團副總裁、深度學習技術及應用國家工程研究中心副主任吳甜)
文心·一格為藝術創想插上科技羽翼,人人都能成為“藝術家”
人學習作畫一般得從基本功練起,大體上包括線條、色彩、明暗、形體、結構、透視、構圖和空間。要想畫得出眾,除了日積月累勤奮練習,還需要一些天賦,以及對世界的精細觀察和創作者獨特的創想。這讓大部分人只能當畫作的觀賞者而非創作者。但是,隨著深度學習、大模型等技術的發展,AI 能夠在極短的時間內“創造”出不同風格的畫作,大幅降低了作畫的門檻,讓人人都能成為“藝術家”。
文心·一格是基于文心大模型的文生圖系統實現的產品化創新。在文心·一格官網(yige.baidu.com),用戶只需輸入自己的創想文字,并選擇期望的畫作風格,即可快速獲取由一格生成的相應畫作。官網資料顯示,文心·一格現已支持國風、油畫、水彩、水粉、動漫、寫實等十余種不同風格高清畫作的生成,還支持不同的畫幅選擇。
文心·一格創作的藝術畫
文心·一格創作的創意畫
文心·一格面向的用戶人群非常廣泛。它既能啟發畫師、設計師、藝術家等專業視覺內容創作者的靈感,輔助其進行藝術創作,還能為媒體、作者等文字內容創作者提供高質量、高效率的配圖。此外,文心·一格更是為大眾用戶提供了一個零門檻繪畫創作平臺,讓每個人都能展現個性化格調,享受藝術創作的樂趣。
文心·一格背后的跨模態大模型技術與系統創新
吳甜表示,數據的井噴式增長、算力的持續突破、算法的持續創新為人工智能帶來新機遇,預訓練大模型憑借優越的泛化性、通用性和應用效果,成為人工智能發展的重要方向。跨模態大模型是在技術發展和產業實踐中孕育而出的,也是百度文心知識增強大模型面向產業應用持續創新及建設的重要方向。
面對日益增長的內容創作需要,如何準確理解用戶需求,進而精準刻畫并滿足多樣化風格、高質量生成的要求是技術要解決的關鍵挑戰。文心知識增強跨模態理解大模型在模型創新方面,提出基于多視角對比學習的ERNIE-ViL 2.0,在預訓練過程能夠同時學習模態間和模態內的多種關聯性,提升“圖像”和“文本”跨模態語義匹配效果。知識增強跨模態圖文生成大模型ERNIE-ViLG,將“文生成圖”和“圖生成文”任務融合到同一個模型進行端到端學習,從而增強文本和圖像的跨模態語義對齊。在此次CCIG 2022會上,吳甜還分享了ERNIE-ViLG文圖生成算法的升級,通過漸進式擴散模型,生成空間由小及大、生成輪廓由粗到細,同時根據生成階段自動選擇最優生成網絡,文本生成圖像的效果取得進一步提升。
新技術在產業實踐中應用并創造出價值必須要足夠實用化。因此,百度基于文心大模型進行了系統創新,研發了支持AI作畫的文生圖系統,提供了從用戶需求理解到滿足的全流程解決方案。首先,基于知識的Prompt工程,理解用戶需求并在此基礎上豐富語義細節,降低用戶輸入描述成本。其次,基于擴散生成算法實現創意寫實與恢弘構圖的藝術畫作生成。最后,基于跨模態匹配大模型進行生成畫作的結果排序,自動選出語義與美觀度最佳的畫作。
從技術創新到系統創新再到產品化創新,這一體系性的創新得益于飛槳產業級深度學習平臺的夯實有力支撐。飛槳的端到端自適應分布式訓練技術、4D混合并行策略、對異構硬件的自適應并行支持,錘煉出框架與算力、算法相結合三位一體的大模型訓練優勢。飛槳的自動模型壓縮工具、自適應分布式推理技術,更是大幅節約了機器資源,讓大模型的部署更加高效、便捷,能真正落地應用。
吳甜認為,新技術應用于場景,需要從基礎算法、技術系統、工程平臺多方面同時創新,文心·一格就是依托于多項新技術綜合創新的產品。
除了推出一格這樣的AI藝術和創意輔助平臺,文心跨模態大模型還為廣大開發者、科技愛好者提供了飛槳開源工具和API服務能力,滿足開發者靈活探索等需求。對靈活性需求更高的開發者,可以使用飛槳的開源工具PaddleHub基于文圖生成開源算法極簡開發,并完成模型的管理和一鍵預測。對便捷性需求更高的開發者,可以使用文心ERNIE-ViLGAPI(https://wenxin.baidu.com/moduleApi/ernieVilg),極速獲得沉浸式文圖生成大模型的技術體驗,更可靈活方便、高效地實現產品集成。
據了解,為了幫助更多行業用戶清晰了解、輕松應用基于大模型技術的AIGC能力,百度飛槳文心大模型已在8月開設AIGC系列公開課,課程深入淺出、體系全面并配套豐富的實踐資源。
讓機器具備跨越文本、圖像等多種模態的復雜場景理解與生成能力,是人工智能的重要目標之一,也是數字時代科技與產業深度融合創新,催生新業態新模式,加快產業智能化升級的新動能。人工智能在藝術領域的學習與創作能力正以蓬勃之勢不斷刷新我們的認知,同時也讓公眾對科技與藝術及文化的融合創新有了更大的想象空間。文心大模型正在成為推動AIGC(人工智能生成內容)發展的新引擎,基于文心大模型的AIGC將會帶來創新性的探索,并賦能到廣泛的行業領域。