今日訊!【直播紀(jì)要】AIGC有哪些新看點?| 見智研究
特邀嘉賓:凌云光技術(shù)股份有限公司董事/副總經(jīng)理【楊藝】、凌云光技術(shù)股份有限公司BU總經(jīng)理【熊偉】
(資料圖片僅供參考)
摘要:
1、AIGC為什么火了?
AIGC是從文字、聲音、還有圖畫等二維層面的應(yīng)用陸續(xù)發(fā)展起來。目前人們更關(guān)心AIGC在三維世界中能做什么?首先要將技術(shù)數(shù)字化,自動化,最后達(dá)到智能化。AIGC能夠通過虛擬數(shù)字人得到一次重大的發(fā)展。
2、數(shù)字人上用到AIGC技術(shù)僅有一成
虛擬人的主要制作過程包括:建模、驅(qū)動,渲染。目前AI能占10%的輔助作用。非常期待AI的參與能力能夠達(dá)到90%,這樣就能提高節(jié)目制作效率。還需要幾次技術(shù)的質(zhì)變才能達(dá)到從10%到90%的利用率提升。
3、數(shù)字人制作成本在快速下降
之前制作一個15分鐘渲染的沉浸體驗式節(jié)目,需要700w元的制作成本。現(xiàn)在基本上可以實現(xiàn)每分鐘10w元。未來希望能夠?qū)崿F(xiàn)每分鐘1w元,甚至每分鐘幾千元的價格。
4、產(chǎn)業(yè)鏈的核心環(huán)節(jié)是什么?
虛擬內(nèi)容制作中,大量的成本是在資產(chǎn)創(chuàng)作環(huán)節(jié)。比如說數(shù)字人三維模型以及基礎(chǔ)動畫的創(chuàng)建,是最重要的資產(chǎn)內(nèi)容。
正文:
見智研究:
AIGC為什么在當(dāng)下突然火了,還掀起了全民熱潮?
楊藝:
在互聯(lián)網(wǎng)上原來是有UGC、PGC,現(xiàn)在很開心看到大家把AIGC也放在里面。AIGC首先是分成兩段,先是AI,然后才是GC,也就是用AI來generate content。
現(xiàn)在虛擬現(xiàn)實和元宇宙等更多指向三維世界的創(chuàng)造是大家非常關(guān)心的話題,然而AIGC其實在過去是從文字、聲音、還有圖畫、和平等二維世界陸續(xù)發(fā)展起來。
最近一段時間,二維世界中的AIGC也有了非常好的技術(shù)進(jìn)步甚至能達(dá)到以假亂真的個程度。
我們現(xiàn)在更關(guān)心在三維世界里,AI到底能為我們做什么?
現(xiàn)在的AIGC在三維世界中能承擔(dān)的角色還比較少。所有的技術(shù)首先要將它數(shù)字化,再自動化,最后達(dá)到智能化。
而現(xiàn)在的AI技術(shù)在三維世界里處理點云,再轉(zhuǎn)換到自動化的內(nèi)容,整個制作的過程我們還沒有掌握出很好的規(guī)律,所以AI暫時是幫不上什么大忙,更多是在信息采集及處理時候的一些輔助作用。
所以AIGC目前在三維世界里的作用還比較有限,但比較可喜的事就是出現(xiàn)了虛擬數(shù)字人。
虛擬數(shù)字人就相等于做出了三維的形象,并且能放在虛擬世界里。聲音與文字又作為載體讓AIGC在三維空間中釋放出活力。所以我們非常期待AIGC能夠通過虛擬數(shù)字人得到一次重大的發(fā)展。
見智研究:
AIGC目前用在了數(shù)字人制作的哪些方面?
楊藝:
首先要進(jìn)行建模,建模了之后要驅(qū)動,驅(qū)動之后要基于各種環(huán)境進(jìn)行渲染。在用光場技術(shù)獲取點云的時候還會經(jīng)常出現(xiàn)一些干擾。
當(dāng)需要進(jìn)行修補(bǔ)工作的時候,AI技術(shù)可以很好地加速修補(bǔ)這樣的自動化工作。在驅(qū)動過程中,從動作采集到自動驅(qū)動甚至智能化驅(qū)動,AI技術(shù)也能比較好地發(fā)揮它的作用。
另外我們都知道渲染是需要很多適應(yīng)光的照明條件,目前AI只能占到建模渲染驅(qū)動上10%的輔助作用。
我們非常期待它的參與能力能夠達(dá)到90%,這樣就能大幅的加快節(jié)目制作的效率。我們還在不斷地打磨,還需要幾次技術(shù)的質(zhì)變才能達(dá)到從10%到90%的利用率的提升。
進(jìn)行渲染的工具是比較復(fù)雜的。首先在裝備上需要做的穩(wěn)定可靠,獲得的信息要完整,而且它還要軟件結(jié)合,和軟件也結(jié)合在一起,這是一個工具基礎(chǔ)建設(shè)裝備的過程。所以在這十年中,我們有了這些基礎(chǔ),就有幸參與到了整個虛擬數(shù)字人的成長階段。
在世界 VR 大會上發(fā)布了對虛擬數(shù)字人的定義:
第一個 level 就是三維建模,首先,先獲得一個數(shù)字人的形象,基本上是用來做平面宣傳,相對偏靜態(tài)的;
第二個 level就是我們跟動作已經(jīng)綁定在一起了,所以他需要采集和動作合在一起;
第三個level就開始要形成很好的實時渲染能力,能夠?qū)崟r表演;
第四個 level是要有 AI 的能力,比如說像冬奧手語,數(shù)字人之類直接來進(jìn)行回答你的問題;
第五個 level我們定義為是需要智能,不僅能夠有 AI 的知識,還能夠進(jìn)行交互,而且在交互的時候你能懂得他的表情,他也能夠懂得一些你的語氣語義所帶來的這種含義。
目前,虛擬數(shù)字人制作起來超級貴,甚至達(dá)到千萬級別,我們基本上做一些名人的數(shù)字人,比如說去制造鄧麗君,梅蘭芳大師等,制作過程非常精細(xì),甚至需要帶著一定的微表情,基本上都要手動去每幀去調(diào)整,然后每個面片每個面片去綁定,所以成本就是非常昂貴。
當(dāng)然,不同的 level 的追求和費用是不一樣的,而且它背后牽扯到的技術(shù)還沒有達(dá)到全自動,這個效率又決定了費用的提高。
目前我們開發(fā)這么多的裝備和軟件以及算法,就是為了讓工作效率提升,未來用 10 萬級的成本就能夠?qū)崿F(xiàn)現(xiàn)在百萬級的數(shù)字人效果。這是未來一年到兩年的時間我們的主要的奮斗目標(biāo)。
見智研究:
未來要實現(xiàn)這種級別的跨越,可能會涉及到哪些軟硬件升級?
楊藝:
首先在數(shù)據(jù)采集這個層面上,最初都是用3D的照明,相當(dāng)于數(shù)字人的采集系統(tǒng)。
它是用復(fù)雜的散斑照明系統(tǒng),來模擬各種環(huán)境光的照明,甚至還增加偏振,讓各種色彩維度的信息的能夠模擬,包括人臉上的皮膚發(fā)質(zhì)等等在不同的環(huán)境下能夠被很好地適應(yīng)。
在今年年底,在研的last stage 的產(chǎn)品就能夠比較好地服務(wù)于我們的應(yīng)用,整個后面的渲染工作就可以從原來完全無法自動化向自動化推進(jìn)一些。
另外,我們希望動作捕捉系統(tǒng)能夠有更高的精度,同時在算法軟件上,也就是運用一些 AI 的技術(shù),把我們大量采集到的數(shù)據(jù)中獲得的一些噪聲和干擾能夠比較充分的剔除掉。
這樣獲得的數(shù)據(jù)能夠比較好的推動自動驅(qū)動和自動綁定技術(shù),所以算法工作,還有的硬件裝備的提升,對整個工作的自動化的提高,會產(chǎn)生很大的推進(jìn)效果。
而且的話我覺得我們比較有幸能看到,在渲染引擎上,無論是國內(nèi)還是國際,尤其是國際的UE ,從 UE 4 到現(xiàn)在的UE 5確實是在數(shù)字人這個層面上的后期升層過程中已經(jīng)是非常友好,都高了很多,所以這些話合在一起的話,能夠讓數(shù)字人更加逼真性和寫實。
見智研究:
數(shù)字人距離大規(guī)模的商用還有多遠(yuǎn)呢?
熊偉:
虛擬人在音樂主播、線上表演、電商直播、教育、銀行客服等方面都已經(jīng)在展開。但是制作成本相對來講比較高的。
隨著這兩年AI的制作技術(shù)的大幅提升以后,數(shù)字人無論在形象上,還是解決問題的能力上會越來越滿足大規(guī)模商業(yè)化的需求,未來兩到三年的這個時間之內(nèi)可以實現(xiàn)的。
之前湖南博物館的項目經(jīng)驗,制作一個 15 分鐘的一個深度沉浸體驗式的節(jié)目,需要700w元的成本。
現(xiàn)在我們基本上可以做到每分鐘達(dá)到 10 w元。但我們的目標(biāo)是希望未來能夠?qū)崿F(xiàn)每分鐘1 萬,甚至每分鐘可以幾千元。這樣的話,會迎來比較規(guī)?;纳虡I(yè)到來。
見智研究:
數(shù)字人產(chǎn)業(yè)鏈?zhǔn)侨绾蝿澐值模?/p>
熊偉:
從創(chuàng)造數(shù)字內(nèi)容或者是我們沉浸式角度來講的話,大概可以分為四個層級。
那基礎(chǔ)的層級就是通信,運算, GPU 運算、 CPU 運算,云計算、區(qū)塊鏈等底層技術(shù)。
在上一層是交互體驗終端,像是XR、3D顯示。
然后再上一層就是創(chuàng)作內(nèi)容,包括內(nèi)容制作工具,內(nèi)容制作的團(tuán)隊,創(chuàng)造 IP的團(tuán)隊。
頂層,就是應(yīng)用以及運營分發(fā)平臺了。
見智研究:
這個行業(yè)的核心的競爭力是什么?
熊偉:
未來其實整個數(shù)字人的平臺的制作,它其實是一個多環(huán)節(jié)組成的,就是我們剛剛前面說的這種關(guān)鍵技術(shù),是里面一個很重要的核心點。
當(dāng)然整個數(shù)字 IP 打造是另外一個核心點,就是說最后我們要創(chuàng)造這種普通的真人藝人一樣。那你數(shù)字人怎么讓一個藝人成名怎么有價值,這也是非常重要的事情。
最后就是我們也要讓他有真正的一些商業(yè)的鏈接去做。
當(dāng)然前期我們覺得目前真正卡住數(shù)字人以及這種虛擬現(xiàn)實產(chǎn)業(yè)往前發(fā)展的地方還是在技術(shù)環(huán)節(jié)。
因為這么多年,原來我們創(chuàng)作內(nèi)容還是位于那種影視游戲這種離線內(nèi)容創(chuàng)作來用的。但是到了元宇宙虛擬現(xiàn)實環(huán)節(jié),我們的內(nèi)容大量是要實時交互的,它要一個更加高效的創(chuàng)造內(nèi)容的情況,才能讓我們的產(chǎn)業(yè)大面積商業(yè)化。
這部分就是我們剛剛說到了還有很多要走的路,它能夠讓它變成未來像我們今天看到的短視頻這種媒體大面產(chǎn)生的狀況,這個是我們要去突破的地方。
見智研究:
創(chuàng)作數(shù)字人過程中,哪一個環(huán)節(jié)的技術(shù)迭代是最重要的?
熊偉:
我覺得有多個技術(shù)環(huán)節(jié)都很重要。但是我覺得就是像底層那些渲染這些引擎,游戲。
但是本身數(shù)字人的資產(chǎn)創(chuàng)建環(huán)節(jié),這是里面最核心的,其實我們整個虛擬內(nèi)容產(chǎn)生的里面大量的成本是在資產(chǎn)創(chuàng)作的環(huán)節(jié),就比如說我們數(shù)字人三維模型以及它的一些基礎(chǔ)動畫的創(chuàng)建環(huán)節(jié),這是它的最重要的資產(chǎn)內(nèi)容。
好在是我們現(xiàn)在就是有這樣的光場重建技術(shù),它是相當(dāng)于能夠把我們現(xiàn)實世界當(dāng)中所有的物體反射出來的光線信息全部收集起來的技術(shù)。
然后這樣計算出它人體或者物體表現(xiàn)的這種特性的信息以后,然后把它輸入給引擎,我們渲染引擎就可以完全 1 比 1 的還原出我們的所有物體。
但是這種之前都是靠人工一點點的去靠他自己理解去做出來的,這種效率就很低,真實度也很難保障。
而有了這種光場呈樣技術(shù),未來就可以大量存在。而且在現(xiàn)在的光場成像技術(shù)以后,還有了未來升級的空間,就是用 AI 去生成光場,原來我們光場是靠光學(xué)技術(shù)去還原去計算得到的,這個對于整個光學(xué)系統(tǒng)要求很高很精密。
但是我們通過積累大量的高精度光場數(shù)據(jù),采集數(shù)據(jù)庫以后,我們用 AI 學(xué)習(xí),將來可以更加輕量化的去產(chǎn)生我們大量內(nèi)容,這讓我們的數(shù)字生產(chǎn)能夠更加高效、更加低成本的產(chǎn)生。
楊藝:
光場采集系統(tǒng)可能對很多聽眾來說都很陌生的詞。
可以這樣去理解,就是說我們是過去拍照片,那整體上都是從一個角度來對大家進(jìn)行拍照。
但事實上我們真正活在這個世界里面的光是從各個維度來去,就是照到我們每個物體,每個人,都是這樣。而且光所帶來的信息不僅僅是強(qiáng)度、顏色,還有非常多的光譜信息、偏正態(tài)的信息,還有很多時序?qū)用嫔系男畔ⅰ?br />
其實光本身實際上是里面有很多的高維度的信息,然后我們用光場采集系統(tǒng),就是把這些高維度的信息也要把它模擬出來。實際上這就是我們?yōu)槭裁丛诂F(xiàn)實生活中,我們?nèi)说难劬吹降氖澜缙鋵嵾€是蠻豐富多彩的,還蠻細(xì)膩的。
但是我們單純用我們原來的相機(jī)成像傳感器,實際上拍到的信息是達(dá)不到那樣的效果的。這就是需要要把人眼睛所能感知到的高維度的信息,也能用數(shù)學(xué)和裝備的方式把它解算出來。可能將來就是現(xiàn)在學(xué)光學(xué)的年輕人已經(jīng)越來越知道,計算成像已經(jīng)不再是陌生的詞了。我們當(dāng)時讀大學(xué)的時候,這都還不是我們學(xué)習(xí)的知識內(nèi)容。光場是把立體的事物數(shù)字化的,實際上相當(dāng)于是信息采集的靈魂。
所以我們這個地方是可能今天先理解一下這個詞的存在,然后光場技術(shù)的進(jìn)步,還有它的解算能力是里面一個信息采集的源頭,一定是好的 information 再經(jīng)過處理就能得到好的結(jié)果。所以就信息的源頭的豐富性是清晰處理的關(guān)鍵。
見智研究:
未來隨著數(shù)字人滲透率的提高,我們還會在哪些領(lǐng)域看到數(shù)字人的應(yīng)用?
熊偉:
數(shù)字人早期偏娛樂應(yīng)用,現(xiàn)在我們發(fā)現(xiàn)它可以從事非體力勞動,就是我們用腦力勞動的地方都可以用上數(shù)字人,它可以代替我們大量的人去做回答問題的重復(fù)性工作。
比如電商領(lǐng)域介紹商品,金融推薦產(chǎn)品,醫(yī)療領(lǐng)域、交通領(lǐng)域做簡單的問答,這都可以大量的去代替真人從事服務(wù)勞動。
隨著 AI 進(jìn)一步提升,將來可以代替?zhèn)€人去進(jìn)行陪護(hù)、交流以及更多表現(xiàn)力的工作。
見智研究:
可以分享一個數(shù)字人的制作案例嗎?
熊偉:
手語數(shù)字人的創(chuàng)立過程其實非常有意思。我們最早想的可能只是做一個能夠動起來的這個動畫,可能很多條件都是標(biāo)準(zhǔn)的固定詞匯,我們覺得可能還比一般的 AI簡單一點。但是后來發(fā)現(xiàn)它比一般的 AI動畫數(shù)字人難度更高。因為手語數(shù)字人對準(zhǔn)確性要求非常高。
一般 AI 的數(shù)字人其實只要表達(dá)出大體的情態(tài)、情緒是對的就行。但是手語數(shù)字人要傳達(dá)信息的每一個動作,每一個表情都要非常精準(zhǔn),而且要連成一段故事,是一段段完整的句子,這樣聾啞人才能看得懂。特別是我們還拿它來做新聞播報,準(zhǔn)確性要求就會更高。
所以我們做了大量的工作,才最終達(dá)到了我們真正在電視臺上面看到的這種冬奧手語數(shù)字人的自動播出。
這里面有我們前期大量的錄制的手語老師的標(biāo)準(zhǔn)動作,也有我們用 AI 的方式,去適應(yīng)聾啞人的這種語序語調(diào)。
它的整個句子的語法跟正常的口頭表達(dá)還不太一樣。在新聞播報的時候,由于手語是靠動作去表達(dá),而不是說出來,語速要比我們真人的說話語速要慢很多。要做到同步翻譯,還要對每一句話的信息縮減,提取關(guān)鍵詞才能夠趕上實時翻譯的速度。
這里面有很多的挑戰(zhàn),從我們的動作準(zhǔn)確性也好,從我們的 AI智能分解也好,都比往常提出了更高的要求。
通過不斷的修改,我們最后也達(dá)到了90% 以上的可懂度。在安全播出的過程中我們也有了很多實踐的驗證,會有專門的手語老師進(jìn)行這個新聞播出之前的審核,然后去確保所有手語動作的準(zhǔn)確性。最開始手語老師還擔(dān)心以后被替代,但后來我們發(fā)現(xiàn)手語數(shù)字人其實是緩解手語老師工作量的技術(shù)。原來一位手語老師可能參與30分鐘的節(jié)目播出就會滿頭大汗,這是一種體能的消耗?,F(xiàn)在可以連續(xù)審核幾個小時以上,甚至可以同時審核多檔節(jié)目,大大提高了工作效率。
見智研究:
不同類型數(shù)字人的創(chuàng)作的過程和技術(shù)支持有什么差異?
熊偉:
數(shù)字人直播帶貨的時候,其實是在數(shù)字人基礎(chǔ)上增加一個虛實融合的播出內(nèi)容。
現(xiàn)在純虛擬數(shù)字人跟真人的交互雖然讓大家有新鮮感,但同時又產(chǎn)生一些距離感和不真實的感覺。所以我們在創(chuàng)作的時候,比較多的會是去采用數(shù)字人和真人結(jié)合的一起播出的形式,更好地去跟觀眾進(jìn)行互動。在做這種節(jié)目的時候,需要在現(xiàn)場做出一種趨勢融合的直播系統(tǒng)。
通過專業(yè)的光學(xué)追蹤設(shè)備識別真人在什么位置,虛擬人在什么位置,虛擬場景在什么位置,最后把他們拍攝在一起。同時我們在虛擬主播的時候還需要解決在播出之后無人值守的問題。所以我們要產(chǎn)生相應(yīng)的一定的 AI 數(shù)字能力來實現(xiàn)數(shù)字人在真人主播下線的時候,還能夠代替真人主播的過程,做到24 小時不停播的效果。
見智研究:
數(shù)字人應(yīng)用最快落地可能是哪幾個領(lǐng)域?
熊偉:
數(shù)字人的應(yīng)用其實是一個從娛樂向產(chǎn)業(yè)的轉(zhuǎn)化過程。
目前來講主要還是應(yīng)用在娛樂的主播,我們的文旅,包括教育這些領(lǐng)域。主要是因為我們可以用真人驅(qū)動,就可以進(jìn)行表演進(jìn)行互動,就可以產(chǎn)生內(nèi)容的這種場景。而且可以更好的替代真人的形象,讓大家能產(chǎn)生親和力,生成的內(nèi)容也更加豐富度多樣化。
隨著我們給AI 的賦能變得越來越多,它也會被應(yīng)用到金融、醫(yī)療等更多的領(lǐng)域,但也賴于我們 AI 技術(shù)的一個成熟的發(fā)展的一個過程。我們相信隨著數(shù)字人越來越多,大家為數(shù)字人創(chuàng)造的數(shù)據(jù)庫、數(shù)據(jù)資產(chǎn)越來越多,我們AI 的進(jìn)步也會很快的。我相信在更多產(chǎn)業(yè)的應(yīng)用到來,也不會太久。
風(fēng)險提示及免責(zé)條款 市場有風(fēng)險,投資需謹(jǐn)慎。本文不構(gòu)成個人投資建議,也未考慮到個別用戶特殊的投資目標(biāo)、財務(wù)狀況或需要。用戶應(yīng)考慮本文中的任何意見、觀點或結(jié)論是否符合其特定狀況。據(jù)此投資,責(zé)任自負(fù)。關(guān)鍵詞: 輔助作用 采集系統(tǒng) 非常期待