來(lái)源:映維網(wǎng) 作者 夢(mèng)秋
復(fù)雜的捕獲設(shè)備可用于生成非常高質(zhì)量的人類(lèi)體三維重建。這種系統(tǒng)主要依靠昂貴的高端基礎(chǔ)設(shè)施來(lái)處理捕獲的大量數(shù)據(jù)。由于每幀需要數(shù)分鐘的計(jì)算時(shí)間,所以當(dāng)前的技術(shù)不適合實(shí)時(shí)應(yīng)用。
關(guān)于“volumetric”翻譯:
volumetric是volume的變形,主要含義指“體積”,是一種“體積”上度量。行業(yè)常見(jiàn)翻譯“容積”是一種錯(cuò)誤的翻譯,映維網(wǎng)也曾錯(cuò)誤用過(guò)。“容積(容量)”在英語(yǔ)中一般用 capacity 來(lái)表達(dá),而不是用volume 。
假設(shè)一個(gè)金字塔體積是A,內(nèi)部容量(容積)是B,金字塔墻壁的體積是C,則A=B+C。如果對(duì)該金字塔進(jìn)行volumetric度量,那結(jié)果是跟A相關(guān)的,但如果翻譯成“容積”結(jié)果就是跟B相關(guān),所以用“容積”是不對(duì)的。一個(gè)物體有體積,但不一定有容積。 在計(jì)算機(jī)里,volumetric指三維立體上的度量,相關(guān)詞組映維網(wǎng)最早在2015年翻譯成“體式/體式三維/體式視頻”等,后經(jīng)多次反復(fù)研究論證后,統(tǒng)一簡(jiǎn)化成更恰當(dāng)直觀(guān)的“體三維”,也更有專(zhuān)業(yè)術(shù)語(yǔ)的味道。
另一種進(jìn)行人類(lèi)體三維重建的方法是將實(shí)時(shí)非剛性融合管道擴(kuò)展到多視圖捕獲設(shè)置中。然而,相關(guān)的結(jié)果存在幾何失真、紋理質(zhì)量差和光照不準(zhǔn)確等問(wèn)題,難以達(dá)到增強(qiáng)現(xiàn)實(shí)/虛擬現(xiàn)實(shí)應(yīng)用所要求的質(zhì)量水平。
針對(duì)這個(gè)問(wèn)題,谷歌正在積極探索可行的實(shí)時(shí)解決方案。
美國(guó)專(zhuān)利商標(biāo)局日前公布了一份名為“Volumetric Capture Of Objects With A Single Rgbd Camera”的專(zhuān)利申請(qǐng)。其中,谷歌描述了一種利用單個(gè)RGBD攝像頭對(duì)對(duì)象進(jìn)行體三維捕捉的方法和系統(tǒng)。
在一個(gè)實(shí)施例中,一種方法包括使用單個(gè)RGBD攝像頭接收包括顏色數(shù)據(jù)和深度數(shù)據(jù)的第一圖像;確定與顯示第二圖像的增強(qiáng)現(xiàn)實(shí)和/或虛擬現(xiàn)實(shí)顯示器相關(guān)聯(lián)的視點(diǎn);接收包括第一圖像中的對(duì)象的至少一個(gè)校準(zhǔn)圖像;并且根據(jù)所述第一圖像、所述視點(diǎn)和所述至少一個(gè)校準(zhǔn)圖像生成第二圖像。
在一個(gè)實(shí)施例中,所述的至少一個(gè)校準(zhǔn)圖像可以是對(duì)象的輪廓圖像。第二圖像的生成可以包括,通過(guò)將二維關(guān)鍵點(diǎn)映射到與至少一個(gè)校準(zhǔn)圖像相關(guān)聯(lián)的深度數(shù)據(jù)的相應(yīng)三維點(diǎn),確定對(duì)象的目標(biāo)姿態(tài)。第二圖形的生成同時(shí)可以包括,使用卷積神經(jīng)網(wǎng)絡(luò)將所述至少一個(gè)校準(zhǔn)圖像和所述對(duì)象的目標(biāo)姿態(tài)作為輸入,通過(guò)在所述至少一個(gè)校準(zhǔn)圖像中翹曲所述對(duì)象來(lái)生成所述第二圖像。
進(jìn)一步而言,第二圖像的生成可以包括,在具有至少一個(gè)校準(zhǔn)圖像作為輸入的卷積神經(jīng)網(wǎng)絡(luò)的第一通道中生成至少一個(gè)部分掩模(Part Mask),在卷積神經(jīng)網(wǎng)絡(luò)的第一通道中生成至少一個(gè)部分圖像(Part-Image)。然后,卷積神經(jīng)網(wǎng)絡(luò)將至少一個(gè)部分掩模和至少一個(gè)部分圖像作為輸入,并在第二通道中生成第二圖像。第二圖像的生成可以包括使用卷積神經(jīng)網(wǎng)絡(luò)的兩個(gè)通道,所述卷積神經(jīng)網(wǎng)絡(luò)通過(guò)最小化與對(duì)象翹曲相關(guān)的至少兩個(gè)損失來(lái)訓(xùn)練??梢允褂蒙窠?jīng)網(wǎng)絡(luò)混合第二圖像以生成第二圖像的缺失部分。第二圖像可以是對(duì)象的輪廓圖像。所述方法同時(shí)包括將第二圖像與背景圖像合并。
在一個(gè)實(shí)施例中,所述方法同時(shí)可以包括預(yù)處理階段。在預(yù)處理階段中,可以在對(duì)象姿態(tài)改變的同時(shí)捕獲多個(gè)圖像;將所述多個(gè)圖像存儲(chǔ)為至少一個(gè)校準(zhǔn)圖像;根據(jù)目標(biāo)姿態(tài)為所述至少一個(gè)校準(zhǔn)圖像中的每一個(gè)生成相似性得分;以及根據(jù)相似度得分從所述至少一個(gè)校準(zhǔn)圖像中選擇所述至少一個(gè)校準(zhǔn)圖像。
簡(jiǎn)單來(lái)說(shuō),系統(tǒng)可以首先通過(guò)RGBD攝像頭捕獲包含顏色數(shù)據(jù)和深度數(shù)據(jù)的第一圖像并確定第一圖像中的對(duì)象的姿態(tài);系統(tǒng)可以同時(shí)根據(jù)眼動(dòng)追蹤確定用戶(hù)的視點(diǎn);根據(jù)對(duì)象姿態(tài)和用戶(hù)視點(diǎn),系統(tǒng)可以確定校準(zhǔn)圖像;最后,根據(jù)第一圖像、用戶(hù)視點(diǎn)和校準(zhǔn)圖像,系統(tǒng)利用卷積神經(jīng)網(wǎng)絡(luò)實(shí)時(shí)生成在AR/VR顯示器顯示的第二圖像。其中,第二圖像為體三維多視圖圖像。
谷歌在專(zhuān)利中寫(xiě)道:“通過(guò)利用卷積神經(jīng)網(wǎng)絡(luò),單個(gè)RGBD攝像頭可以實(shí)時(shí)地捕獲和儲(chǔ)存校準(zhǔn)圖像,并用于為增強(qiáng)現(xiàn)實(shí)和虛擬現(xiàn)實(shí)生成高質(zhì)量的體三維重建多視圖圖像。”
相關(guān)專(zhuān)利:Volumetric Capture Of Objects With A Single Rgbd Camera
名為“Volumetric Capture Of Objects With A Single Rgbd Camera(使用單個(gè)RGBD攝像頭對(duì)對(duì)象進(jìn)行體三維捕捉)”的谷歌專(zhuān)利申請(qǐng)最初在2020年4月提交,并在日前由美國(guó)專(zhuān)利商標(biāo)局公布。需要注意的是,這只是一份專(zhuān)利申請(qǐng),尚不確定實(shí)際的應(yīng)用效果,而且不確定谷歌是否會(huì)或?qū)⒂诤螘r(shí)商業(yè)化所述的發(fā)明技術(shù)。
原文鏈接:https://yivian.com/news/79741.html