谷歌最新AR/VR專利提出單個RGBD攝像頭進行體三維捕捉

VR/AR

2020

11/09

20:21

映維網(wǎng)

評論

來源：映維網(wǎng) 作者夢秋

復雜的捕獲設(shè)備可用于生成非常高質(zhì)量的人類體三維重建。這種系統(tǒng)主要依靠昂貴的高端基礎(chǔ)設(shè)施來處理捕獲的大量數(shù)據(jù)。由于每幀需要數(shù)分鐘的計算時間，所以當前的技術(shù)不適合實時應(yīng)用。

關(guān)于“volumetric”翻譯：

volumetric是volume的變形，主要含義指“體積”，是一種“體積”上度量。行業(yè)常見翻譯“容積”是一種錯誤的翻譯，映維網(wǎng)也曾錯誤用過。“容積（容量）”在英語中一般用 capacity 來表達，而不是用volume 。

假設(shè)一個金字塔體積是A，內(nèi)部容量（容積）是B，金字塔墻壁的體積是C，則A=B+C。如果對該金字塔進行volumetric度量，那結(jié)果是跟A相關(guān)的，但如果翻譯成“容積”結(jié)果就是跟B相關(guān)，所以用“容積”是不對的。一個物體有體積，但不一定有容積。在計算機里，volumetric指三維立體上的度量，相關(guān)詞組映維網(wǎng)最早在2015年翻譯成“體式/體式三維/體式視頻”等，后經(jīng)多次反復研究論證后，統(tǒng)一簡化成更恰當直觀的“體三維”，也更有專業(yè)術(shù)語的味道。

另一種進行人類體三維重建的方法是將實時非剛性融合管道擴展到多視圖捕獲設(shè)置中。然而，相關(guān)的結(jié)果存在幾何失真、紋理質(zhì)量差和光照不準確等問題，難以達到增強現(xiàn)實/虛擬現(xiàn)實應(yīng)用所要求的質(zhì)量水平。

針對這個問題，谷歌正在積極探索可行的實時解決方案。

美國專利商標局日前公布了一份名為“Volumetric Capture Of Objects With A Single Rgbd Camera”的專利申請。其中，谷歌描述了一種利用單個RGBD攝像頭對對象進行體三維捕捉的方法和系統(tǒng)。

在一個實施例中，一種方法包括使用單個RGBD攝像頭接收包括顏色數(shù)據(jù)和深度數(shù)據(jù)的第一圖像；確定與顯示第二圖像的增強現(xiàn)實和/或虛擬現(xiàn)實顯示器相關(guān)聯(lián)的視點；接收包括第一圖像中的對象的至少一個校準圖像；并且根據(jù)所述第一圖像、所述視點和所述至少一個校準圖像生成第二圖像。

在一個實施例中，所述的至少一個校準圖像可以是對象的輪廓圖像。第二圖像的生成可以包括，通過將二維關(guān)鍵點映射到與至少一個校準圖像相關(guān)聯(lián)的深度數(shù)據(jù)的相應(yīng)三維點，確定對象的目標姿態(tài)。第二圖形的生成同時可以包括，使用卷積神經(jīng)網(wǎng)絡(luò)將所述至少一個校準圖像和所述對象的目標姿態(tài)作為輸入，通過在所述至少一個校準圖像中翹曲所述對象來生成所述第二圖像。

進一步而言，第二圖像的生成可以包括，在具有至少一個校準圖像作為輸入的卷積神經(jīng)網(wǎng)絡(luò)的第一通道中生成至少一個部分掩模（Part Mask），在卷積神經(jīng)網(wǎng)絡(luò)的第一通道中生成至少一個部分圖像（Part-Image）。然后，卷積神經(jīng)網(wǎng)絡(luò)將至少一個部分掩模和至少一個部分圖像作為輸入，并在第二通道中生成第二圖像。第二圖像的生成可以包括使用卷積神經(jīng)網(wǎng)絡(luò)的兩個通道，所述卷積神經(jīng)網(wǎng)絡(luò)通過最小化與對象翹曲相關(guān)的至少兩個損失來訓練。可以使用神經(jīng)網(wǎng)絡(luò)混合第二圖像以生成第二圖像的缺失部分。第二圖像可以是對象的輪廓圖像。所述方法同時包括將第二圖像與背景圖像合并。

在一個實施例中，所述方法同時可以包括預(yù)處理階段。在預(yù)處理階段中，可以在對象姿態(tài)改變的同時捕獲多個圖像；將所述多個圖像存儲為至少一個校準圖像；根據(jù)目標姿態(tài)為所述至少一個校準圖像中的每一個生成相似性得分；以及根據(jù)相似度得分從所述至少一個校準圖像中選擇所述至少一個校準圖像。

簡單來說，系統(tǒng)可以首先通過RGBD攝像頭捕獲包含顏色數(shù)據(jù)和深度數(shù)據(jù)的第一圖像并確定第一圖像中的對象的姿態(tài)；系統(tǒng)可以同時根據(jù)眼動追蹤確定用戶的視點；根據(jù)對象姿態(tài)和用戶視點，系統(tǒng)可以確定校準圖像；最后，根據(jù)第一圖像、用戶視點和校準圖像，系統(tǒng)利用卷積神經(jīng)網(wǎng)絡(luò)實時生成在AR/VR顯示器顯示的第二圖像。其中，第二圖像為體三維多視圖圖像。

谷歌在專利中寫道：“通過利用卷積神經(jīng)網(wǎng)絡(luò)，單個RGBD攝像頭可以實時地捕獲和儲存校準圖像，并用于為增強現(xiàn)實和虛擬現(xiàn)實生成高質(zhì)量的體三維重建多視圖圖像。”

相關(guān)專利：Volumetric Capture Of Objects With A Single Rgbd Camera

名為“Volumetric Capture Of Objects With A Single Rgbd Camera（使用單個RGBD攝像頭對對象進行體三維捕捉）”的谷歌專利申請最初在2020年4月提交，并在日前由美國專利商標局公布。需要注意的是，這只是一份專利申請，尚不確定實際的應(yīng)用效果，而且不確定谷歌是否會或?qū)⒂诤螘r商業(yè)化所述的發(fā)明技術(shù)。

原文鏈接：https://yivian.com/news/79741.html

THE END

廣告、內(nèi)容合作請點擊這里尋求合作

免責聲明：本文系轉(zhuǎn)載，版權(quán)歸原作者所有；旨在傳遞信息，不代表砍柴網(wǎng)的觀點和立場。