DALL-E2可以說(shuō)是2022年最熱門AI繪畫模型之一,最近 OpenAI 剛剛發(fā)布一個(gè)功能似乎更為強(qiáng)大AI模型,可用于3D建模。

在12月16日提交的一篇論文中,OpenAI 團(tuán)隊(duì)描述Point-E稱,這是一種從復(fù)雜的文本提示生成3D 點(diǎn)云的方法。

利用Point-E,AI 愛好者可以跳過(guò)文本生成2D 圖像的階段,用文本生成3D模型。該項(xiàng)目也已在Github上開源,以及模型的各種參數(shù)數(shù)量的權(quán)重。

該模型只是使解決方案起作用的部分之一。論文的關(guān)鍵在于提出的通過(guò)適用于點(diǎn)云的擴(kuò)散方法創(chuàng)建3D 對(duì)象的方法。該算法的創(chuàng)建重點(diǎn)是虛擬現(xiàn)實(shí)、游戲和工業(yè)設(shè)計(jì),因?yàn)樗?D 對(duì)象的速度比當(dāng)前方法快600倍。

文本生成3D 模型目前有兩種工作方式。第一種是在具有3D 對(duì)象到文本配對(duì)的數(shù)據(jù)上訓(xùn)練生成模型。這導(dǎo)致無(wú)法理解更復(fù)雜的提示以及3D數(shù)據(jù)集的問(wèn)題。第二種方法是利用文本圖像模型來(lái)優(yōu)化提示的3D 表示的創(chuàng)建。

Point-E 結(jié)合了傳統(tǒng)的文本到3D 合成訓(xùn)練算法的方法。將兩個(gè)單獨(dú)的模型結(jié)合在一起,Point-E 可以減少創(chuàng)建3D 對(duì)象的數(shù)量。第一組算法是文本到圖像模型,類似 DALL-E2,它可以創(chuàng)建用戶給出的提示的圖像。然后將此圖像用作第二個(gè)模型的基礎(chǔ),該模型將圖像轉(zhuǎn)換為3D對(duì)象。

OpenAI 團(tuán)隊(duì)創(chuàng)建了一個(gè)包含數(shù)百萬(wàn)個(gè)3D 模型的數(shù)據(jù)集,再通過(guò) Blender 將其導(dǎo)出。然后對(duì)這些渲染進(jìn)行處理,將圖像數(shù)據(jù)提取為點(diǎn)云,這是表示3D物體合成密度的一種方式。經(jīng)過(guò)進(jìn)一步的處理,比如刪除平面對(duì)象和通過(guò)CLIP特征進(jìn)行聚類,數(shù)據(jù)集就可以被輸入View Synthesis GLIDE模型了。

接著,研究人員通過(guò)將點(diǎn)云表示為形狀的張量,創(chuàng)建了一種新的點(diǎn)云擴(kuò)散方法。然后,通過(guò)逐步去噪,將這些張量從隨機(jī)形狀削減到所需3D對(duì)象的形狀。該擴(kuò)散模型的輸出通過(guò)點(diǎn)云上采樣器運(yùn)行,以提高最終輸出的質(zhì)量。為了與常見的3D 應(yīng)用程序兼容,使用 Blender 將點(diǎn)云轉(zhuǎn)換為網(wǎng)格。

最后,這些網(wǎng)格可用于游戲、元宇宙應(yīng)用程序或其他3D 密集型任務(wù),如電影后期處理。雖然 DALL-E 已經(jīng)徹底改變了文本到圖像的生成過(guò)程,但 Point-E 的目標(biāo)是為3D 領(lǐng)域做同樣的事情。

Point-E的Github開源網(wǎng)址:https://github.com/openai/point-e