被無(wú)數(shù)人喜愛(ài)的樂(lè)高(LEGO)也有自己的 GPT AI 模型了,它的名字就叫 LEGOGPT,其由美國(guó)卡內(nèi)基梅隆大學(xué)助理教授朱俊彥團(tuán)隊(duì)打造而來(lái)。
據(jù)了解,這是首個(gè)根據(jù)文本提示生成物理上穩(wěn)定的 LEGO 積木模型的成果,也是首次將物理感知約束納入基于文本的 LEGO 生成的成果。
利用 LEGOGPT,研究團(tuán)隊(duì)做出了日式滑動(dòng)書(shū)柜。
也做出了賽博朋克風(fēng)格的紫色沙發(fā)。
以及做出了一把吉他。
LEGOGPT 既能設(shè)計(jì)出與文本描述相匹配的 LEGO 結(jié)構(gòu),還能確保這些結(jié)構(gòu)在現(xiàn)實(shí)世界中可以通過(guò)手工或機(jī)器人輔助實(shí)現(xiàn)逐塊搭建。
不同于以往人們嘗試的 LEGO 自主建模,LEGOGPT 能夠生成構(gòu)建 LEGO 作品的詳細(xì)步驟說(shuō)明,并且這些作品不會(huì)散架。
LEGOGPT 的工作原理是首先生成一序列位置精確的 LEGO 積木,對(duì)于序列中的每一塊新積木,系統(tǒng)都會(huì)確保它不會(huì)與現(xiàn)有的積木發(fā)生碰撞,并且能夠放入搭建空間之內(nèi)。完成設(shè)計(jì)之后,LEGOGPT 會(huì)使用數(shù)學(xué)模型來(lái)驗(yàn)證積木能否直立而不倒塌。
如果積木會(huì)在現(xiàn)實(shí)世界中倒塌,系統(tǒng)會(huì)識(shí)別出第一塊不穩(wěn)定的積木并加以回溯,進(jìn)而將它和所有后續(xù)積木移除,然后再?lài)L試不同的方法。這種“基于物理的回溯”方法至關(guān)重要,沒(méi)有它的時(shí)候只有 24% 的設(shè)計(jì)能保持站立,而有它的時(shí)候保持站立的比例高達(dá) 98.8%。
為了證明本次設(shè)計(jì)在現(xiàn)實(shí)生活中的可行性,研究人員讓機(jī)器臂組裝了由 AI 創(chuàng)建的 LEGO 模型。他們使用一個(gè)帶有力傳感器的雙機(jī)器人手臂系統(tǒng),根據(jù) AI 生成的指令來(lái)拾取和放置 LEGO 積木。
參加實(shí)驗(yàn)的真人測(cè)試者也以手動(dòng)方式構(gòu)建了一些積木,這表明 AI 能夠生成真正可構(gòu)建的模型。
該團(tuán)隊(duì)在論文中指出:“我們的實(shí)驗(yàn)表明,LEGOGPT 能夠生成穩(wěn)定、多樣且美觀的 LEGO 設(shè)計(jì),這些設(shè)計(jì)與輸入的文本提示高度一致。”其還證明本次方法優(yōu)于已有的大模型骨干模型,也優(yōu)于幾種最新的“文本到 3D”的生成方法。
在打造 LEGOGPT 的過(guò)程中,研究團(tuán)隊(duì)構(gòu)建了一個(gè)大規(guī)模、物理穩(wěn)定的 LEGO 設(shè)計(jì)數(shù)據(jù)集,并提供了與之相關(guān)的說(shuō)明文字。同時(shí),他們還訓(xùn)練了一個(gè)自回歸大模型,通過(guò)預(yù)測(cè)下一個(gè) token 來(lái)預(yù)測(cè)下一塊要添加的積木。
為了提高設(shè)計(jì)的穩(wěn)定性,他們?cè)谧曰貧w推理過(guò)程中采用有效性檢查和物理感知回退機(jī)制,利用物理定律和拼裝約束來(lái)剔除不可行的 token 預(yù)測(cè)。
目前,該團(tuán)隊(duì)已經(jīng)公布了數(shù)據(jù)集 StableText2Lego,其中包含超過(guò) 47,000 個(gè) LEGO 結(jié)構(gòu),這些結(jié)構(gòu)由超過(guò) 28,000 個(gè)獨(dú)特的 3D 對(duì)象組成,并附有詳細(xì)的說(shuō)明文字。同時(shí),代碼和模型已在 GitHub 上發(fā)布(https://avalovelace1.github.io/LegoGPT/)。
另?yè)?jù)悉,除了朱俊彥是論文作者之外,相關(guān)論文中也有多位華人作者。
圖 | 朱俊彥(來(lái)源:https://www.cs.cmu.edu/~junyanz/)
圖 | 論文作者中包含多名華人作者(來(lái)源:arXiv)
能由真人或機(jī)器人實(shí)現(xiàn)逐塊拼裝
眾所周知,LEGO 已被廣泛用于娛樂(lè)、教育和藝術(shù)創(chuàng)作。由于所有標(biāo)準(zhǔn)組件均可被隨時(shí)獲取,因此它也可以作為一個(gè)可復(fù)現(xiàn)的研究基準(zhǔn)。
由于手動(dòng)設(shè)計(jì)需要耗費(fèi)較大精力,故曾有人通過(guò)開(kāi)發(fā)自動(dòng)化算法來(lái)簡(jiǎn)化流程并生成了不錯(cuò)的結(jié)果。然而,此前方法主要基于給定的 3D 對(duì)象來(lái)創(chuàng)建 LEGO 設(shè)計(jì),或者僅僅關(guān)注于單一的對(duì)象類(lèi)別。
基于此,該團(tuán)隊(duì)希望開(kāi)發(fā)一種能夠直接根據(jù)文本提示生成 LEGO 設(shè)計(jì)、同時(shí)在設(shè)計(jì)上兼具物理穩(wěn)定性和可搭建性的方法。
因此,他們認(rèn)為需要訓(xùn)練一個(gè)生成模型,并讓該模型能夠生成以下設(shè)計(jì)方案:首先,要具備物理穩(wěn)定性,即基于 LEGO 基板構(gòu)建出來(lái)的結(jié)構(gòu)完整性強(qiáng)、無(wú)懸空或坍塌。其次,要具備可搭建性,即可以和標(biāo)準(zhǔn) LEGO 積木兼容,并能由真人或機(jī)器人實(shí)現(xiàn)逐塊拼裝。
LEGOGPT 的核心思想是將原本用于下一個(gè) token 預(yù)測(cè)的自回歸大模型重新用于下一個(gè)積木預(yù)測(cè)。研究團(tuán)隊(duì)將 LEGO 設(shè)計(jì)問(wèn)題表述為自回歸文本生成任務(wù),其中下一塊積木的尺寸和擺放位置以簡(jiǎn)單的文本格式指定。
為了確保生成的結(jié)構(gòu)既穩(wěn)定又可構(gòu)建,他們?cè)谟?xùn)練過(guò)程和推理過(guò)程中都施加了考慮物理特性的拼裝約束。
在自回歸推理過(guò)程中,研究團(tuán)隊(duì)通過(guò)有效性檢查和物理感知回退來(lái)確保可行性,以便確保最終的 token 符合物理定律和拼裝約束。
實(shí)驗(yàn)表明,所生成的設(shè)計(jì)既穩(wěn)定又多樣,并且具有視覺(jué)吸引力,同時(shí)符合輸入的文本提示。這種方法同時(shí)優(yōu)于采用和不采用上下文學(xué)習(xí)的預(yù)訓(xùn)練大模型,也優(yōu)于此前基于網(wǎng)格 3D 生成的方法。
(來(lái)源:arXiv)
大規(guī)模 LEGO 數(shù)據(jù)集:包含 47,000 多種 LEGO 結(jié)構(gòu)
研究人員在論文中表示,一般來(lái)說(shuō)這類(lèi)工作包含三個(gè)步驟:第一步,使用文本到圖像模型生成圖像。第二步,將圖像轉(zhuǎn)換為體素。第三步,在不考慮物理約束的情況下,使用啟發(fā)式方法創(chuàng)建物理 LEGO 積木模型。相比之下,在無(wú)需中間圖像或體素表示的情況下,本次方法也能執(zhí)行文本到 LEGO 積木的任務(wù)。
由于訓(xùn)練現(xiàn)代自回歸模型需要大規(guī)模的數(shù)據(jù)集,為此研究團(tuán)隊(duì)推出了 StableText2Lego,這是一個(gè)全新的大規(guī)模 LEGO 數(shù)據(jù)集,包含 47,000 多種 LEGO 結(jié)構(gòu),涵蓋 ShapeNetCore 數(shù)據(jù)集中 21 個(gè)常見(jiàn)物體類(lèi)別的 28,000 多個(gè)獨(dú)特 3D 物體。
研究中,他們選擇具有多樣性和獨(dú)特性的 3D 物體類(lèi)別,同時(shí)排除那些類(lèi)似長(zhǎng)方體的物體。每個(gè)結(jié)構(gòu)都配有一組文本描述和一個(gè)穩(wěn)定性評(píng)分,該評(píng)分能夠衡量結(jié)構(gòu)的物理穩(wěn)定性和可建造性。
圖 | 數(shù)據(jù)集的構(gòu)建過(guò)程(來(lái)源:arXiv)
為了獲取每個(gè)結(jié)構(gòu)的說(shuō)明文字,研究團(tuán)隊(duì)從 24 個(gè)不同的視角渲染 LEGO 玩具,并將其組合成一張多視角圖像。然后,他們讓 GPT-4o 為這些渲染圖生成 5 種不同詳細(xì)程度的描述。
據(jù)了解,預(yù)訓(xùn)練大模型在序列建模和自然語(yǔ)言理解方面表現(xiàn)十分出色,因此他們選擇了這類(lèi)大模型。利用大模型能夠針對(duì)序列進(jìn)行建模和理解文本的能力,研究團(tuán)隊(duì)針對(duì)預(yù)訓(xùn)練大模型進(jìn)行了微調(diào),以便用于 LEGO 生成任務(wù)。
而為了提高設(shè)計(jì)的穩(wěn)定性和可構(gòu)建性,他們?cè)谕评磉^(guò)程中采用了逐塊拒絕采樣和物理感知回退的方法。
(來(lái)源:arXiv)
與此同時(shí),他們使用 LLaMA-3.2-1BInstruct 作為基礎(chǔ)模型。該模型經(jīng)過(guò)微調(diào)之后,能夠針對(duì)指令提示給出連貫的答案,因此十分適用于基于文本的 LEGO 設(shè)計(jì)生成。同時(shí),這一基礎(chǔ)模型還能通過(guò)上下文學(xué)習(xí)生成類(lèi)似 LEGO 的設(shè)計(jì)。
雖然本次研究的主要關(guān)注點(diǎn)是生成 LEGO 形狀,但是在創(chuàng)意型 LEGO 設(shè)計(jì)中,顏色和紋理也發(fā)揮著至關(guān)重要的作用。因此,他們專(zhuān)門(mén)提出一種新方法,該方法既能讓單個(gè)積木擁有細(xì)致 UV 紋理,也能讓單個(gè)積木擁有統(tǒng)一的顏色。
兼具 UV 紋理和靚麗顏色
實(shí)驗(yàn)中,研究人員使用 LLaMAMesh、LGM、XCube 和 Hunyuan3D-2 來(lái)從每個(gè)提示生成網(wǎng)格,然后通過(guò)“LEGO 化”將這些網(wǎng)格轉(zhuǎn)換為 LEGO 格式。
(來(lái)源:arXiv)
此外,他們將本次方法與預(yù)訓(xùn)練模型進(jìn)行比較,并將這些模型以零樣本和少樣本的方式加以評(píng)估。對(duì)于少樣本評(píng)估,研究團(tuán)隊(duì)為模型提供了 5 個(gè)穩(wěn)定的 LEGO 設(shè)計(jì)示例以及說(shuō)明文字,并計(jì)算了所生成設(shè)計(jì)方案中的“穩(wěn)定有效結(jié)構(gòu)”所占的比例。
同時(shí),對(duì)于每個(gè)有效結(jié)構(gòu),研究團(tuán)隊(duì)都計(jì)算了其平均積木塊穩(wěn)定性和最小積木塊穩(wěn)定性得分。如下表所示,本次方法在這些指標(biāo)上優(yōu)于此前已有的基線方法。
(來(lái)源:arXiv)
在消融研究中,研究團(tuán)隊(duì)展示了拒絕采樣和物理感知回退的重要性。如下圖所示,拒絕采樣消除了無(wú)效的積木,比如能夠消除那些發(fā)生了碰撞的積木。而回退則有助于確保最終生成的積木具備物理穩(wěn)定性。
(來(lái)源:arXiv)
如前所述,他們還使用機(jī)器人組裝了這些由 AI 模型生成的 LEGO 設(shè)計(jì)。具體來(lái)說(shuō),機(jī)器人利用操縱策略和異步多智能體規(guī)劃器來(lái)操縱 LEGO 積木并構(gòu)建結(jié)構(gòu)。而且這些由 AI 模型生成的 LEGO 結(jié)構(gòu)還可以進(jìn)行人工組裝,因此它們?cè)谖锢砩洗_實(shí)是有效的。
圖 | 使用雙機(jī)器人臂系統(tǒng)進(jìn)行自動(dòng)組裝的過(guò)程(來(lái)源:arXiv)
下圖則展示了 LEGO 模型的 UV 紋理化和均勻著色結(jié)果,這證明本次方法能夠在保留底層幾何形狀的同時(shí)生成多種風(fēng)格。
(來(lái)源:arXiv)
盡管本次方法優(yōu)于已有方法,但是仍然存在一些局限性。
首先,由于計(jì)算資源有限研究團(tuán)隊(duì)尚未探索最大的 3D 數(shù)據(jù)集,即本次方法僅限于在 21 個(gè)類(lèi)別的 20×20×20 網(wǎng)格內(nèi)生成設(shè)計(jì)。未來(lái),他們將在更大、更多樣化的數(shù)據(jù)集上擴(kuò)大模型訓(xùn)練規(guī)模,以便提高對(duì)于分布外文本提示的泛化能力。
其次,本次成果目前僅僅支持一組固定的常用 LEGO 積木,未來(lái)他們計(jì)劃擴(kuò)展積木庫(kù),以便包含更廣泛的尺寸和積木類(lèi)型,從而實(shí)現(xiàn)更復(fù)雜更多樣化的 LEGO 設(shè)計(jì)。
參考資料:
https://arxiv.org/pdf/2505.05469
https://www.cs.cmu.edu/~junyanz/
https://avapun.com/
https://www.linkedin.com/in/avapun/?originalSubdomain=in
https://avalovelace1.github.io/LegoGPT/
排版:初嘉實(shí)
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.