Ko Nvidia jaunā teksta pārveide 3D nozīmē inženierzinātnēs un produktu dizainā

tl; dr: ģeneratīvais AI attīstās aizraujošā tempā. Jaunākais Nvidia algoritms pārvērš tekstu 3D tīklā divreiz ātrāk nekā projekti, kas tika publicēti gandrīz pirms 2 mēnešiem. Tas nozīmē, ka tehniskās iespējas šobrīd jau pārspēj mūsu spējas ar tām strādāt.

Pagājušajā nedēļā papīrs Nvidia zinātnieki parādīja eksponenciālo ātrumu, ar kādu ģeneratīvā AI telpa attīstās. Šis aktivitāšu eksplozijas pieaugums, kas īpaši redzams pēdējo 9 mēnešu laikā, ietekmēs katru dzīves daļu, tostarp produktu dizainu, inženieriju un ražošanu. Izmaiņas atbrīvos nozari no strukturālajiem ierobežojumiem ideju paziņošanas veidā, nodrošinās ātrākus inovācijas ciklus un galu galā ļaus tai izpildīt savus ilgtspējības solījumus.

Mežu piemēri no Nvidia Research Magic 3D algoritmiem ar uzvednēm, kas izmantotas to ģenerēšanai.

Nvidia Deep Imagination Research

Tā kā gadiem ilgi tika teikts, ka mākslīgais intelekts būtiski mainīs mūsu darba veidu, daži cerēja, ka radošais sektors būs viens no pirmajiem upuriem. GPT-3 cilvēkiem līdzīgā teksta ģeneratora parādīšanās 2020. gadā palielināja iespējas vairāk uzmanības. Kopš tā laika tas ir bijis mežonīgs brauciens: DALL-E (teksta pārveide attēlā), Whisper (runas atpazīšana) un nesen stabilā difūzija (teksts-attēlā) ne tikai palielināja runas un vizuālā AI rīku iespējas, bet arī samazināja resursus, kas nepieciešami to izmantošanai (no 175 miljardiem parametriem GPT-3 līdz 900 miljoniem stabilai difūzijai).

Stabilas difūzijas lielums nozīmē mazāk nekā 5 gb diska vietas — to var darbināt jebkurā klēpjdatorā. Ne tikai tas; Atšķirībā no OpenAI (kuru galvenokārt finansē Microsoft un publicē GPT-3, DALL-E un Whisper), Stable Diffusion ir atvērtā koda avots, kas nozīmē, ka citi var daudz vieglāk balstīties uz tās mācībām. Tas nozīmē, ka mēs redzam tikai novatoriskā cikla sākumu — kā tagad liecina Nvidia dokuments, priekšā ir vēl daudz vairāk.

Stable Diffusion atbalstītāji (stability.ai) vēl vairāk veicina šo tendenci, nodrošinot tehnoloģiskas un finansiālas dotācijas citām komandām, kas virza izpēti jaunos virzienos. Turklāt daudzi projekti padara rīkus pieejamus arvien plašākam lietotāju lokam. Starp tiem ir Blender spraudņi, atvērtā pirmkoda projektēšanas rīks un Adobe patentētais Photoshop ekvivalents. Pilna API piekļuve rīkiem tiek finansēta ar lieliem riska kapitāla dolāriem, kas nozīmē, ka simtiem miljonu programmatūras izstrādātāju, ne tikai daži simti tūkstošu datu inženieru, tagad izveidos savus rīkus, izmantojot šos algoritmus.

Runa, attēli un teksts ir vienas no pirmajām vertikālēm, ko šīs tehnoloģijas traucē. Taču 3D daudz neatpaliek. Papildus nišas ģeneratīvajai mākslai karikatūras ir acīmredzams pirmais pielietojuma punkts. Jau ir Pokémon ģenerators, kura pamatā ir stabila difūzija. Nākamais ir vizuālie efekti un filmas. Taču, visticamāk, tiks traucēta daudzas citas nozares, tostarp interjera dizains ar Interiorai.com vadošo lomu.

Visā šajā satraukumā jauninājumu pielietošana dizaina un inženierijas jomā šķiet kā pēcpārdoma. Tomēr, visticamāk, tā galu galā būs visvairāk ietekmētā teritorija. Protams, ir sākotnējie izaicinājumi: Pirmkārt, Stable Diffusion un tās tautieši vēl nav ļoti precīzi. Tā nav karikatūru problēma, taču tā ir liels izaicinājums jebkuram mēģinājumam pārveidot tekstu pilnās 3D ģeometrijās, ko izmanto rūpnieciskos kontekstos. Šī ir joma, par kuru ir radusies zināma interese (101. gadā Izraēlā tika uzsākts projekts Bits2015). Tas var būt nozares svētais grāls, taču ir daudz starpproblēmu, kuras var būt daudz vieglāk atrisināt. Tie ietver uzlabotu objektu atpazīšanu (Yolo algoritms jau tiek izmantots lieliski), kas uzlabos citātu un anotāciju, uzlabojot kvalitāti un samazinot kļūdas. Spraudņiem vajadzētu arī atvieglot ģeneratīvā AI izmantošanu, lai izstrādātu pamata dizainus (primitīvus), kurus pēc tam var tālāk rediģēt dizaina rīkos, lai uzlabotu toleranci atbilstoši prasībām. Tā ir pieeja, kas jau tika izmantota Altair's Inspire, kas izmantoja galīgo elementu analīzi, lai darītu to pašu. Šie primitīvie elementi var kalpot arī kā sintētiska anotētu modeļu datu bāze, kuru 3D CAD nozarē trūkst. Physna izpilddirektors un dibinātājs norāda uz to rakstā detalizēti apraksta savus mēģinājumus izmantot šīs jaunās metodes, lai izveidotu detalizētus 3D dizainus, kas arī izceļ vairākas nepilnības, izmantojot sintētiskos datus, lai vadītu šos algoritmus. 3D dizainu izveide no 2D rasējumiem ir vēl viena potenciāla pielietojuma joma, tāpat kā viedā CAM, kas nodrošina instrumentu nodiluma bibliotēka, lai noteiktu labākās apstrādes stratēģijas.

Šīs problēmas ir svarīgas un ienesīgas, lai tās risinātu pašiem un pašiem. Tomēr to galvenā ietekme būs palīdzēt attīstīt ideju līdz dizainam, galu galā samazinot paļaušanos uz 3D dizainu, lai paziņotu nodomus. Dizaini, neatkarīgi no tā, vai tie ir 2D vai 3D, ir kalpojuši kā galvenais līdzeklis klientu vajadzību pārveidošanai gala produktos. Tas ierobežo nozari, jo šie dizaini kalpo kā melnā kaste, kurā tiek glabāti visi vērtīgie klientu ieskati, ražošanas ierobežojumi un uzņēmuma mērķi, kurus nevar atdalīt, taču tie ir atsevišķi identificēti. Tas nozīmē, ka tad, kad kaut kas mainās, ir gandrīz neiespējami vienkārši pielāgot dizainu. Šī iemesla dēļ ražošanas jauninājumiem, piemēram, 3D drukāšanai, ir nepieciešams tik ilgs laiks, lai tos pieņemtu, un tas pastāvīgi sagādā vilšanos īstermiņa investoriem. Komponenti, kas veido lidmašīnu, tiek “noteikti” jau no projektēšanas brīža, neskatoties uz to, ka produktīvs kalpošanas laiks ir vairāk nekā 20 gadi. Inovācijām gandrīz nav nekādu iespēju — tiem ir jāgaida nākamās paaudzes ieviešana.

Iespēja mainīt vienu ierobežojumu un ļaut algoritmam, piemēram, Stable Diffusion, atjaunot dizaina un ražošanas parametrus, ievērojami paātrinās jaunu inovāciju ieviešanu un ļaus mums ātrāk izveidot vieglākus, labākus produktus. Tāpat kā Formulā 1 vai Sistēmu projektēšanā, nākamie inženieri darbosies kā ierobežojumu vadītāji, kas spēj vārdos un atsaucoties uz datu avotiem izteikt produkta mērķi un ierobežojumus.

Šādā veidā nepaātrinot jaunu un esošo produktu izstrādes procesu, mums gandrīz nav līdzekļu, lai sasniegtu vērienīgos ilgtspējības mērķus, kas mums pašiem ir jānosaka. Lai to izdarītu, mums vispirms ir jāvienojas par valodu, ar kuru mēs varam sazināties ārpus dizaina. Šis jaunais semantiskais modelis ir acīmredzamā plaisa iepriekš aprakstītajos jauninājumos. Vairāki uzņēmumi jau ir sākuši ar to eksperimentēt, piemēram nTopoloģija ar tās lauku jēdzieniem. Un tomēr pārmaiņu temps ir lēns, atšķirībā no algoritmiem, ko nodrošinās semantiskais modelis. Tiek ziņots, ka Nvidia jaunais algoritms ir vairāk nekā divas reizes ātrāks nekā DreamFusion, publicēts mazāk nekā pirms 2 mēnešiem. Produktu un inženierzinātņu uzņēmumiem tagad ir jāstrādā pie savu ideju tveršanas jaunos, nākotnes izturīgos veidos, lai maksimāli izmantotu iespējas, ko sniedz šis ģeneratīvā AI sprādziens. Algoritmu izmaiņu ātrums vēlreiz ir parādījis, ka Morzes likums attiecas visur, kur tiek digitalizēti rīki. Problēma joprojām ir mūsu cilvēku nespēja pieņemt šīs pārmaiņas un ieviest jaunas saziņas metodes, kas spēj atraisīt savu potenciālu, neskatoties uz uzdevuma steidzamību.

Avots: https://www.forbes.com/sites/andrewegner/2022/11/24/what-nvidias-new-text-to-3d-means-for-engineering–product-design/