Notícies - OpenAI Point E: creeu un núvol de punts 3D a partir de formes d'ona complexes en minuts en una única GPU

En un nou article Point-E: un sistema per generar núvols de punts 3D a partir de senyals complexos, l'equip de recerca d'OpenAI presenta Point E, un sistema de síntesi condicional de text de núvols de punts 3D que utilitza models de difusió per crear formes 3D variades i complexes impulsades per text complex. senyals.en minuts en una única GPU.
El sorprenent rendiment dels models de generació d'imatges d'última generació actual ha estimulat la investigació en la generació d'objectes de text en 3D.Tanmateix, a diferència dels models 2D, que poden generar sortida en minuts o fins i tot segons, els models generatius d'objectes solen requerir diverses hores de treball de la GPU per generar una sola mostra.
En un nou article Point-E: Un sistema per generar núvols de punts 3D a partir de senyals complexos, l'equip de recerca d'OpenAI presenta Point·E, un sistema de síntesi condicional textual per a núvols de punts 3D.Aquest nou enfocament utilitza un model de propagació per crear formes 3D variades i complexes a partir de senyals de text complexos en només un minut o dos en una sola GPU.
L'equip se centra en el repte de convertir text a 3D, que és fonamental per democratitzar la creació de contingut en 3D per a aplicacions del món real que van des de la realitat virtual i els jocs fins al disseny industrial.Els mètodes existents per convertir text a 3D es divideixen en dues categories, cadascuna de les quals té els seus inconvenients: 1) els models generatius es poden utilitzar per generar mostres de manera eficient, però no poden escalar de manera eficient per a senyals de text diversos i complexos;2) un model d'imatge de text prèviament entrenat per manejar indicis de text complexos i variats, però aquest enfocament és intensivament computacional i el model es pot quedar fàcilment atrapat en mínims locals que no es corresponen amb objectes 3D significatius o coherents.
Per tant, l'equip va explorar un enfocament alternatiu que pretén combinar els punts forts dels dos enfocaments anteriors, utilitzant un model de difusió text-a-imatge entrenat en un gran conjunt de parells text-imatge (que li permet manejar senyals diversos i complexos) i un model de difusió d'imatges 3D entrenat en un conjunt més petit de parells text-imatge.conjunt de dades de parella imatge-3D.El model de text a imatge mostra primer la imatge d'entrada per crear una única representació sintètica, i el model d'imatge a 3D crea un núvol de punts 3D basat en la imatge seleccionada.
La pila generativa de l'ordre es basa en marcs generatius proposats recentment per generar imatges condicionalment a partir de text (Sohl-Dickstein et al., 2015; Song i Ermon, 2020b; Ho et al., 2020).Utilitzen un model GLIDE amb 3.000 milions de paràmetres GLIDE (Nichol et al., 2021), ajustat en models 3D renderitzats, com a model de transformació de text a imatge, i un conjunt de models de difusió que generen núvols de punts RGB com a seu. model de transformació.imatges a imatge.Models 3D.
Si bé els treballs anteriors utilitzaven arquitectures 3D per processar núvols de punts, els investigadors van utilitzar un model senzill basat en transductors (Vaswani et al., 2017) per millorar l'eficiència.En la seva arquitectura de model de difusió, les imatges del núvol de punts s'alimenten primer en un model ViT-L/14 CLIP pre-entrenat i després les malles de sortida s'introdueixen al convertidor com a marcadors.
En el seu estudi empíric, l'equip va comparar el mètode Point·E proposat amb altres models 3D generatius sobre senyals de puntuació de conjunts de dades de detecció, segmentació i signatura d'objectes COCO.Els resultats confirmen que Point·E és capaç de generar formes 3D diverses i complexes a partir de senyals de text complexos i accelerar el temps d'inferència d'un a dos ordres de magnitud.L'equip espera que el seu treball inspiri més investigacions sobre la síntesi de textos en 3D.
Hi ha disponibles un model de propagació del núvol de punts i un codi d'avaluació prèviament entrenats al GitHub del projecte.Document Point-E: a arXiv hi ha un sistema per crear núvols de punts en 3D a partir de pistes complexes.
Sabem que no us voleu perdre cap notícia o descobriment científic.Subscriu-te al nostre popular butlletí setmanal de Synced Global AI per rebre actualitzacions setmanals d'IA.

Hora de publicació: 28-12-2022