అధిక-నాణ్యత చిత్రాలను త్వరగా ఉత్పత్తి చేయగల సామర్థ్యం వాస్తవిక అనుకరణ వాతావరణాలను ఉత్పత్తి చేయడానికి చాలా ముఖ్యమైనది, ఇది అనూహ్య ప్రమాదాలను నివారించడానికి స్వీయ-డ్రైవింగ్ కార్లకు శిక్షణ ఇవ్వడానికి ఉపయోగపడుతుంది, వాటిని నిజమైన వీధుల్లో సురక్షితంగా చేస్తుంది.

కానీ అటువంటి చిత్రాలను రూపొందించడానికి ఉత్పాదక AI పద్ధతులు ఎక్కువగా ఉపయోగించబడుతున్నాయి. డిఫ్యూజన్ మోడల్ అని పిలువబడే ఒక ప్రసిద్ధ రకం మోడల్, అద్భుతమైన వాస్తవిక చిత్రాలను సృష్టించగలదు కాని చాలా అనువర్తనాలకు చాలా నెమ్మదిగా మరియు గణనపరంగా ఇంటెన్సివ్. మరోవైపు, చాట్‌గ్ప్ట్ వంటి ఎల్‌ఎల్‌ఎమ్‌లకు శక్తినిచ్చే ఆటోరెగ్రెసివ్ మోడల్స్ చాలా వేగంగా ఉంటాయి, అయితే అవి పేద-నాణ్యత చిత్రాలను ఉత్పత్తి చేస్తాయి, ఇవి తరచూ లోపాలతో చిక్కుకుంటాయి.

MIT మరియు NVIDIA నుండి పరిశోధకులు రెండు పద్ధతుల్లో ఉత్తమమైన వాటిని కలిపే కొత్త విధానాన్ని అభివృద్ధి చేశారు. వారి హైబ్రిడ్ ఇమేజ్-జనరేషన్ సాధనం పెద్ద చిత్రాన్ని త్వరగా సంగ్రహించడానికి ఆటోరెగ్రెసివ్ మోడల్‌ను ఉపయోగిస్తుంది మరియు తరువాత చిత్రం యొక్క వివరాలను మెరుగుపరచడానికి ఒక చిన్న వ్యాప్తి నమూనాను ఉపయోగిస్తుంది.

వారి సాధనం, HART (హైబ్రిడ్ ఆటోరెగ్రెసివ్ ట్రాన్స్ఫార్మర్ కోసం చిన్నది) అని పిలుస్తారు, ఇది అత్యాధునిక వ్యాప్తి నమూనాల నాణ్యతతో సరిపోయే లేదా మించిన చిత్రాలను రూపొందించగలదు, కాని తొమ్మిది రెట్లు వేగంగా చేయవచ్చు.

జనరేషన్ ప్రాసెస్ సాధారణ వ్యాప్తి నమూనాల కంటే తక్కువ గణన వనరులను వినియోగిస్తుంది, ఇది వాణిజ్య ల్యాప్‌టాప్ లేదా స్మార్ట్‌ఫోన్‌లో స్థానికంగా హార్ట్ అమలు చేయడానికి వీలు కల్పిస్తుంది. చిత్రాన్ని రూపొందించడానికి వినియోగదారు హార్ట్ ఇంటర్‌ఫేస్‌లోకి ఒక సహజ భాషా ప్రాంప్ట్‌ను మాత్రమే నమోదు చేయాలి.

సంక్లిష్టమైన వాస్తవ-ప్రపంచ పనులను పూర్తి చేయడానికి రోబోట్‌లకు శిక్షణ ఇవ్వడానికి మరియు వీడియో గేమ్‌ల కోసం అద్భుతమైన దృశ్యాలను ఉత్పత్తి చేయడంలో డిజైనర్లకు సహాయపడటం వంటి అనేక రకాల అనువర్తనాలను హార్ట్ కలిగి ఉండవచ్చు.

“మీరు ఒక ప్రకృతి దృశ్యాన్ని పెయింటింగ్ చేస్తుంటే, మరియు మీరు మొత్తం కాన్వాస్‌ను ఒకసారి పెయింట్ చేస్తే, అది చాలా అందంగా కనిపించకపోవచ్చు. కానీ మీరు పెద్ద చిత్రాన్ని పెయింట్ చేసి, ఆపై చిత్రాన్ని చిన్న బ్రష్ స్ట్రోక్‌లతో మెరుగుపరుస్తే, మీ పెయింటింగ్ చాలా బాగుంది. ఇది హార్ట్‌తో ప్రాథమిక ఆలోచన” అని హార్ట్‌లో కొత్త కాగితం సహ-రచయిత హోటియన్ టాంగ్ పిహెచ్‌డి ’25 చెప్పారు.

అతను సింగ్‌హువా విశ్వవిద్యాలయంలో అండర్ గ్రాడ్యుయేట్ విద్యార్థి సహ-నాయకుడు యెచెంగ్ వు చేరారు; సీనియర్ రచయిత సాంగ్ హాన్, ఎలక్ట్రికల్ ఇంజనీరింగ్ అండ్ కంప్యూటర్ సైన్స్ (EECS) విభాగంలో అసోసియేట్ ప్రొఫెసర్, MIT-IBM వాట్సన్ AI ల్యాబ్ సభ్యుడు మరియు ఎన్విడియా యొక్క విశిష్ట శాస్త్రవేత్త; అలాగే MIT, సింగువా విశ్వవిద్యాలయం మరియు ఎన్విడియాలో ఇతరులు. అభ్యాస ప్రాతినిధ్యాలపై అంతర్జాతీయ సమావేశంలో ఈ పరిశోధన ప్రదర్శించబడుతుంది.

రెండు ప్రపంచాలలో ఉత్తమమైనది

స్థిరమైన వ్యాప్తి మరియు డాల్-ఇ వంటి ప్రసిద్ధ వ్యాప్తి నమూనాలు చాలా వివరణాత్మక చిత్రాలను ఉత్పత్తి చేస్తాయి. ఈ నమూనాలు ఒక పునరుక్తి ప్రక్రియ ద్వారా చిత్రాలను ఉత్పత్తి చేస్తాయి, అక్కడ వారు ప్రతి పిక్సెల్‌పై కొంత మొత్తంలో యాదృచ్ఛిక శబ్దాన్ని అంచనా వేస్తారు, శబ్దాన్ని తీసివేసి, ఆపై పూర్తిగా శబ్దం లేని క్రొత్త చిత్రాన్ని ఉత్పత్తి చేసే వరకు అనేకసార్లు అంచనా వేసే మరియు “డి-శబ్దం” చేసే ప్రక్రియను పునరావృతం చేస్తాయి.

డిఫ్యూజన్ మోడల్ ప్రతి దశలో ఒక చిత్రంలోని అన్ని పిక్సెల్‌లను డి-నోస్ చేస్తుంది మరియు 30 లేదా అంతకంటే ఎక్కువ దశలు ఉండవచ్చు, ఈ ప్రక్రియ నెమ్మదిగా మరియు గణనపరంగా ఖరీదైనది. కానీ మోడల్ వివరాలను సరిదిద్దడానికి బహుళ అవకాశాలను కలిగి ఉన్నందున అది తప్పుగా ఉంది, చిత్రాలు అధిక-నాణ్యత.

ఆటోరెగ్రెసివ్ మోడల్స్, సాధారణంగా వచనాన్ని అంచనా వేయడానికి ఉపయోగించే, ఒక చిత్రం యొక్క పాచెస్ను వరుసగా, ఒకేసారి కొన్ని పిక్సెల్‌లు అంచనా వేయడం ద్వారా చిత్రాలను రూపొందించగలవు. వారు వెనక్కి వెళ్లి వారి తప్పులను సరిదిద్దలేరు, కానీ సీక్వెన్షియల్ ప్రిడిక్షన్ ప్రక్రియ విస్తరణ కంటే చాలా వేగంగా ఉంటుంది.

ఈ నమూనాలు అంచనాలు చేయడానికి టోకెన్లు అని పిలువబడే ప్రాతినిధ్యాలను ఉపయోగిస్తాయి. ఆటోరెగ్రెసివ్ మోడల్ ముడి ఇమేజ్ పిక్సెల్‌లను వివిక్త టోకెన్లుగా కుదించడానికి ఆటోఎన్‌కోడర్‌ను ఉపయోగించుకుంటుంది, అలాగే to హించిన టోకెన్ల నుండి చిత్రాన్ని పునర్నిర్మిస్తుంది. ఇది మోడల్ యొక్క వేగాన్ని పెంచుతుండగా, కుదింపు సమయంలో సంభవించే సమాచార నష్టం మోడల్ కొత్త చిత్రాన్ని ఉత్పత్తి చేసినప్పుడు లోపాలకు కారణమవుతుంది.

హార్ట్‌తో, పరిశోధకులు హైబ్రిడ్ విధానాన్ని అభివృద్ధి చేశారు, ఇది సంపీడన, వివిక్త ఇమేజ్ టోకెన్లను అంచనా వేయడానికి ఆటోరెగ్రెసివ్ మోడల్‌ను ఉపయోగిస్తుంది, ఆపై అవశేష టోకెన్లను అంచనా వేయడానికి ఒక చిన్న విస్తరణ నమూనా. వివిక్త టోకెన్ల ద్వారా మిగిలిపోయిన వివరాలను సంగ్రహించడం ద్వారా అవశేష టోకెన్లు మోడల్ యొక్క సమాచార నష్టాన్ని భర్తీ చేస్తాయి.

“పునర్నిర్మాణ నాణ్యత పరంగా మేము భారీ ప్రోత్సాహాన్ని సాధించగలము. మా అవశేష టోకెన్లు ఒక వస్తువు యొక్క అంచులు లేదా ఒక వ్యక్తి యొక్క జుట్టు, కళ్ళు లేదా నోటి వంటి అధిక-ఫ్రీక్వెన్సీ వివరాలను నేర్చుకుంటాయి. ఇవి వివిక్త టోకెన్లు తప్పులు చేయగల ప్రదేశాలు” అని టాంగ్ చెప్పారు.

ఆటోరెగ్రెసివ్ మోడల్ తన పనిని చేసిన తర్వాత మిగిలిన వివరాలను మాత్రమే విస్తరణ మోడల్ అంచనా వేస్తుంది కాబట్టి, ఇది ఎనిమిది దశల్లో పనిని సాధించగలదు, సాధారణ 30 లేదా అంతకంటే ఎక్కువ ప్రామాణిక వ్యాప్తి నమూనాకు బదులుగా మొత్తం చిత్రాన్ని రూపొందించడం అవసరం. అదనపు డిఫ్యూజన్ మోడల్ యొక్క ఈ కనిష్ట ఓవర్ హెడ్ హార్ట్ ఆటోరెగ్రెసివ్ మోడల్ యొక్క వేగ ప్రయోజనాన్ని నిలుపుకోవటానికి అనుమతిస్తుంది, అయితే క్లిష్టమైన చిత్ర వివరాలను ఉత్పత్తి చేసే సామర్థ్యాన్ని గణనీయంగా పెంచుతుంది.

“డిఫ్యూజన్ మోడల్ చేయడానికి సులభమైన పని ఉంది, ఇది మరింత సామర్థ్యానికి దారితీస్తుంది” అని ఆయన చెప్పారు.

పెద్ద నమూనాలను అధిగమిస్తుంది

హార్ట్ అభివృద్ధి సమయంలో, ఆటోరెగ్రెసివ్ మోడల్‌ను మెరుగుపరచడానికి వ్యాప్తి నమూనాను సమర్థవంతంగా సమగ్రపరచడంలో పరిశోధకులు సవాళ్లను ఎదుర్కొన్నారు. ఆటోరెగ్రెసివ్ ప్రక్రియ యొక్క ప్రారంభ దశలలో విస్తరణ నమూనాను చేర్చడం వల్ల లోపాలు చేరడం జరిగిందని వారు కనుగొన్నారు. బదులుగా, చివరి దశ తరం నాణ్యతను గణనీయంగా మెరుగుపరిచినందున అవశేష టోకెన్లను మాత్రమే అంచనా వేయడానికి డిఫ్యూజన్ మోడల్‌ను వర్తింపజేసే వారి తుది రూపకల్పన.

వారి పద్ధతి, ఇది 700 మిలియన్ పారామితులతో ఆటోరెగ్రెసివ్ ట్రాన్స్ఫార్మర్ మోడల్ మరియు 37 మిలియన్ పారామితులతో తేలికపాటి వ్యాప్తి నమూనాను ఉపయోగిస్తుంది, 2 బిలియన్ పారామితులతో విస్తరణ మోడల్ సృష్టించిన అదే నాణ్యత యొక్క చిత్రాలను ఉత్పత్తి చేయగలదు, అయితే ఇది తొమ్మిది రెట్లు వేగంగా చేస్తుంది. ఇది అత్యాధునిక నమూనాల కంటే 31 శాతం తక్కువ గణనను ఉపయోగిస్తుంది.

అంతేకాకుండా, హార్ట్ ఎక్కువ పనిని చేయడానికి ఆటోరెగ్రెసివ్ మోడల్‌ను ఉపయోగిస్తుంది-LLMS కి శక్తినిచ్చే అదే రకమైన మోడల్-ఏకీకృత దృష్టి-భాషా ఉత్పాదక నమూనాల కొత్త తరగతితో అనుసంధానించడానికి ఇది మరింత అనుకూలంగా ఉంటుంది. భవిష్యత్తులో, ఒకరు ఏకీకృత దృష్టి-భాషా ఉత్పాదక నమూనాతో సంకర్షణ చెందవచ్చు, బహుశా ఫర్నిచర్ యొక్క భాగాన్ని సమీకరించటానికి అవసరమైన ఇంటర్మీడియట్ దశలను చూపించమని అడగడం ద్వారా.

“మల్టీమోడల్ మోడల్స్ మరియు మోడల్స్ వంటి అన్ని రకాల మోడళ్లకు ఎల్‌ఎల్‌ఎంలు మంచి ఇంటర్‌ఫేస్. ఇది తెలివితేటలను కొత్త సరిహద్దుకు నెట్టడానికి ఒక మార్గం. సమర్థవంతమైన ఇమేజ్-జనరేషన్ మోడల్ చాలా అవకాశాలను అన్‌లాక్ చేస్తుంది” అని ఆయన చెప్పారు.

భవిష్యత్తులో, పరిశోధకులు ఈ మార్గంలోకి వెళ్లి హార్ట్ ఆర్కిటెక్చర్ పైన దృష్టి-భాషా నమూనాలను నిర్మించాలని కోరుకుంటారు. హార్ట్ స్కేలబుల్ మరియు బహుళ పద్ధతులకు సాధారణీకరించదగినది కాబట్టి, వారు దీనిని వీడియో జనరేషన్ మరియు ఆడియో ప్రిడిక్షన్ పనుల కోసం కూడా వర్తింపజేయాలనుకుంటున్నారు.

ఈ పరిశోధనకు MIT-IBM వాట్సన్ AI ల్యాబ్, MIT మరియు అమెజాన్ సైన్స్ హబ్, MIT AI హార్డ్‌వేర్ ప్రోగ్రామ్ మరియు నేషనల్ సైన్స్ ఫౌండేషన్ నిధులు సమకూర్చాయి. శిక్షణ కోసం GPU మౌలిక సదుపాయాలను ఈ మోడల్‌కు ఎన్విడియా విరాళంగా ఇచ్చింది.



Source link

LEAVE A REPLY

Please enter your comment!
Please enter your name here