ఒక కర్మాగారంలో గృహోపకరణాలను నిర్వహించడానికి శిక్షణ పొందిన ఇంటి రోబోట్ యూజర్ యొక్క వంటగదిలో మోహరించినప్పుడు సింక్ను సమర్థవంతంగా స్క్రబ్ చేయడంలో లేదా చెత్తను తీయడంలో విఫలం కావచ్చు, ఎందుకంటే ఈ కొత్త వాతావరణం దాని శిక్షణా స్థలానికి భిన్నంగా ఉంటుంది.
దీనిని నివారించడానికి, ఏజెంట్ మోహరించబడే వాస్తవ ప్రపంచంతో ఇంజనీర్లు తరచూ అనుకరణ శిక్షణా వాతావరణాన్ని వీలైనంత దగ్గరగా సరిపోల్చడానికి ప్రయత్నిస్తారు.
ఏదేమైనా, MIT మరియు ఇతర ప్రాంతాల పరిశోధకులు ఇప్పుడు ఈ సాంప్రదాయిక జ్ఞానం ఉన్నప్పటికీ, కొన్నిసార్లు పూర్తిగా భిన్నమైన వాతావరణంలో శిక్షణ మంచి పనితీరు గల కృత్రిమ ఇంటెలిజెన్స్ ఏజెంట్ను ఇస్తుంది.
కొన్ని సందర్భాల్లో, తక్కువ అనిశ్చితి లేదా “శబ్దం” ఉన్న ప్రపంచంలో అనుకరణ AI ఏజెంట్కు శిక్షణ ఇస్తున్నట్లు వారి ఫలితాలు సూచిస్తున్నాయి, వారు రెండు ఏజెంట్లను పరీక్షించడానికి ఉపయోగించిన అదే, ధ్వనించే ప్రపంచంలో శిక్షణ పొందిన పోటీ AI ఏజెంట్ కంటే మెరుగైన పనితీరును కనబరిచారు.
పరిశోధకులు ఈ unexpected హించని దృగ్విషయాన్ని ఇండోర్ శిక్షణా ప్రభావం అని పిలుస్తారు.
“శబ్దం లేని ఇండోర్ వాతావరణంలో మేము టెన్నిస్ ఆడటం నేర్చుకుంటే, మేము వేర్వేరు షాట్లను మరింత సులభంగా నేర్చుకోగలుగుతాము. అప్పుడు, మేము విండీ టెన్నిస్ కోర్టు వంటి ధ్వనించే వాతావరణానికి వెళితే, మనకు అధిక సంభావ్యత ఉండవచ్చు మేము గాలులతో కూడిన వాతావరణంలో నేర్చుకోవడం మొదలుపెట్టిన దానికంటే టెన్నిస్ ఆడటం “అని MIT మీడియా ల్యాబ్లోని పరిశోధనా సహాయకుడు మరియు ఇండోర్ ట్రైనింగ్ ఎఫెక్ట్పై ఒక కాగితం యొక్క ప్రధాన రచయిత సెరెనా బోనో వివరించారు.
పరిశోధకులు AI ఏజెంట్లకు అటారీ ఆటలను ఆడటానికి శిక్షణ ఇవ్వడం ద్వారా ఈ దృగ్విషయాన్ని అధ్యయనం చేశారు, వారు కొంత అనూహ్యతను జోడించడం ద్వారా సవరించారు. అటారీ ఆటలు మరియు ఆట వైవిధ్యాలలో ఇండోర్ శిక్షణా ప్రభావం స్థిరంగా జరిగిందని వారు ఆశ్చర్యపోయారు.
ఈ ఫలితాలు AI ఏజెంట్ల కోసం మెరుగైన శిక్షణా పద్ధతులను అభివృద్ధి చేయడానికి అదనపు పరిశోధనలకు ఆజ్యం పోస్తాయని వారు ఆశిస్తున్నారు.
“ఇది పూర్తిగా క్రొత్త అక్షం. హార్వర్డ్ విశ్వవిద్యాలయం.
బోనో మరియు మదన్లను కాగితంపై MIT గ్రాడ్యుయేట్ విద్యార్థి ఇషాన్ గ్రోవర్ చేరారు; మావో యాసుడా, యేల్ విశ్వవిద్యాలయంలో గ్రాడ్యుయేట్ విద్యార్థి; సింథియా బ్రీజియల్, మీడియా ఆర్ట్స్ అండ్ సైన్సెస్ ప్రొఫెసర్ మరియు MIT మీడియా ల్యాబ్లోని వ్యక్తిగత రోబోటిక్స్ గ్రూప్ నాయకుడు; హాన్స్పెటర్ పిస్టర్, హార్వర్డ్లో కంప్యూటర్ సైన్స్ యొక్క వాంగ్ ప్రొఫెసర్; మరియు హార్వర్డ్ మెడికల్ స్కూల్లో ప్రొఫెసర్ గాబ్రియేల్ క్రెమాన్. అసోసియేషన్ ఫర్ అడ్వాన్స్మెంట్ ఆఫ్ ఆర్టిఫిషియల్ ఇంటెలిజెన్స్ కాన్ఫరెన్స్లో ఈ పరిశోధన ప్రదర్శించబడుతుంది.
శిక్షణ ఇబ్బందులు
ఉపబల అభ్యాస ఏజెంట్లు వారి శిక్షణా స్థలానికి భిన్నంగా ఉన్న వాతావరణాలపై పరీక్షించినప్పుడు ఇటువంటి దుర్భరమైన పనితీరును ఎందుకు కలిగి ఉన్నారో అన్వేషించడానికి పరిశోధకులు బయలుదేరారు.
ఉపబల అభ్యాసం అనేది ట్రయల్-అండ్-ఎర్రర్ పద్ధతి, దీనిలో ఏజెంట్ శిక్షణా స్థలాన్ని అన్వేషిస్తుంది మరియు దాని బహుమతిని పెంచే చర్యలను తీసుకోవడం నేర్చుకుంటుంది.
పరివర్తన ఫంక్షన్ అని పిలువబడే ఉపబల అభ్యాస సమస్య యొక్క ఒక మూలకానికి కొంత మొత్తంలో శబ్దాన్ని స్పష్టంగా జోడించడానికి బృందం ఒక సాంకేతికతను అభివృద్ధి చేసింది. పరివర్తన ఫంక్షన్ ఒక ఏజెంట్ ఒక రాష్ట్రానికి వెళ్ళే సంభావ్యతను నిర్వచిస్తుంది, అది ఎంచుకున్న చర్య ఆధారంగా.
ఏజెంట్ పాక్-మ్యాన్ ఆడుతుంటే, ఒక పరివర్తన ఫంక్షన్ గేమ్ బోర్డులో దెయ్యాలు పైకి, క్రిందికి, ఎడమ లేదా కుడి వైపుకు కదులుతున్న సంభావ్యతను నిర్వచించవచ్చు. ప్రామాణిక ఉపబల అభ్యాసంలో, AI అదే పరివర్తన ఫంక్షన్ను ఉపయోగించి శిక్షణ పొందుతుంది మరియు పరీక్షించబడుతుంది.
పరిశోధకులు ఈ సాంప్రదాయిక విధానంతో పరివర్తన పనితీరుకు శబ్దాన్ని జోడించారు మరియు expected హించిన విధంగా, ఇది ఏజెంట్ యొక్క పాక్-మ్యాన్ పనితీరును దెబ్బతీస్తుంది.
కానీ పరిశోధకులు ఏజెంట్కు శబ్దం లేని పాక్-మ్యాన్ గేమ్తో శిక్షణ పొందినప్పుడు, వారు పరివర్తన ఫంక్షన్లో శబ్దాన్ని ఇంజెక్ట్ చేసిన వాతావరణంలో దీనిని పరీక్షించినప్పుడు, ఇది ధ్వనించే ఆటపై శిక్షణ పొందిన ఏజెంట్ కంటే మెరుగ్గా పనిచేసింది.
“బొటనవేలు నియమం ఏమిటంటే, మీరు మీ బక్ కోసం ఎక్కువ బ్యాంగ్ పొందడానికి శిక్షణ సమయంలో డిప్లాయ్మెంట్ కండిషన్ యొక్క పరివర్తన పనితీరును మరియు శిక్షణ సమయంలో మీరు చేయగలిగేలా ప్రయత్నించాలి. మేము ఈ అంతర్దృష్టిని మరణానికి నిజంగా పరీక్షించాము ఎందుకంటే మేము దానిని మనమే నమ్మలేకపోయాము,” మదన్ చెప్పారు.
పరివర్తన ఫంక్షన్లో వివిధ రకాల శబ్దాన్ని ఇంజెక్ట్ చేయడం పరిశోధకులు అనేక వాతావరణాలను పరీక్షించనివ్వండి, కానీ ఇది వాస్తవిక ఆటలను సృష్టించలేదు. వారు పాక్-మ్యాన్ లోకి ఎక్కువ శబ్దం ఇంజెక్ట్ చేస్తే, దెయ్యాలు యాదృచ్ఛికంగా వేర్వేరు చతురస్రాలకు టెలిపోర్ట్ చేస్తాయి.
సాధారణ పిఎసి-మ్యాన్ ఆటలలో ఇండోర్ శిక్షణా ప్రభావం జరిగిందో లేదో చూడటానికి, వారు అంతర్లీన సంభావ్యతలను సర్దుబాటు చేశారు, కాబట్టి దెయ్యాలు సాధారణంగా కదిలాయి, కాని ఎడమ మరియు కుడి కాకుండా పైకి క్రిందికి కదిలే అవకాశం ఉంది. శబ్దం లేని వాతావరణంలో శిక్షణ పొందిన AI ఏజెంట్లు ఈ వాస్తవిక ఆటలలో ఇప్పటికీ మెరుగ్గా పనిచేశారు.
“ఇది తాత్కాలిక వాతావరణాలను రూపొందించడానికి మేము శబ్దాన్ని జోడించిన విధానం వల్ల మాత్రమే కాదు. ఇది ఉపబల అభ్యాస సమస్య యొక్క ఆస్తిగా ఉంది. మరియు ఇది చూడటానికి మరింత ఆశ్చర్యకరమైనది” అని బోనో చెప్పారు.
అన్వేషణ వివరణలు
పరిశోధకులు వివరణ కోసం లోతుగా తవ్వినప్పుడు, AI ఏజెంట్లు శిక్షణా స్థలాన్ని ఎలా అన్వేషిస్తారనే దానిపై వారు కొన్ని సహసంబంధాలను చూశారు.
AI ఏజెంట్లు ఇద్దరూ ఎక్కువగా ఒకే ప్రాంతాలను అన్వేషించినప్పుడు, నోసీ కాని వాతావరణంలో శిక్షణ పొందిన ఏజెంట్ మెరుగ్గా పనిచేస్తాడు, బహుశా ఏజెంట్ శబ్దం యొక్క జోక్యం లేకుండా ఆట యొక్క నియమాలను నేర్చుకోవడం సులభం.
వారి అన్వేషణ నమూనాలు భిన్నంగా ఉంటే, అప్పుడు ధ్వనించే వాతావరణంలో శిక్షణ పొందిన ఏజెంట్ మెరుగైన పని చేస్తుంది. ఇది సంభవించవచ్చు ఎందుకంటే ఏజెంట్ శబ్దం లేని వాతావరణంలో నేర్చుకోలేని నమూనాలను అర్థం చేసుకోవాలి.
“నేను నాన్-నోయిసీ వాతావరణంలో నా ఫోర్హ్యాండ్తో టెన్నిస్ ఆడటం నేర్చుకుంటే, కాని అప్పుడు ధ్వనించేటప్పుడు నేను నా బ్యాక్హ్యాండ్తో కూడా ఆడాలి, నేను నోయిసీ కాని వాతావరణంలో కూడా ఆడను” అని బోనో వివరించాడు .
భవిష్యత్తులో, మరింత క్లిష్టమైన ఉపబల అభ్యాస వాతావరణంలో లేదా కంప్యూటర్ దృష్టి మరియు సహజ భాషా ప్రాసెసింగ్ వంటి ఇతర పద్ధతులతో ఇండోర్ శిక్షణా ప్రభావం ఎలా జరుగుతుందో అన్వేషించాలని పరిశోధకులు భావిస్తున్నారు. వారు ఇండోర్ శిక్షణా ప్రభావాన్ని ప్రభావితం చేయడానికి రూపొందించిన శిక్షణా వాతావరణాలను కూడా నిర్మించాలనుకుంటున్నారు, ఇది AI ఏజెంట్లు అనిశ్చిత వాతావరణంలో మెరుగ్గా పనిచేయడానికి సహాయపడుతుంది.