இதற்கு முன்னர் எந்த மனிதனும் செய்யாத வகையில் Q * பெர்ட்டை ஏமாற்ற AI கற்றுக்கொள்கிறது

கிளாசிக் ஆர்கேட் கேம் க்யூ * பெர்ட்டில் ஒரு சுரண்டலைக் கண்டுபிடித்து அதனுடன் ஓடியபின், ஒரு சிறந்த மனிதநேயத்துடன் ஏமாற்ற முடிந்தது.

AI இன் முந்தைய மறு செய்கைகள் Q * பெர்ட்டை சரியாக விளையாடும் அதே வேளையில், விளையாட்டு எவ்வாறு இயங்குகிறது என்பதைக் கற்றுக்கொள்வதில், அது ஒரு சுரண்டலைக் கண்டுபிடிக்கும், இது பைத்தியம் புள்ளிகளைக் குவிக்க உதவுகிறது. இயற்கையாகவே, எந்த ஸ்கோர்-வேட்டை வீரரும் விரும்புவதைப் போல, இது செயல்முறையை மீண்டும் செய்கிறது, இதனால் அதன் மதிப்பெண்ணை மிகச் சிறந்த முறையில் அதிகரிக்க முடியும்.

கீழேயுள்ள வீடியோவில் AI இயங்குதளங்களைச் சுற்றி செயல்படுவதைக் காணலாம். முதலில், இது தளங்களுக்கு இடையில் நோக்கமின்றி குதிப்பது போல் தெரிகிறது. அடுத்த சுற்றுக்கு விளையாட்டு முன்னேற்றத்தைப் பார்ப்பதற்குப் பதிலாக, Q * பெர்ட் அதன் அனைத்து தளங்களும் ஒளிரத் தொடங்கும் ஒரு வட்டத்தில் சிக்கித் தவிக்கிறது - இது இங்கே AI பின்னர் பெரிய புள்ளிகளைக் குவிக்கும் மதிப்பெண்-வெறித்தனத்துடன் செல்லலாம்.

அடுத்ததைப் படிக்கவும்: மிகவும் சர்ச்சைக்குரிய விளையாட்டு பதிவுகளில் ஒன்று இறுதியாக மதிப்பிழந்தது

என்னிடம் என்ன ராம் வகை இருக்கிறது

Q * பெர்ட் போரை AI எவ்வாறு வென்றது

தலைப்புக்கான அனைத்து நேர சாதனையையும் நொறுக்கி, AI அதன் பரிணாம மூலோபாய அல்காரிதம் நிரலாக்கத்திற்கு அதிக மதிப்பெண்களைப் பெற்றது. பரிணாம உத்திகள் (ES) வழக்கமான AI வலுவூட்டல் கற்றல் (RL) இலிருந்து வேறுபடுகின்றன, இது பாரம்பரிய AI பயன்படுத்தும் தலைமுறை கற்றல் காரணமாக அதிக அளவிடக்கூடியதாகக் கருதப்படுகிறது.

ஒவ்வொரு கற்றல் வளையமும் ஒரு தலைமுறை என குறிப்பிடப்படுகிறது, மேலும் இது ஒரு நிர்ணயிக்கப்பட்ட நிபந்தனை பூர்த்தி செய்யப்படும் வரை அதன் பணியைத் தொடர்கிறது (இந்த விஷயத்தில், அதிக மதிப்பெண்). ஒவ்வொரு தொடர்ச்சியான தலைமுறையுடனும், AI முந்தைய தலைமுறையின் அறிவை உறிஞ்சிவிடுகிறது, எனவே அதே இலக்கை அடைந்து அதை மிஞ்சுவதில் சிறந்தது. தொடர்ந்து செல்லுங்கள், நீங்கள் ஒரு AI உடன் முடிவடையும், அது அதன் பணியில் முற்றிலும் நிகரற்றது. Q * பெர்ட் மதிப்பெண்ணுடன் இதுதான் நடந்தது.

இல் கோடிட்டுக் காட்டப்பட்டுள்ளது காகிதம் , ஜெர்மனியின் ஃப்ரீபர்க் பல்கலைக்கழக ஆராய்ச்சியாளர்களால் கடந்த வாரம் வெளியிடப்பட்டது, பிழை அறியப்பட்ட அளவு அல்ல என்று தெரிகிறது. உண்மையில், பிழையைக் கண்டுபிடிப்பதில் அவர்கள் பெரிதும் ஆச்சரியப்படாத நிலையில், AI எவ்வாறு முன்னேறியது மற்றும் அதன் மதிப்பெண் திறனை அதிகரிக்க விளையாடிய ஒவ்வொரு முறையும் அதைப் பயன்படுத்த கற்றுக்கொண்டது எப்படி என்பது சுவாரஸ்யமானது.

அடுத்ததைப் படிக்கவும்: இந்த செயற்கை நுண்ணறிவு சூப்பர் மரியோ பிரதர்ஸ் மாஸ்டர் கற்றுக் கொண்டிருக்கிறது

பிழையைக் கண்டுபிடிக்க, முதல் நிலையை கிட்டத்தட்ட முடிக்க முகவர் முதலில் கற்றுக்கொள்ள வேண்டியிருந்தது - இது ஒரே நேரத்தில் செய்யப்படவில்லை, ஆனால் பல சிறிய மேம்பாடுகளைப் பயன்படுத்தி, ஆராய்ச்சியாளர்கள் விளக்கினர் பதிவு . பயிற்சியின் ஒரு கட்டத்தில் சந்ததிகளின் தீர்வுகளில் ஒன்று பிழையை எதிர்கொண்டது மற்றும் அதன் உடன்பிறப்புகளுடன் ஒப்பிடும்போது மிகச் சிறந்த மதிப்பெண் பெற்றது என்று நாங்கள் சந்தேகிக்கிறோம், இது புதுப்பித்தலுக்கான பங்களிப்பை அதிகரித்தது - அதன் எடை எடையுள்ள சராசரியில் மிக உயர்ந்தது. இது மெதுவாக தீர்வை விண்வெளிக்கு நகர்த்தியது, அங்கு அதிகமான சந்ததியினர் அதே பிழையை எதிர்கொள்ளத் தொடங்கினர்.

பிழை தோன்றும் துல்லியமான நிலைமைகள் எங்களுக்குத் தெரியாது; [எடுத்துக்காட்டாக, முகவர் நேரத்தை வீணடிக்கும்போது, அல்லது ஒரு வாழ்க்கையை இழக்கும்போது] முகவர் துணைக்குரியதாகத் தோன்றும் ஒரு மாதிரியைப் பின்பற்றினால் மட்டுமே அது தோன்றும். அப்படியானால், நிலையான ஆர்.எல். பிழையைக் கண்டுபிடிப்பது மிகவும் கடினம்: நீங்கள் அதிகரிக்கும் வெகுமதிகளைப் பயன்படுத்தினால், சிறிது காலத்திற்கு பல வெகுமதிகளைத் தராத உத்திகளைக் கற்றுக்கொள்வதை விட, சில வெகுமதிகளை விரைவாகக் கொடுக்கும் உத்திகளைக் கற்றுக்கொள்வீர்கள். திடீரென்று பெரிய வெற்றி.

தொடர்புடையதைக் காண்க டிராக்ஸ்டர் சாம்பியன் டோட் ரோஜர்ஸ் 35 ஆண்டுகளுக்குப் பிறகு தனது கிரீடத்தை இழந்துவிட்டார் இந்த செயற்கை நுண்ணறிவு சூப்பர் மரியோ பிரதர்ஸ் 1-2 ஐ 17 நாட்களாக மாஸ்டர் செய்ய கற்றுக் கொண்டிருக்கிறது இந்த AI ஐப் பாருங்கள் ஜி.டி.ஏ வி ஆன் ட்விட்சில் ஓட்ட கற்றுக்கொள்ளுங்கள்

இருப்பினும், போட்டின் அற்புதமான முடிவுகள் இருந்தபோதிலும், ஆராய்ச்சியாளர்கள் இது ஆர்.எல். உண்மையில், இரு அமைப்புகளுக்கும் அவற்றின் சொந்த சிக்கல்கள் உள்ளன, இரண்டின் கலவையும் பெரும்பாலும் முன்னோக்கி நகரும் சிறந்த விருப்பமாகக் கருதப்படுகிறது.

மற்ற அடாரி கேம்களில் அதே ES முறை அதே நேர்மறையான முடிவுகளுக்கு அருகில் எங்கும் கொண்டு வரப்படவில்லை. மறுபுறம், உலகின் சிறந்த GO பிளேயரை வீழ்த்துவது உட்பட, இடது, வலது மற்றும் மைய பதிவுகளை நொறுக்குவதற்கு RL பொறுப்பு. விஷயங்களில் ES க்கு இன்னும் அதன் சொந்த இடம் உண்டு, மேலும் இது உண்மையில் என்விடியா எவ்வாறு AI பயிற்சியை செய்கிறது, ஏனெனில் அதற்கு அதிக கணக்கீட்டு சக்தி தேவைப்படுகிறது, ஆனால் நீண்ட காலத்திற்கு சிறந்த முடிவுகளை அடைகிறது.

AI வளர்ச்சிக்கு எந்த வழி எதிர்காலமாக மாறும் என்பதைப் பொருட்படுத்தாமல், குறைந்தபட்சம் இந்த போட் கணினியை ஏமாற்றுவது இது போன்ற மோசமானதல்ல இப்போது அவமானப்படுத்தப்பட்ட வீடியோ கேம் உலக சாம்பியன் .