முக்கிய ஸ்ட்ரீமிங் சேவைகள் இதற்கு முன்னர் எந்த மனிதனும் செய்யாத வகையில் Q * பெர்ட்டை ஏமாற்ற AI கற்றுக்கொள்கிறது

இதற்கு முன்னர் எந்த மனிதனும் செய்யாத வகையில் Q * பெர்ட்டை ஏமாற்ற AI கற்றுக்கொள்கிறது



கிளாசிக் ஆர்கேட் கேம் க்யூ * பெர்ட்டில் ஒரு சுரண்டலைக் கண்டுபிடித்து அதனுடன் ஓடியபின், ஒரு சிறந்த மனிதநேயத்துடன் ஏமாற்ற முடிந்தது.

AI இன் முந்தைய மறு செய்கைகள் Q * பெர்ட்டை சரியாக விளையாடும் அதே வேளையில், விளையாட்டு எவ்வாறு இயங்குகிறது என்பதைக் கற்றுக்கொள்வதில், அது ஒரு சுரண்டலைக் கண்டுபிடிக்கும், இது பைத்தியம் புள்ளிகளைக் குவிக்க உதவுகிறது. இயற்கையாகவே, எந்த ஸ்கோர்-வேட்டை வீரரும் விரும்புவதைப் போல, இது செயல்முறையை மீண்டும் செய்கிறது, இதனால் அதன் மதிப்பெண்ணை மிகச் சிறந்த முறையில் அதிகரிக்க முடியும்.

கீழேயுள்ள வீடியோவில் AI இயங்குதளங்களைச் சுற்றி செயல்படுவதைக் காணலாம். முதலில், இது தளங்களுக்கு இடையில் நோக்கமின்றி குதிப்பது போல் தெரிகிறது. அடுத்த சுற்றுக்கு விளையாட்டு முன்னேற்றத்தைப் பார்ப்பதற்குப் பதிலாக, Q * பெர்ட் அதன் அனைத்து தளங்களும் ஒளிரத் தொடங்கும் ஒரு வட்டத்தில் சிக்கித் தவிக்கிறது - இது இங்கே AI பின்னர் பெரிய புள்ளிகளைக் குவிக்கும் மதிப்பெண்-வெறித்தனத்துடன் செல்லலாம்.

அடுத்ததைப் படிக்கவும்: மிகவும் சர்ச்சைக்குரிய விளையாட்டு பதிவுகளில் ஒன்று இறுதியாக மதிப்பிழந்தது

என்னிடம் என்ன ராம் வகை இருக்கிறது

Q * பெர்ட் போரை AI எவ்வாறு வென்றது

தலைப்புக்கான அனைத்து நேர சாதனையையும் நொறுக்கி, AI அதன் பரிணாம மூலோபாய அல்காரிதம் நிரலாக்கத்திற்கு அதிக மதிப்பெண்களைப் பெற்றது. பரிணாம உத்திகள் (ES) வழக்கமான AI வலுவூட்டல் கற்றல் (RL) இலிருந்து வேறுபடுகின்றன, இது பாரம்பரிய AI பயன்படுத்தும் தலைமுறை கற்றல் காரணமாக அதிக அளவிடக்கூடியதாகக் கருதப்படுகிறது.

ஒவ்வொரு கற்றல் வளையமும் ஒரு தலைமுறை என குறிப்பிடப்படுகிறது, மேலும் இது ஒரு நிர்ணயிக்கப்பட்ட நிபந்தனை பூர்த்தி செய்யப்படும் வரை அதன் பணியைத் தொடர்கிறது (இந்த விஷயத்தில், அதிக மதிப்பெண்). ஒவ்வொரு தொடர்ச்சியான தலைமுறையுடனும், AI முந்தைய தலைமுறையின் அறிவை உறிஞ்சிவிடுகிறது, எனவே அதே இலக்கை அடைந்து அதை மிஞ்சுவதில் சிறந்தது. தொடர்ந்து செல்லுங்கள், நீங்கள் ஒரு AI உடன் முடிவடையும், அது அதன் பணியில் முற்றிலும் நிகரற்றது. Q * பெர்ட் மதிப்பெண்ணுடன் இதுதான் நடந்தது.

இல் கோடிட்டுக் காட்டப்பட்டுள்ளது காகிதம் , ஜெர்மனியின் ஃப்ரீபர்க் பல்கலைக்கழக ஆராய்ச்சியாளர்களால் கடந்த வாரம் வெளியிடப்பட்டது, பிழை அறியப்பட்ட அளவு அல்ல என்று தெரிகிறது. உண்மையில், பிழையைக் கண்டுபிடிப்பதில் அவர்கள் பெரிதும் ஆச்சரியப்படாத நிலையில், AI எவ்வாறு முன்னேறியது மற்றும் அதன் மதிப்பெண் திறனை அதிகரிக்க விளையாடிய ஒவ்வொரு முறையும் அதைப் பயன்படுத்த கற்றுக்கொண்டது எப்படி என்பது சுவாரஸ்யமானது.

அடுத்ததைப் படிக்கவும்: இந்த செயற்கை நுண்ணறிவு சூப்பர் மரியோ பிரதர்ஸ் மாஸ்டர் கற்றுக் கொண்டிருக்கிறது

பிழையைக் கண்டுபிடிக்க, முதல் நிலையை கிட்டத்தட்ட முடிக்க முகவர் முதலில் கற்றுக்கொள்ள வேண்டியிருந்தது - இது ஒரே நேரத்தில் செய்யப்படவில்லை, ஆனால் பல சிறிய மேம்பாடுகளைப் பயன்படுத்தி, ஆராய்ச்சியாளர்கள் விளக்கினர் பதிவு . பயிற்சியின் ஒரு கட்டத்தில் சந்ததிகளின் தீர்வுகளில் ஒன்று பிழையை எதிர்கொண்டது மற்றும் அதன் உடன்பிறப்புகளுடன் ஒப்பிடும்போது மிகச் சிறந்த மதிப்பெண் பெற்றது என்று நாங்கள் சந்தேகிக்கிறோம், இது புதுப்பித்தலுக்கான பங்களிப்பை அதிகரித்தது - அதன் எடை எடையுள்ள சராசரியில் மிக உயர்ந்தது. இது மெதுவாக தீர்வை விண்வெளிக்கு நகர்த்தியது, அங்கு அதிகமான சந்ததியினர் அதே பிழையை எதிர்கொள்ளத் தொடங்கினர்.

பிழை தோன்றும் துல்லியமான நிலைமைகள் எங்களுக்குத் தெரியாது; [எடுத்துக்காட்டாக, முகவர் நேரத்தை வீணடிக்கும்போது, ​​அல்லது ஒரு வாழ்க்கையை இழக்கும்போது] முகவர் துணைக்குரியதாகத் தோன்றும் ஒரு மாதிரியைப் பின்பற்றினால் மட்டுமே அது தோன்றும். அப்படியானால், நிலையான ஆர்.எல். பிழையைக் கண்டுபிடிப்பது மிகவும் கடினம்: நீங்கள் அதிகரிக்கும் வெகுமதிகளைப் பயன்படுத்தினால், சிறிது காலத்திற்கு பல வெகுமதிகளைத் தராத உத்திகளைக் கற்றுக்கொள்வதை விட, சில வெகுமதிகளை விரைவாகக் கொடுக்கும் உத்திகளைக் கற்றுக்கொள்வீர்கள். திடீரென்று பெரிய வெற்றி.

தொடர்புடையதைக் காண்க டிராக்ஸ்டர் சாம்பியன் டோட் ரோஜர்ஸ் 35 ஆண்டுகளுக்குப் பிறகு தனது கிரீடத்தை இழந்துவிட்டார் இந்த செயற்கை நுண்ணறிவு சூப்பர் மரியோ பிரதர்ஸ் 1-2 ஐ 17 நாட்களாக மாஸ்டர் செய்ய கற்றுக் கொண்டிருக்கிறது இந்த AI ஐப் பாருங்கள் ஜி.டி.ஏ வி ஆன் ட்விட்சில் ஓட்ட கற்றுக்கொள்ளுங்கள்

இருப்பினும், போட்டின் அற்புதமான முடிவுகள் இருந்தபோதிலும், ஆராய்ச்சியாளர்கள் இது ஆர்.எல். உண்மையில், இரு அமைப்புகளுக்கும் அவற்றின் சொந்த சிக்கல்கள் உள்ளன, இரண்டின் கலவையும் பெரும்பாலும் முன்னோக்கி நகரும் சிறந்த விருப்பமாகக் கருதப்படுகிறது.

மற்ற அடாரி கேம்களில் அதே ES முறை அதே நேர்மறையான முடிவுகளுக்கு அருகில் எங்கும் கொண்டு வரப்படவில்லை. மறுபுறம், உலகின் சிறந்த GO பிளேயரை வீழ்த்துவது உட்பட, இடது, வலது மற்றும் மைய பதிவுகளை நொறுக்குவதற்கு RL பொறுப்பு. விஷயங்களில் ES க்கு இன்னும் அதன் சொந்த இடம் உண்டு, மேலும் இது உண்மையில் என்விடியா எவ்வாறு AI பயிற்சியை செய்கிறது, ஏனெனில் அதற்கு அதிக கணக்கீட்டு சக்தி தேவைப்படுகிறது, ஆனால் நீண்ட காலத்திற்கு சிறந்த முடிவுகளை அடைகிறது.

AI வளர்ச்சிக்கு எந்த வழி எதிர்காலமாக மாறும் என்பதைப் பொருட்படுத்தாமல், குறைந்தபட்சம் இந்த போட் கணினியை ஏமாற்றுவது இது போன்ற மோசமானதல்ல இப்போது அவமானப்படுத்தப்பட்ட வீடியோ கேம் உலக சாம்பியன் .

சுவாரசியமான கட்டுரைகள்

ஆசிரியர் தேர்வு

மைக்ரோசாப்ட் லூமியா 650 விமர்சனம்: சிறப்பாக இருந்த ஸ்மார்ட்போன்
மைக்ரோசாப்ட் லூமியா 650 விமர்சனம்: சிறப்பாக இருந்த ஸ்மார்ட்போன்
மைக்ரோசாப்ட் விண்டோஸ் 10 மொபைலில் அதன் விலைமதிப்பற்ற நேரத்தை எடுத்துக் கொண்டது, ஆனால் இப்போது, ​​லூமியாஸ் 950 மற்றும் 950 எக்ஸ்எல் திரைகளில் முதலில் தோன்றிய ஒரு மாதத்திற்குப் பிறகு, இந்தத் தொடரில் அடுத்த தவணை ஏற்கனவே உள்ளது:
விண்டோஸ் 10 இல் எழுத்துருக்களை எவ்வாறு சேர்ப்பது, அகற்றுவது மற்றும் மாற்றுவது
விண்டோஸ் 10 இல் எழுத்துருக்களை எவ்வாறு சேர்ப்பது, அகற்றுவது மற்றும் மாற்றுவது
நல்ல அச்சுக்கலை புகழ்பெற்றது - எல்லாவற்றிற்கும் மேலாக, காமிக் சான்ஸில் எழுதப்பட்ட அலுவலக குளிர்சாதன பெட்டியில் ஒரு குறிப்பை யாரும் படிக்க விரும்பவில்லை. விண்டோஸ் 10 இயல்பாக நிறுவப்பட்ட நல்ல எழுத்துருக்களின் செல்வத்தைக் கொண்டிருந்தாலும், ஏராளமான சிறந்த மற்றும் இலவச -
Android இலிருந்து Android க்கு தொடர்புகளை எவ்வாறு மாற்றுவது
Android இலிருந்து Android க்கு தொடர்புகளை எவ்வாறு மாற்றுவது
உங்கள் எல்லா தொடர்புகளும் ஒரே இடத்தில் இல்லாமல் புதிய தொலைபேசி என்ன பயன்? Google Play Store இலிருந்து இலவச பயன்பாடுகளுடன் சில நாட்களைக் கொல்லலாம் என்றாலும், சிலரை நீங்கள் அழைக்கவோ அல்லது குறுஞ்செய்தி அனுப்பவோ விரும்பலாம்
விண்டோஸ் 10 இல் புகைப்படங்கள் பயன்பாட்டில் உள்ளவர்களை எவ்வாறு குறிப்பது
விண்டோஸ் 10 இல் புகைப்படங்கள் பயன்பாட்டில் உள்ளவர்களை எவ்வாறு குறிப்பது
விண்டோஸ் 10 இல் உள்ள புகைப்படங்கள் பயன்பாடு உங்கள் சேகரிப்பில் சேமிக்கப்பட்ட புகைப்படங்களில் நபர்களைக் குறிக்கும் திறனைப் பெற்றுள்ளது. அதை எவ்வாறு செய்ய முடியும் என்பதை இந்த இடுகை விரிவாக விளக்குகிறது.
உங்கள் பாரமவுண்ட் + கணக்கை ரத்து செய்வது எப்படி
உங்கள் பாரமவுண்ட் + கணக்கை ரத்து செய்வது எப்படி
நுகர்வோர் அதிகளவில் ஒரு தேர்வு மற்றும் தேர்வு மாதிரிக்கு மாறுகிறார்கள், அங்கு அவர்கள் ஒரு நேரத்தில் அல்லது சிறிய மூட்டைகளில் சேனல்களுக்கு சந்தா செலுத்துகிறார்கள். இந்த முறை மக்கள் உண்மையிலேயே, தேவைக்கேற்ப, ஒரு கொத்துக்கு பணம் செலுத்தாமல் பெற அனுமதிக்கிறது
உங்கள் டிவியில் நெட்ஃபிக்ஸ் இல் உங்கள் மொழியை மாற்றுவது எப்படி
உங்கள் டிவியில் நெட்ஃபிக்ஸ் இல் உங்கள் மொழியை மாற்றுவது எப்படி
திரைப்படங்கள் மற்றும் தொலைக்காட்சி நிகழ்ச்சிகளைப் பார்ப்பதற்கான மிகவும் பிரபலமான வழிகளில் ஸ்ட்ரீமிங் தளங்கள் தற்போது உள்ளன. அங்குள்ள சிறந்த தளங்களில் ஒன்றாக, நெட்ஃபிக்ஸ் ஆயிரக்கணக்கான மணிநேர பொழுதுபோக்குகளை வழங்குகிறது. அதற்கு மேல், நெட்ஃபிக்ஸ் அவற்றின் சொந்த அசலைக் கொண்டுவருகிறது
ஸ்பேம் அழைப்புகளுக்கு டெலிமார்க்கெட்டர்கள் உங்கள் தொலைபேசி எண்ணைப் பயன்படுத்துகிறார்களா? அது எப்படி சாத்தியம்?
ஸ்பேம் அழைப்புகளுக்கு டெலிமார்க்கெட்டர்கள் உங்கள் தொலைபேசி எண்ணைப் பயன்படுத்துகிறார்களா? அது எப்படி சாத்தியம்?
சமீபத்திய ஆண்டுகளில் டெலிமார்க்கெட்டர்கள் ஒரு உண்மையான தொல்லையாக மாறிவிட்டனர். அவர்கள் முடிவில்லாத தொடர் கேள்விகளைக் கேட்பார்கள், தொடர்ந்து உங்களுக்கு ஏதாவது விற்க முயற்சிப்பார்கள். துரதிர்ஷ்டவசமாக, இது பலருக்கு நன்கு தெரிந்த சூழ்நிலை. ஆனால் எப்படி கிடைத்தது