Tekoäly on onnistunut huijaamaan ihmiskunnan parhaalla mahdollisella tavalla, kun se on löytänyt hyödyn klassisesta arcade-pelistä Q * bert ja juoksen sen kanssa.
Vaikka aikaisemmat tekoälyn iteraatiot toistaisivat Q * bertin oikein, oppii jossain vaiheessa pelin toimintaa, mutta se havaitsee hyödyntämisen, jonka avulla se voi kerätä mielettömiä pisteitä. Luonnollisesti, kuten kukin pisteet metsästävä pelaaja, se toistaa prosessin, jotta se voi parantaa pisteitään tehokkaimmalla mahdollisella tavalla.
Alla olevassa videossa näet AI: n toimivan ympäri alustoja. Aluksi näyttää siltä, että se hyppää tavoitteettomasti alustojen välillä. Sen sijaan, että Q * bert näkisi pelin etenemisen seuraavalle kierrokselle, se juuttuu silmukkaan, jossa kaikki sen alustat alkavat vilkkua - täällä tekoäly voi sitten mennä piste-vimmaan keräämällä valtavia pisteitä.
LUE SEURAAVA: Yksi kiistanalaisimmista pelitietueista on vihdoin hylätty
kuinka vaihtaa salasana iPhonessa
Kuinka tekoäly voitti Q * bert-sodan
Murskattu otsikon kaikkien aikojen ennätys, tekoäly saavutti mahdottoman korkeat pisteet evoluutiostrategia-algoritmien ohjelmoinnin ansiosta. Evoluutiostrategiat (ES) poikkeavat tavanomaisesta vahvistusoppimisesta (RL), jota perinteinen tekoäly käyttää, koska sen katsotaan olevan skaalautuvampi sukupolvien oppimisensa vuoksi.
Kuhunkin oppimissilmukkaan viitataan sukupolvena, ja se jatkaa tehtäväänsä, kunnes asetettu ehto (tässä tapauksessa korkeat pisteet) täyttyy. Jokaisen peräkkäisen sukupolven myötä tekoäly imee edellisen sukupolven tietämyksen ja saavuttaa sen vuoksi paremmin saman tavoitteen ja ylittää sen. Jatka ja päädyt tekoälyyn, joka on ehdottomasti vertaansa vailla tehtävässään. Näin tapahtui täällä Q * bert-pistemäärän kanssa.
Esitetty paperi , jonka Freiburgin yliopiston tutkijat julkaisivat viime viikolla Saksassa, näyttää siltä, että vika ei ollut tiedossa oleva määrä. Itse asiassa, vaikka he eivät ole liian yllättyneitä virheen löytämisestä, on mielenkiintoista nähdä, kuinka tekoäly jatkoi eteenpäin ja oppi hyödyntämään sitä joka kerta pelatessaan maksimoimaan pisteytysmahdollisuutensa.
LUE SEURAAVA: Tämä tekoäly on oppinut hallitsemaan Super Mario Brosia
Virheen löytämiseksi agentin oli ensin opittava melkein suorittamaan ensimmäinen taso - tätä ei tehty kerralla, vaan käyttämällä monia pieniä parannuksia, tutkijat selittivät Rekisteri . Epäilemme, että jossain vaiheessa koulutusta yksi jälkeläisratkaisuista kohtasi virheen ja sai paljon paremman pistemäärän sisaruksiinsa verrattuna, mikä puolestaan lisäsi sen osuutta päivityksessä - sen paino oli korkein painotetussa keskiarvossa. Tämä siirsi ratkaisun hitaasti tilaan, jossa yhä useammat jälkeläiset alkoivat kohdata samaa vikaa.
Emme tiedä tarkkoja olosuhteita, joissa vika esiintyy; on mahdollista, että se ilmenee vain, jos aine noudattaa epäoptimaalista mallia [esimerkiksi kun agentti tuhlaa aikaa tai jopa menettää elämän]. Jos näin olisi, tavallisen RL: n olisi äärimmäisen vaikea löytää vika: jos käytät lisäpalkkioita, opit strategioita, jotka tuottavat nopeasti jonkin verran palkkioita sen sijaan, että oppisit strategioita, jotka eivät tuota palkkioita pitkään aikaan sitten yhtäkkiä voittaa iso.
Katso aiheeseen liittyvät Dragster-mestari Todd Rogers on juuri menettänyt kruununsa 35 vuoden jälkeen Tämä tekoäly on oppinut hallitsemaan Super Mario Bros 1-2: tä 17 päivän ajan Katso, kuinka tämä tekoäly oppii ajamaan GTA V: ssä Twitchillä
Botin upeista tuloksista huolimatta tutkijat eivät kuitenkaan sano, että tämä pätee ES-oppimisen mestaruuteen RL: n kautta. Itse asiassa molemmilla järjestelmillä on omat ongelmansa, ja näiden kahden yhdistelmä nähdään suurimmaksi osaksi parhaaksi vaihtoehdoksi eteenpäin.
Sama ES-menetelmä muissa Atari-peleissä ei tuottanut läheskään samoja positiivisia tuloksia. Toisaalta RL on vastuussa levyjen murskaamisesta vasemmalle, oikealle ja keskelle, mukaan lukien maailman parhaan GO-pelaajan voittamisesta. ES: llä on kuitenkin edelleen oma paikkansa asioissa, ja Nvidia suorittaa itse asiassa paljon tekoälykoulutusta, koska se vaatii enemmän laskentatehoa, mutta saavuttaa parempia tuloksia pidemmällä aikavälillä.
Riippumatta siitä, millä tavalla tulee tekoälyn kehittämisen tulevaisuus, ainakin tämä järjestelmän huijaava botti ei ole niin huono kuin tämä nyt häpäissyt videopelien maailmanmestari .