Pod koniec ubiegłego miesiąca program komputerowy stworzony przez Carnegie Mellon University pokonał zespół światowej klasy pokerzystów w grze heads-up no-limit hold’em. Ku zaskoczeniu wszystkich bot Libratus pokonał ludzi z winratem rzędu 14 big blindów na 100 rozdań.
Zawodnicy rozegrali łącznie 120.000 rąk i pod koniec komputer wygrał razem 1,7 miliona żetonów, czyli około 17 tysięcy big blindów. To prawie 90-buy-inów. Na szczęście nie były to prawdziwe pieniądze, choć zawodnicy dostali pieniądze za udział w programie. Nikt nie zdołał jednak wyjść z walki zwycięsko poza Libratusem.
Program okrzyknięto “świętym graalem pokerowej sztucznej inteligencji”. Tego właśnie szukaliśmy tyle lat, mówi doktorant Noam Brown. Brown i profesor Tuomas Sandholm opracowali program będący najnowszym dzieckiem całej serii pokerowych botów z Uniwersytetu CMU. Nigdy wcześniej maszyna nie zdołała bowiem pokonać światowej klasy pokerzystów w odmianie heads-up no-limit hold’em.
Jak mówi Brown Libratus może zostać poprawiony jeszcze na wiele sposobów. Nowa wersja mogłaby zdaniem naukowców pokonać obecnego bota nawet o 50 bb na 100 rozdań.
Magazyn Card Player miał okazję przeprowadzić wywiad z Brownem na temat tego co dalej czeka nas na polu pokerowych programów.
Brian Pempus: Czy wynik gry zaskoczył Was w jakimś stopniu?
Noam Brown: Tak, byłem zaskoczony jak dobrze poradził sobie Libratus. Testy wykazywały, że nowy bot może pokonać Claudico, czyli poprzedni program o jakieś 10-12 big blindów, czyli mniej więcej tyle ile wynosiła przewaga ludzi w poprzednim pojedynku. Wierzyliśmy, że delikatnie dominujemy ludzi, ale nie byliśmy pewni czy się uda. Jesteśmy pod wrażeniem wyniku naszego dzieła.
BP: Czy Waszym zdaniem bot był gotowy do pokonania ludzi wynikiem 14 blindów na 100 rozdań czy dopisało mu szczęście?
NB: Przy Claudico ludzie odkryli sporo wad programu. Wystarczyło przykładowo przebijać jego limpowanie i bot odpuszczał. Stąd pochodziło sporo zysku ludzi. Libratus bardzo skutecznie bronił się przed próbami wykorzystania jego słabości i grał jak to mówią „swoje” odnotowując zysk tam gdzie mylili się ludzie.
BP: W pewnym momencie ludzie zaczęli doganiać program. Czy wtedy zaczęliście sądzić, że bot może nie dać sobie rady, bo znaleziono jego słaby punkt?
NB: Po pierwszym tygodniu wynik rzeczywiście zbliżył się do równego balansu żetonów, a ludzie sporo dyskutowali o tym jakie wady ma program i jak je wykorzystać. Nie mówili mi oczywiście wszystkiego, ale widziałem, że dostrzegają pewne wzorce zachowania programu. Myśleli jednak, że program ma uchybienia, których ja wiedziałem, że nie posiadał. Z jakiegoś powodu zakładali, że bot nie poradzi sobie z 3-betowaniem i zagrywali mocno z 80% swoich układów preflop w ten sposób. Był to jednak wniosek oparty na zbyt małej ilości danych i bot bez problemu dostosował się do ich ataku. Sporym problemem było to, że pewne kwoty lepiej działały na nasz twór i ludzie szukali optymalnych betów do zagrywania. Na szczęście w ciągu nocy, gdy ludzie spali nasz bot analizował rozdania i eliminował błędy. To dlatego w drugim tygodniu zaczął zwiększać swoją przewagę tak znacznie.
BP: Czy Libratus będzie już wkrótce grał idealnie? Ile wersji zostanie jeszcze wypuszczonych zanim to osiągnięcie?
NB: Nikt nie wie dokładnie jak daleko jest sztuczna inteligencja od strategii perfekcyjnej. Mamy metody, aby to obliczyć, ale jest to bardzo drogie i jeszcze tego nie robiliśmy. Być może zajmiemy się tym w przyszłym roku. Moim zdaniem idealny bot pokonywałby obecnego Libratusa o jakieś 15 big blindów na 100 rozdań, ale wartość na może oscylować wszędzie pomiędzy 5 a nawet 5 bb/100 rąk.
BP: Więc bot może się jeszcze naprawdę rozwinąć w sporym zakresie?
NB: Ciężko o tym spekulować. Poprzednie boty nie brały pod uwagę na przykład blockerów na turnie i riverze co jest istotne w grze na wysokim poziomie. Libratus nie ma z tym problemu. Bot analizuje każdą możliwą rękę i na pewno mógłby radzić sobie o wiele lepiej jeśli chodzi o wartości procentowe puli o które zagrywa. Lepsze blefy, bardziej opłacalne value bety.
BP: Wiele osób obawia się o to, że boty mogą za kilka lat rozwalić internetowe roomy pokerowe i zniszczyć grę, którą tak lubimy. Czy to zagrożenie jest realne?
NB: My na pewno nie wprowadzimy nigdy naszego bota do internetu, choć dane, które ujawniamy mogą pomóc innym firmom o nie tak uczciwych zamiarach. Wiem, że w sieci nie brakuje tego typu programów, a internetowe roomy walczą z nimi. Ciężko mi powiedzieć co będzie za kilka lat, nie wiem nawet kto w tym momencie wygrywa tę wojnę.
BP: Czy gdyby stacki były inne a gra przebiegała w większym gronie to bot nadal byłby w stanie wygrywać?
NB: 200 big blindów to typowy stack, dlatego wybraliśmy taki rozmiar. Co roku odbywają się nawet zawody botów i tam też stack jest własnie taki. 200 big blindów ułatwia oczywiście programowi decyzje. Przy mniejszej liczbie żetonów Libratus poradziłby sobie tak samo albo i o wiele lepiej. Moim zdaniem przy stacku 500 lub 1000 jego przewaga również nabrałaby kolorów. Nie dlatego, że jest tak zaprogramowany, ale dlatego, że ludziom też rzadko kiedy przychodzi grać z taką liczbą żetonów. Libratus bardzo dobrze radził sobie z overbetowaniem na riverze. Ciekawe jak daliby radę ludzie.
BP: A co z dodatkowymi osobami przy stole? Czy bot będzie umiał pokonać kilku zawodników jednocześnie, na przykład w grach 6-max?
NB: Sprawdzaliśmy Libratusa w walce z dwoma oponentami. Nawet przy większej liczbie radzi sobie całkiem nieźle. Sęk w tym jak wtedy obliczyć jego wydajność. Gracze mogą ze sobą współpracować, a bot mimo idealnej strategii może wtedy przegrywać. Bardzo trudno zorganizować grę z pięcioma zawodnikami i botem, aby w jakichkolwiek kryteriach stwierdzić, że radzi on sobie lepiej niż inni pokerzyści. W dwuosobowym formacie wynik jest jasny. Na ten moment stoły 6-max mogą być trochę zbyt złożone dla botów pokerowych. Nasza liga komputerów pokerowych wprowadziła jednak do zawodów gry sześcioosobowe i przypuszczam, że na tym polu postęp pójdzie bardzo szybko. Za dwa lata Libratus może poradzić sobie nawet z 5 oponentami. Przy takiej liczbie uczestników nie ma jednak sensu grać idealnie. Lepiej atakować słabych zawodników i w ogólnej sumie danych szukać elementów najłatwiejszych do wykorzystania. Dyskusje na ten temat często toczymy na uniwersytecie. Na chwilę obecną ludzie są o wiele lepsi w wyłuskiwaniu słabych graczy i wykorzystywaniu ich słabych stron.