강력한 ‘ReBeL’ 포커 AI

재귀적 신념 기반 학습 모델 ReBeL으로 알려진 새로운 인공 지능 프레임 워크는 Facebook 프로그래머가 AI 프로그램에는 다소 어렵다고 생각하는 게임 텍사스 홀덤 포커를 마스터하게 되면서 편견을 깨고 입증하게 되었습니다. ReBeL은 포커의 세밀한 부분을 더 잘 처리하고 이전에 개발된 포커 AI 인 Libratus를 능가하는 새로운 개념과 놀라운 성능을 보여줍니다.

최근 몇 년 동안 AI 시스템은 여러 복잡한 게임에 대해 마스터할 수 있게 개선되고 있습니다 . DeepMind의 AlphaZero 프로그램은 체스 등을 스스로 학습하고 자체적으로 셀프 플레이를 수행하여 몇 시간 만에 비슷한 게임에서 높은 경지에 다가섭니다. Libratus 역시 자체적인 셀프 플레이를 통해 헤즈 업 NLH를 배우는 놀라운 능력을 보여주었습니다.
ReBeL은 Libratus와 동일한 작업을 수행하지만 ‘게임 상태’라는 개념을 도입해 주입 및 학습하여 AI가 셀프 플레이 중에 숨겨진 정보를 분석하고 습득할 수 있도록 구현되었습니다.

ReBeL은 알려진 카드, 베팅 범위 그리고 상대방이 가질 수 있는 핸드 범위와 같은 실제 게임 상태에 대한 정보를 고려합니다. 또한 상대방이 유리하다고 생각하는지 여부를 고려하는 각 플레이어의 현재 상태에 대한 믿음에 대한 정보까지 고려합니다.

연구원들의 의견에 따르면 ReBeL은 바로 그 접근 방식 덕분에 불완전한 정보를 바탕으로 하는 게임을 마스터할 수 있었습니다. Facebook 개발팀은 프레임 워크가 2인용 버전의 홀덤, 턴 엔드게임 홀덤(처음 두 번의 베팅 라운드에서 레이즈가없는 간단한 게임 버전) 및 Liar’s Dice를 플레이하는 실험을 수행했습니다. 그에 따른 결과, 온라인 펠트에서 직면하고 싶지 않은 새로운 인공 지능 AI가 세상에 나올 수 있었습니다. ReBeL은 헤즈 업 스페셜리스트 김동을 7500 핸드 매치에서 핸드 당 1/165000 의 빅 블라인드로 승리하였습니다. 이는 Libratus가 2017년 4명의 프로 포커 플레이어를 이긴 빅 블라인드의 1/147000 보다 높은 수치입니다. ReBeL을 라이브홀덤이 아닌 온라인홀덤에서 실행하는 유저와 매치 될 수 있다는 걱정에 연구진들은 이에 대한 예방 조치를 취했습니다.

연구 결과에 따른 위험 중 가장 첫번째로 꼽히는 것이 포커류의 게임에서 부정 행위 가능성입니다. 이에 따라 연구원들의 의견은 오픈소스를 제공하지 않기로 결정하였습니다.
개발자들은 ReBeL 프레임 워크가 경매 혹은 사이버 보안 및 자율 주행 차량 등의 프로그램을 사용하여 보다 나은 알고리즘을 개선하는데 도움이 될 것이라고 의견을 더했습니다.