이세돌 vs. AlphaGo 5국을 맞이하며: 흑이 약점 공략의 판을 어떻게 짤 것인가? 알파고의 착점 후보지를 벗어나는 수가 나오길…

주말에 대국을 재밌게 보셨는지요? 제 컴퓨터 바둑과 바둑에 대한 식견이나 지식이 짧지만 지인 분들께서 재밌게 관전하시라도 몇 자 더 적어봅니다. 이제 내일이 마지막 대국인데요. 경기 후에도 바둑과 인공지능에 대한 꾸준한 관심 부탁드립니다. 관련 주제에 관한 의견을 주시거나 토론하는 것은 언제나 Welcome입니다. ^^ 각설하고…

어제 있었던 제 4국은 이세돌 사범의 통쾌한 승리였는데요. 절망할 수 있는 상황에서도 포기하지 않고, 알파고 분석을 통해 마지막까지 최선을 다하는 정신력에 박수를 보내고 싶습니다. 이런 정신력이 그를 세계 최강의 자리까지 올려 놓은 원동력 중의 하나는 아닐련지?

여하튼 (아시다시피) 알파고는 큰 집을 지킬 때 약점이 드러난 듯 합니다. 이 사범이 오늘 흑을 잡겠다고 했는데요. 이는 두 가지 의도일 것으로 해석됩니다. (1) 백으로 승리했으니, 흑으로도 승리해 보겠다. (2) 선수인 흑을 잡아 알파고의 약점을 공략할 수 있는 틀을 만들겠다.

(2)로 보았을 때, 마지막 대국의 관전 포인트는 이렇습니다.
초반: 이 사범이 어떻게 유리한 틀을 짜는 포석을 하는지?
알파고가 이 사범의 작전에 얼마나 끌려올지?
초/중반: 이 사범이 약점을 어떻게 공략할지?
후반: 큰 실수 없이 마무리를 어떻게 풀어나갈지?

이 사범이 얼마나 실수를 하지 않을지와 같이 기존에 언급된 내용들은 모두 기본 전제입니다. 어제는 이 사범이 찾아낸 약점을 잘 공략해서 결과가 좋았는데요. 이 사범이 공략한 수가 (첫 3개의 대국에서와 같이) 알파고의 착점 후보지에 있을 가능성도 높습니다. (사실 어제 대국은 해설자의 설명을 듣거나 집중해서 볼 수 있는 상황이 아니라 좀 아쉽습니다. 그래서 분석의 정확도가 다소 떨어질 수 있습니다.)

이 사범의 자유분방함에 비추어봤을 떄, 이번 판은 기존 프로게임의 예상을 뒤엎는 경기가 될 수도 있을 것 같습니다. 정상급 프로기사의 기보에서 기존에 볼 수 없었던 경기를 기대해 봅니다.

4국 동안 알파고의 더 상세한 내용이 궁금해지셨을 것 같기도 하네요. 간략하게 요약해서 보냅니다. 여하튼 알파고는 인간이 바둑을 두는 3가지 방식을 모방하는데요.
스크린샷 2016-03-14 오전 10.44.11

알파고 방법론
스크린샷 2016-03-14 오전 10.44.24.png
참고로 한정된 연산자원에서 3을 이용해서 move sequence의 depth를 줄이면, breath가 늘어납니다.  풀어서 설명하자면 3을 쓰므로써, 더 많은 착점후보지를 검토하고, 수읽기를 충실히 해서 더 정확한 확률 계산이 가능하다는 것입니다. 즉, 예상되는 2가지 효과는 다음과 같습니다.
(1) Sub-tree를 더 촘촘하게 search할 수 있으므로, 2의 이길 확률을 더 정확히 계산할 수 있다.
(2) (만약 연산능력의 여유가 된다면) 1의 더 많은 policy를 검토할 수 있다.

CPU와 GPU의 갯수가 커지면 알파고가 검색하는 Sub-tree의 수가 커지게 됩니다. 이 Sub-tree coverage에 벗어나는 수를 많이 둘 때, 이세돌 사범에게 승리의 확률이 높아지게 될 것입니다. 한편, MCTS를 할 때, tree의 갯수를 자르는 가지치기 기술 (Prunning)에 VN도 이용될 듯 한데요. Value의 측정은 경우의 수가 적어지는 후반으로 갈수록 정확해지고, 초반 일수록 경우의 수가 많아져서 부정확한 부분이 나옵니다. 이 사범의 수가 착점후보지와 가지치기 된 자리에서 많이 나오기를 바랍니다.

원론적으로 Game tree의 depth와 breadth의 trade-off 관계가 있는데요. 대국이 시작하기 전에 (주어진 상황에서) 최선으로 여겨지는 depth와 breadth를 이미 결정했을 것이라고 예상됩니다. 왜냐하면 알파고의 모든 수가 대부분 1분 언저리에서 계산되기 때문에 이렇게 유추해 봅니다. 만약 그렇다면 (인간처럼) 이 trade-off 관계를 동적으로 할당하는 연구는 필요할 것으로 보입니다.

마지막으로 알파고의 대국 중 학습에 대해…

(1) 이 사범의 대국을 학습하지 않는다는 말은 이 사범을 위해서가 아니라 알파고를 위해서임.
1과 3의 경우, 몇 개월 간의 훈련을 하여 성능이 좋은 버전을 선택하고, 여러가지 튜닝을 했을 것으로 예상됩니다. 이세돌 사범과의 몇 개 대국을 입력하여 훈련한다는 것은 알파고 입장에서 리스크가 큽니다. 즉, 몇 개 대국을 넣어 훈련한 버전의 성능이 좋게 나온다는 보장이 없고, 성능 튜닝의 어려움으로 상태를 검증하는데까지 시간이 많이 걸려서 일것입니다. 고로 알파고가 대국 중 학습을 하지 않겠다는 것은 경기의 공정성이나 이 사범을 위해서가 아닌 알파고를 위한 조치인 것으로 추정됩니다.

긴 글 읽으시느라 고생하셨습니다.
(이런저런 일정에 쫒겨서 특별한 내용 확인 없이 막 적은 글이라 정확성이 떨어질 수도 있음을 밝힙니다)

Leave a Reply

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out / Change )

Twitter picture

You are commenting using your Twitter account. Log Out / Change )

Facebook photo

You are commenting using your Facebook account. Log Out / Change )

Google+ photo

You are commenting using your Google+ account. Log Out / Change )

Connecting to %s