[PSAT 기출] 2020 5급 상황판단 나책형 39번 40번 해설 – 알파고 인공지능 정책망 가치망 인공신경망

개요

다음은 2020년 국가공무원 5급 상황판단영역 나책형 39번, 40번 문제 해설이다.

문제

※ 다음 글을 읽고 물음에 답하시오. [문 39.~문 40.]

‘알파고’는 기존 인공지능의 수읽기 능력뿐만 아니라 정책망과 가치망이라는 두 가지 인공신경망을 통해 인간 고수 못지않은 감각적 예측 능력(정책망)과 형세판단 능력(가치망)을 구현한 바둑 인공지능이다. 인간의 지능활동은 물리적인 차원에서 보면 뇌 안의 시냅스로 연결된 뉴런들이 주고받는 전기신호의 상호작용으로 인해 나타난다. 인공신경망은 인간의 뇌가 작동하는 방식에서 착안하여 만든 것이다.

‘학습’을 거치지 않은 인공신경망은 무작위로 설정한 다수의 가중치를 갖고 있다. 이를 갖고 입력값을 처리했을 때 옳지 않은 출력값이 나온 경우, 올바른 결과를 도출하기 위해 가중치를 조절하는 것이 인공신경망의 학습과정이다. 따라서 오답에 따른 학습을 반복할수록 인공신경망의 정확도는 향상된다.

알파고의 첫 번째 인공신경망인 ‘정책망’은 “인간 고수라면 다음 수를 어디에 둘까?”를 예측한다. 입력(현 바둑판의 상황)과 출력(그 상황에서의 인간 고수의 착점) 사이의 관계를 간단한 함수로 표현할 수는 없다. 하지만 알파고는 일련의 사고가 단계별로 진행되므로 인공신경망의 입력과 출력 사이에 13개의 중간층을 둔 심층신경망을 통해 다음 수를 결정한다. 이 복잡한 인공신경망은 인간의 뇌에서 뉴런들이 주고받는 전기신호의 세기에 해당하는 가중치를 최적화해 나아간다. 이를 위해 인터넷 바둑 사이트의 6~9단 사용자의 기보 16만 건에서 추출된 약 3,000만 건의 착점을 학습했다. 3,000만 개의 예제를 학습하여 입력값을 넣었을 때 원하는 출력값이 나오게끔 하는 가중치를 각종 최적화 기법으로 찾는 방식이다.

이러한 ‘지도학습’이 끝나면 ‘강화학습’이 시작된다. 지도학습으로 찾아낸 각 가중치를 조금씩 바꿔보는 것이다. 예를 들어 지도학습 결과 어떤 가중치가 0.3이었다면, 나머지 모든 조건은 동일한 상태에서 그 가중치만 0.4로 바꾼 인공신경망과 가중치가 0.3인 기존의 인공신경망을 여러 번 대국시켰을 때, 주로 이긴 인공신경망의 가중치를 선택하게 된다. 모든 가중치에 대해 이와 같은 과정을 반복하여 최적의 가중치를 찾게 되는 것이다.

알파고의 두 번째 인공신경망인 ‘가치망’은 바둑의 대국이 끝날 때까지 시뮬레이션을 해보고 결과를 판단하는 대신에, 현재 장면으로부터 앞으로 몇 수만 진행시켜보고 그 상황에서 형세를 판단하는 것이다. 현대 바둑 이론으로도 형세의 유불리를 판단하는 기준이 몇 집인지 정량적으로 환산하기는 어렵다. 마찬가지로 정확한 평가 함수를 프로그래머가 알아야 할 필요가 없다. 평가 함수의 초깃값을 임의로 설정해놓고 정책망의 강화학습 때와 같이 두 가지 버전의 인공신경망을 대국시킨다. 만약 변경된 버전이 주로 이겼다면 그 다음 실험에서는 변경된 버전을 채택하는 과정을 무수히 반복한다. 이런 식으로 아주 정확한 평가 함수를 찾아갈 수 있는 것이다.

문 39. 윗글을 근거로 판단할 때 옳은 것은?

① 오답을 통한 학습과정을 더 많이 거칠수록 인공신경망의 정확도는 떨어진다.

② 알파고는 가중치를 최적화하는 과정에서 기보 한 건당 1,000건 이상의 착점을 학습했다.

③ 알파고는 빠른 데이터 처리 능력 덕분에 인터넷 기보를 이용한 지도학습만으로도 정확한 형세판단 능력의 평가 함수를 찾을 수 있었다.

④ 알파고가 바둑의 형세를 판단하도록 하기 위해서 프로그래머는 정확한 평가 함수를 알아야 한다.

⑤ 최초에는 동일한 인공신경망이라고 해도 강화학습의 유무에 따라 인공신경망의 가중치는 달라질 수 있다.

 

문 40. 윗글과 다음 <상황>을 근거로 판단할 때, 최종적으로 선택할 알파고의 가중치 A와 B를 옳게 짝지은 것은?

<상 황>
○ 다른 모든 조건이 동일한 상태에서 가중치 A, B만을 변경한다.

○ 가중치 A가 0.4이고 가중치 B가 0.3인 인공신경망이 가중치 A가 0.3이고 가중치 B가 0.3인 인공신경망을 주로 이겼다.

○ 가중치 A가 0.5이고 가중치 B가 0.3인 인공신경망이 가중치 A가 0.3이고 가중치 B가 0.3인 인공신경망을 주로 이겼다.

○ 가중치 A가 0.4이고 가중치 B가 0.4인 인공신경망은 가중치 A가 0.4이고 가중치 B가 0.3인 인공신경망에게 주로 졌다.

○ 가중치 A가 0.5이고 가중치 B가 0.3인 인공신경망은 가중치 A가 0.4이고 가중치 B가 0.3인 인공신경망에게 주로 졌다.

○ 가중치 A가 0.4이고 가중치 B가 0.3인 인공신경망이 가중치 A가 0.4이고 가중치 B가 0.2인 인공신경망을 주로 이겼다.

가중치 A 가중치 B
0.3 0.3
0.4 0.2
0.4 0.3
0.4 0.4
0.5 0.3

 

출처: 사이버국가고시센터

39번 문제 해설

① 오답을 통한 학습과정을 더 많이 거칠수록 인공신경망의 정확도는 떨어진다.

따라서 오답에 따른 학습을 반복할수록 인공신경망의 정확도는 향상된다.

보기의 내용은 옳지 않다.

 

② 알파고는 가중치를 최적화하는 과정에서 기보 한 건당 1,000건 이상의 착점을 학습했다.

이를 위해 인터넷 바둑 사이트의 6~9단 사용자의 기보 16만 건에서 추출된 약 3,000만 건의 착점을 학습했다. 3,000만 개의 예제를 학습하여 입력값을 넣었을 때 원하는 출력값이 나오게끔 하는 가중치를 각종 최적화 기법으로 찾는 방식이다.

3,000만 건 ÷ 16만 건 = 187.5건의 착점

알파고는 가중치를 최적화하는 과정에서 기보 한 건당 평균 187.5건의 착점을 학습했다.

따라서 보기의 내용은 옳지 않다.

③ 알파고는 빠른 데이터 처리 능력 덕분에 인터넷 기보를 이용한 지도학습만으로도 정확한 형세판단 능력의 평가 함수를 찾을 수 있었다.

알파고의 두 번째 인공신경망인 ‘가치망’은 바둑의 대국이 끝날 때까지 시뮬레이션을 해보고 결과를 판단하는 대신에, 현재 장면으로부터 앞으로 몇 수만 진행시켜보고 그 상황에서 형세를 판단하는 것이다. 평가 함수의 초깃값을 임의로 설정해놓고 정책망의 강화학습 때와 같이 두 가지 버전의 인공신경망을 대국시킨다. 만약 변경된 버전이 주로 이겼다면 그 다음 실험에서는 변경된 버전을 채택하는 과정을 무수히 반복한다. 이런 식으로 아주 정확한 평가 함수를 찾아갈 수 있는 것이다.

지도학습은 알파고의 첫 번째 인공신경망인 ‘정책망’과 관련이 있고, 형세판단 능력은 두 번째 인공신경망인 ‘가치망’과 관련이 있다.

따라서 보기의 내용은 옳지 않다.

 

④ 알파고가 바둑의 형세를 판단하도록 하기 위해서 프로그래머는 정확한 평가 함수를 알아야 한다.

마찬가지로 정확한 평가 함수를 프로그래머가 알아야 할 필요가 없다.

보기의 내용은 옳지 않다.

 

⑤ 최초에는 동일한 인공신경망이라고 해도 강화학습의 유무에 따라 인공신경망의 가중치는 달라질 수 있다.

‘지도학습’이 끝나면 ‘강화학습’이 시작된다. 지도학습으로 찾아낸 각 가중치를 조금씩 바꿔보는 것이다. 예를 들어 지도학습 결과 어떤 가중치가 0.3이었다면, 나머지 모든 조건은 동일한 상태에서 그 가중치만 0.4로 바꾼 인공신경망과 가중치가 0.3인 기존의 인공신경망을 여러 번 대국시켰을 때, 주로 이긴 인공신경망의 가중치를 선택하게 된다. 모든 가중치에 대해 이와 같은 과정을 반복하여 최적의 가중치를 찾게 되는 것이다.

지도학습 후 강화학습 과정에서 한 가중치만 변경한 인공신경망과 기존의 인공신경망을 여러 번 대국시켰을 때, 주로 이긴 인공신경망의 가중치를 선택하게 된다. 모든 가중치에 대해 이와 같은 과정을 반복하여 최적의 가중치를 찾게 되는 과정에서 인공신경망의 가중치는 달라질 수 있다.

따라서 보기의 내용은 옳다.

 

정답은 ⑤번이다.

 

40번 문제 해설

○ 가중치 A가 0.4이고 가중치 B가 0.3인 인공신경망이 가중치 A가 0.3이고 가중치 B가 0.3인 인공신경망을 주로 이겼다.

A 0.4 > A 0.3

 

○ 가중치 A가 0.5이고 가중치 B가 0.3인 인공신경망이 가중치 A가 0.3이고 가중치 B가 0.3인 인공신경망을 주로 이겼다.

A 0.5 > A 0.3

 

○ 가중치 A가 0.4이고 가중치 B가 0.4인 인공신경망은 가중치 A가 0.4이고 가중치 B가 0.3인 인공신경망에게 주로 졌다.

B 0.4 < B 0.3

 

○ 가중치 A가 0.5이고 가중치 B가 0.3인 인공신경망은 가중치 A가 0.4이고 가중치 B가 0.3인 인공신경망에게 주로 졌다.

A 0.4 > A 0.5

 

○ 가중치 A가 0.4이고 가중치 B가 0.3인 인공신경망이 가중치 A가 0.4이고 가중치 B가 0.2인 인공신경망을 주로 이겼다.

B 0.3 > B 0.2

 

A 0.4 > A 0.3
A 0.5 > A 0.3
A 0.4 > A 0.5

이므로 최적의 가중치 A는 0.4이다.

B 0.3 > B 0.4
B 0.3 > B 0.2

이므로 최적의 가중치 B는 0.3이다.

 

정답은 ③번이다.

2020 5급 PSAT 상황판단

관련 문서

답글 남기기

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다