[PSAT 기출] 2024 5급 언어논리 나책형 39번 40번 해설 – 표본 통계 가설 대립가설 귀무가설 유의수준 p-값

개요

다음은 2024년 국가공무원 5급 언어논리영역 나책형 39번 40번 문제 해설이다.

문제

[39~40] 다음 글을 읽고 물음에 답하시오.

표본에 의한 통계 가설의 평가로 가장 널리 알려진 방법은 ‘통계 가설이 틀리더라도 표본과 비슷한 자료를 얻게 될 확률’을 이용하는 것이다. 이 확률이 제법 높다면, 해당 통계 가설은 믿을 만한 근거가 없다고 판정된다. 왜냐하면 그런 확률을 가지는 표본은 해당 통계 가설이 거짓이라도 어렵지 않게 얻을 수 있는 것이기 때문이다. 하지만 그 확률이 제법 낮다면, 특히 어떤 정해진 문턱값보다 낮다면, 통계 가설이 참이라는 것에 대한 유의미한 증거가 있다고 결론 내린다. 왜냐하면 해당 통계 가설이 거짓이라면, 그런 표본은 쉽게 얻을 수 있는 것이 아니기 때문이다. 이 방법에서 연구자들이 평가하고자 하는 통계 가설은 ‘대립가설’이라고 불리고, 이 대립가설이 거짓이라는 가설은 ‘귀무가설’이라고 불린다. 귀무가설이 참일 때 표본과 비슷한 자료를 얻게 될 확률은 ‘p-값’이라고 한다. 그리고 p-값과 비교되어 대립가설이 참이라는 것에 대한 유의미한 증거의 존재 여부를 판단하는 기준이 되는 문턱값은 ‘유의수준’이라고 불리며, 일반적으로 0.05나 0.01이 많이 사용된다. 정리하면 p-값이 유의수준보다 작을 때 대립가설이 참이라는 것에 대한 유의미한 증거가 있고, 그렇지 않을 때 대립가설이 참이라는 것에 대한 유의미한 증거가 있지 않다고 본다.

예를 들어 보자. 연구자 갑은 이번에 새로 개발된 신약 A가 콜레스테롤 수치를 낮추는 데 효과가 있는지 확인하고 싶어 한다. 그는 ‘신약 A는 콜레스테롤 수치를 낮춘다’는 대립가설을 세우고, 이를 평가하기 위해서 ‘신약 A는 콜레스테롤 수치를 낮추는 데 아무 효과가 없다’라는 귀무가설을 검증한다. 갑은 먼저 실험군과 대조군을 무작위로 나누었다. 그리고 실험군에는 신약 A를, 대조군에는 가짜약을 제공한 뒤, 두 집단의 콜레스테롤 수치 평균의 차이를 관찰하는 실험을 진행하였다. 그 결과, 갑은 p-값이 0.04에 불과한 실험 결과를 획득하였다. 그는 이 실험 결과와 0.05라는 유의수준을 이용하여 ‘신약 A는 콜레스테롤 수치를 낮춘다’가 참이라는 것에 대한 유의미한 증거가 있다고 발표하였다.

위 사례는 p-값을 이용해 통계 가설을 평가하는 전형적인 모습을 보여준다. 하지만 이 방법을 사용하거나 이 방법을 사용한 연구를 평가할 때는 언제나 조심해야 한다. 왜냐하면 갑이 다음과 같이 실험 결과를 내놓는 경우를 생각해 볼 수 있기 때문이다. 사실 신약 A는 콜레스테롤 수치와 아무 상관없는 것이었다. 그로 인해 갑은 30번 정도 반복된 실험에서 모두 0.05보다 큰 p-값을 얻었다. 갑의 목표는 0.05보다 작은 p-값을 가지는 실험 결과를 얻는 것이었다. 우연히 그다음 실험에서 원하던 대로 0.05보다 작은 p-값을 얻었다. 정직한 과학자라면, 자신의 실험 결과를 모두 보고하고 이를 바탕으로 적절히 평가 받아야 할 것이다. 하지만 신약 A의 효과를 간절히 바랐던 갑은 그의 나머지 실험을 폐기하고 유의미한 증거가 나온 실험 결과만을 발표하였다. 이렇게 유의미한 p-값을 가지는 실험 결과가 나올 때까지 실험을 반복하고, 그 결과 중 일부만 발표하는 연구 부정 행위를 ‘p-해킹’이라고 부른다.

39. 위 글에서 알 수 있는 것은?

① p-해킹이 일어났다는 것은 귀무가설이 거짓이라는 것에 대한 유의미한 증거이다.

② 실험군과 대조군의 분류가 완전히 무작위로 이루어졌다면 p-해킹은 일어나지 않는다.

③ 귀무가설이 참일 때 표본과 비슷한 자료를 얻게 될 확률이 높다면, 유의수준은 커질 수밖에 없다.

④ 표본 자료의 p-값이 0.05보다 크다면, 관련 대립가설이 참일 확률이 0.95보다 높다는 것에 대한 좋은 증거가 있다고 결론 내릴 수 있다.

⑤ 큰 값을 유의수준으로 사용했을 때에는 대립가설이 참이라는 것의 유의미한 증거가 되지만, 작은 값을 유의수준으로 삼았을 때에는 그런 증거가 되지 않는 표본 자료가 있을 수 있다.

 

40. 위 글을 토대로 할 때 다음 <사례>에 대한 분석으로 적절한 것만을 <보기>에서 모두 고르면?

<사 례>
을은 새로 개발된 신약 B와 콜레스테롤 수치 사이의 관계를 확인하고자 한다. 그런데 신약 B에 관심을 가지고 있는 연구자는 을만이 아니었다. 을 이외에도 약 30여 명이 그 약에 관심을 가지고 있었다. 을을 포함한 연구자 각각은 같은 실험 조건으로 연구를 진행하고 있다는 사실을 서로 모른 채 신약 B가 효과가 있다는 결과를 산출하려는 어떠한 의도도 없이 실험을 진행하였다. 그 결과 30여 명의 연구자들 중에서 을만 0.05보다 작은 p-값을 가지는 유의미한 실험 결과를 얻었다. 다른 연구자들은 신약과 콜레스테롤 수치 사이에 유의미한 결과를 산출하지 못하였기 때문에 자신의 실험 결과를 폐기하고 금방 잊어버렸다. 결국 유의미한 결과를 산출한 을의 연구만 발표되었고, 발표 결과를 들은 일부 사람들은 신약 B의 효과를 믿게 되었다.
<보 기>
ㄱ. 신약 B에 대한 연구 사례는 심각한 연구 부정을 의도하지 않았어도, 대립가설이 틀렸음에도 불구하고 유의미하다고 판단되는 결과를 우연히 얻을 수 있다는 것을 보여준다.

ㄴ. 신약 A에 대한 갑의 연구 속 0.05보다 작은 p-값을 가진 실험 결과는 실제로 약효가 없음에도 불구하고 우연히 나온 결과이지만, 신약 B에 대한 을의 연구 속 0.05보다 작은 p-값을 가진 실험 결과는 그렇지 않다.

ㄷ. 신약 A에 대한 연구 속 30여 개의 실험 결과의 p-값들은 유의수준을 넘는 범위에 다양하게 분포되어 있지만, 신약 B에 대한 연구 속 30여 개의 실험 결과의 p-값들은 유의수준을 넘는 특정한 값 주변에 밀집되어 있는 양상을 띨 것이다.

① ㄱ

② ㄴ

③ ㄱ, ㄷ

④ ㄴ, ㄷ

⑤ ㄱ, ㄴ, ㄷ

 

출처: 사이버국가고시센터

39번 문제 해설

① p-해킹이 일어났다는 것은 귀무가설이 거짓이라는 것에 대한 유의미한 증거이다.

연구자들이 평가하고자 하는 통계 가설은 ‘대립가설’이라고 불리고, 이 대립가설이 거짓이라는 가설은 ‘귀무가설’이라고 불린다. 귀무가설이 참일 때 표본과 비슷한 자료를 얻게 될 확률은 ‘p-값’이라고 한다. 그리고 p-값과 비교되어 대립가설이 참이라는 것에 대한 유의미한 증거의 존재 여부를 판단하는 기준이 되는 문턱값은 ‘유의수준’이라고 불리며, 일반적으로 0.05나 0.01이 많이 사용된다.

귀무가설이 거짓이라는 것은 대립가설이 참이라는 것과 같다.

귀무가설이 참일 때 p-값이 유의수준보다 작다면, 대립가설이 참이라는 것에 대한 유의미한 증거가 있다고 본다.

그런데 ‘p-해킹’은 연구자가 원하는 유의미한 p-값을 가지는 실험 결과가 나올 때까지 실험을 반복하고, 그 결과 중 일부만 발표하는 연구 부정 행위이다.

p-해킹을 통해 대립가설이 참이라는 것에 대한 유의미한 증거가 있다는 조작된 연구 결과가 나올 수는 있다.

하지만 p-해킹이 일어났다는 것이 귀무가설이 거짓 또는 대립가설이 참이라는 것에 대한 유의미한 증거가 될 수 없다.

따라서 보기의 내용은 옳지 않다.

 

② 실험군과 대조군의 분류가 완전히 무작위로 이루어졌다면 p-해킹은 일어나지 않는다.

갑은 먼저 실험군과 대조군을 무작위로 나누었다.

신약 A의 효과를 간절히 바랐던 갑은 그의 나머지 실험을 폐기하고 유의미한 증거가 나온 실험 결과만을 발표하였다. 이렇게 유의미한 p-값을 가지는 실험 결과가 나올 때까지 실험을 반복하고, 그 결과 중 일부만 발표하는 연구 부정 행위를 ‘p-해킹’이라고 부른다.

위 글 사례에서 연구자 갑은 실험군과 대조군을 무작위로 나누었다.

p-해킹은 실험군과 대조군의 분류를 무작위로 나누는 것과 상관 없이 연구자가 자신이 원하는 실험 결과를 얻기 위해 실험을 반복하고, 그 결과 중 일부만 발표하는 연구 부정 행위이다.

따라서 보기의 내용은 옳지 않다.

③ 귀무가설이 참일 때 표본과 비슷한 자료를 얻게 될 확률이 높다면, 유의수준은 커질 수밖에 없다.

귀무가설이 참일 때 표본과 비슷한 자료를 얻게 될 확률은 ‘p-값’이라고 한다. 그리고 p-값과 비교되어 대립가설이 참이라는 것에 대한 유의미한 증거의 존재 여부를 판단하는 기준이 되는 문턱값은 ‘유의수준’이라고 불리며, 일반적으로 0.05나 0.01이 많이 사용된다. 정리하면 p-값이 유의수준보다 작을 때 대립가설이 참이라는 것에 대한 유의미한 증거가 있고, 그렇지 않을 때 대립가설이 참이라는 것에 대한 유의미한 증거가 있지 않다고 본다.

유의수준은 귀무가설이 참일 때 표본과 비슷한 자료를 얻게 될 확률인 ‘p-값’과 비교되어 대립가설이 참이라는 것에 대한 유의미한 증거의 존재 여부를 판단하는 기준이 되는 문턱값이다.

만약 귀무가설이 참일 때 표본과 비슷한 자료를 얻게 될 확률이 일반적으로 사용되는 유의수준인 0.05, 0.01보다 높다면, 대립가설이 참이라는 것에 대한 유의미한 증거가 있지 않다고 볼 뿐이지, 문턱값인 유의수준이 커지는 것은 아니다.

따라서 보기의 내용은 옳지 않다.

 

④ 표본 자료의 p-값이 0.05보다 크다면, 관련 대립가설이 참일 확률이 0.95보다 높다는 것에 대한 좋은 증거가 있다고 결론 내릴 수 있다.

유의수준이 일반적으로 사용되는 0.05 또는 0.01일 때, 표본 자료의 p-값이 0.05보다 크다면, 관련 대립가설이 참이라는 것에 대한 유의미한 증거가 있지 않다고 본다.

표본 자료의 p-값이 0.05보다 크다고 해서, 관련 대립가설이 참일 확률이 0.95보다 높다는 것에 대한 좋은 증거가 있다고 결론 내릴 수 있다는 내용은 위 글에서 언급되지 않는다.

따라서 보기의 내용은 옳지 않다.

 

⑤ 큰 값을 유의수준으로 사용했을 때에는 대립가설이 참이라는 것의 유의미한 증거가 되지만, 작은 값을 유의수준으로 삼았을 때에는 그런 증거가 되지 않는 표본 자료가 있을 수 있다.

유의수준이 0.05이고, p-값이 0.03이라면, 대립가설이 참이라는 것에 대한 유의미한 증거가 있다고 본다.

하지만 유의수준이 0.01이고, p-값이 0.03이라면, 대립가설이 참이라는 것에 대한 유의미한 증거가 되지 않는 표본 자료가 있을 수 있다.

따라서 보기의 내용은 옳다.

 

정답은 ⑤번이다.

40번 문제 해설

ㄱ. 신약 B에 대한 연구 사례는 심각한 연구 부정을 의도하지 않았어도, 대립가설이 틀렸음에도 불구하고 유의미하다고 판단되는 결과를 우연히 얻을 수 있다는 것을 보여준다.

갑의 목표는 0.05보다 작은 p-값을 가지는 실험 결과를 얻는 것이었다. 우연히 그다음 실험에서 원하던 대로 0.05보다 작은 p-값을 얻었다. 정직한 과학자라면, 자신의 실험 결과를 모두 보고하고 이를 바탕으로 적절히 평가 받아야 할 것이다. 하지만 신약 A의 효과를 간절히 바랐던 갑은 그의 나머지 실험을 폐기하고 유의미한 증거가 나온 실험 결과만을 발표하였다.

을을 포함한 연구자 각각은 같은 실험 조건으로 연구를 진행하고 있다는 사실을 서로 모른 채 신약 B가 효과가 있다는 결과를 산출하려는 어떠한 의도도 없이 실험을 진행하였다.

본문에서 갑은 원하는 실험 결과를 얻고자 30여 차례의 반복 실험을 통해 우연히 유의미한 증거가 나온 실험 결과를 얻었다.

반면 을은 어떠한 의도도 없이 실험을 진행하였다.

그럼에도 을이 얻은 연구 결과는 30여 명의 연구자들의 연구 결과와 상반되는, 신약과 콜레스테롤 수치 사이에 유의미한 결과를 산출한 것이었다.

을과 달리 30여 명의 연구자들의 연구 결과는 ‘신약 B는 콜레스테롤 수치를 낮춘다’는 대립 가설이 참이라는 것에 대한 유의미한 증거가 있지 않다는 것이다. 그러므로 을의 연구 결과는 우연히 얻어진 것으로 볼 수 있다.

그러므로 신약 B에 대한 연구 사례는 심각한 연구 부정을 의도하지 않았어도, 대립가설이 틀렸음에도 불구하고 유의미하다고 판단되는 결과를 우연히 얻을 수 있다는 것을 보여준다.

따라서 보기의 내용은 옳다.

ㄴ. 신약 A에 대한 갑의 연구 속 0.05보다 작은 p-값을 가진 실험 결과는 실제로 약효가 없음에도 불구하고 우연히 나온 결과이지만, 신약 B에 대한 을의 연구 속 0.05보다 작은 p-값을 가진 실험 결과는 그렇지 않다.

을과 달리 30여 명의 연구자들의 연구 결과는 ‘신약 B는 콜레스테롤 수치를 낮춘다’는 대립 가설이 참이라는 것에 대한 유의미한 증거가 있지 않다는 것이다. 그러므로 을의 연구 결과는 우연히 얻어진 것으로 볼 수 있다.

이는 주사위 1개를 100번 던지는 것이나 주사위 100개를 1번 던지는 것이나 특정 눈이 나올 확률은 같다는 확률론으로 이해할 수 있다.

갑의 연구는 30여 차례의 실험에서 우연히 나온 것이고, 을의 연구 역시 을을 포함한 30여 명의 연구자들의 실험에서 우연히 나온 결과이다.

따라서 보기의 내용은 옳지 않다.

 

ㄷ. 신약 A에 대한 연구 속 30여 개의 실험 결과의 p-값들은 유의수준을 넘는 범위에 다양하게 분포되어 있지만, 신약 B에 대한 연구 속 30여 개의 실험 결과의 p-값들은 유의수준을 넘는 특정한 값 주변에 밀집되어 있는 양상을 띨 것이다.

보기와 같은 내용을 증명할 만한 내용은 본문에서 언급되지 않는다.

따라서 보기의 내용은 옳지 않다.

 

정답은 ①번이다.

2024 5급 PSAT 언어논리

관련 문서

답글 남기기

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다