AI가 시험을 더 잘 본다고? 답안 정리를 잘 한 것일뿐

AI 사고 능력과 인간의 사고 능력은 근본적 차이가 있어, 이를 주목할 필요가 있다고 중국 매체가 주장했다.              이미지=AI 제작

심화된 사고력과 멀티모달 능력의 향상 덕분에, 대형 AI 모델은 학습되지 않은 새로운 유형의 시험에서도 이미 인간의 우수한 수험생 수준에 도달했다.

그럼 인공지능(AI)은 과연 인간을 넘어선 것일까? 답은 “노”라는 게 중국 매체의 주장이다. AI의 시험 통과능력은 기존 답을 정리한 것이지, 인간처럼 답을 만들어낸 것과는 차이가 있다는 지적이다.

그럼 AI의 발전은 인간에게 무슨 의미가 있을까? 중국 매체는 바로 우리가 지금 이 시점에서 해야만 할 고민이라고 지적한다.

이 문제를 숙고할 때 ‘AI 시대 속 인간’이 되는 게 아니라, ‘인간의 AI시대’를 맞을 수 있다는 것이다. 의미 깊은 고민과 의미 깊은 답이다. 다음은 중국 매체의 장문의 기사다.

AI 대형 모델인 '도우바오(豆包)'는 올해 산둥성 대학입시 시험지를 풀어 약 690점을 획득했으며, 성적순으로 상위 80위 안에 들었다. 이는 베이징대나 칭화대 진학 가능성도 있다는 의미이며, 대형 모델이 ‘시험 스타’가 된 최신 사례에 해당한다.

여러 보고서에 따르면, 인공지능 시스템은 이미 대학 입학시험이나 기타 학문적 평가를 통과할 수 있는 능력을 보여주었다. 예를 들어, ChatGPT는 미국의 로스쿨 및 경영대학원 시험을 통과했으며, GPT-4 모델은 대부분의 STEM 분야 시험에서 높은 정확도로 답변하는 능력을 갖추었다.

AI가 이처럼 시험을 통과할 수 있다는 사실은, 교육의 미래와 학생들이 여전히 인간 고유의 역량을 어떻게 더 잘 습득하게 할 것인가에 대한 고민을 불러일으켰다.

무엇보다도, 이는 대규모 패턴 인식 능력의 성공 사례로 이해할 수 있다. 대형 모델은 언어 인식 및 재현, 추론과 문제 해결 능력에서 뛰어난 성과를 보여주었다. 대형 모델이 통과한 시험은 대부분 구조가 명확하고 형식이 고정되어 있으며, 텍스트 단서를 통해 정답을 유추할 수 있는 경우가 많았는데, 이는 대형 모델이 훈련받은 주요 강점에 부합했다.

또한, 대형 모델은 방대한 학습 데이터 소스를 갖고 있어 시험에서 두각을 나타내기 쉽다. 많은 시험 문제는 교과서, 학습자료, 기출문제와 유사한 경우가 많아, 이러한 내용이 모델의 훈련 코퍼스에 포함되었거나 구조적으로 유사했을 가능성이 높다.

그뿐만 아니라, 대형 모델은 과제와 무관한 범용성을 실현했다. 다양한 시험을 통과할 수 있다는 점은, 이들이 법률, 의학, STEM 등 여러 분야를 재훈련 없이 전환하며 처리할 수 있는 범용 언어 처리기임을 보여주었다. 이는 시스템 설계 측면에서 매우 인상적인 성취다.

이처럼 높은 성과에도 불구하고, 우리는 대형 모델이 인간 수험생에게 위협이 된다고 과장할 필요는 없다.

왜냐하면, 시험을 통과했다고 해서 ‘이해했다’는 것을 의미하지 않기 때문이다. 대형 모델의 ‘성공’은 개념적 이해가 아닌 통계적 일치에 기반한 것이며, 정답이 왜 맞는지를 스스로 ‘알고 있는’ 것은 아니다.

또한 대형 모델은 진정한 추론 기반을 결여하고 있다.

예를 들어, 미국 의사면허시험(USMLE)은 응시자가 현실 세계에 대한 경험과 윤리적 판단 능력을 갖추었음을 전제로 한다. 대형 모델이 문제를 맞췄다 하더라도, 신체 감각이나 임상 직관이 결여되어 있다.

우리는 또한 대형 모델이 본질적인 학습 과정을 지니고 있지 않다는 점을 인식해야 한다. 인간은 오해에서 좌절을 겪고, 반성하고, 시간이 지나면서 의미를 내면화하지만, 로봇은 그러한 과정을 경험하지 않는다.

교육심리학자 하워드 가드너는 지능이 다원적이며, 전통적인 IQ나 시험 성적으로만 평가할 수 없다고 보았다. 가드너의 다중지능 이론에 따라 보면, 대형 모델의 능력은 영역별로 다르게 나타난다.

언어 지능(읽기·쓰기 능력): 대형 모델은 탁월한 성과를 보였다.

논리-수학 지능(추상적 추론, 문제 해결, 패턴 인식): 구조화된 문제에 강하며, 수학·논리 문제에 뛰어났지만 복잡한 추론에선 불안정성을 보였다.

시각-공간 지능(머릿속에서 물체를 상상·조작): 순수 텍스트 기반 모델은 해당 능력이 부족하며, 시각 능력을 가진 멀티모달 모델이 이를 보완하고자 시도 중이다.

신체-운동 지능(신체 조작과 균형 능력): 대형 모델은 신체가 없어 전혀 구현되지 않는다.

음악-리듬 지능(음의 높낮이, 리듬, 선율 감지): 모방이나 분석은 가능하나, 청각적 체험이나 음악적 직관은 결여되어 있다.

대인관계 지능(타인의 감정, 동기, 관계 이해): 공감 능력을 모방할 수는 있으나, 진정한 사회적 의식이나 감정, 동기는 존재하지 않는다.

자기이해 지능(자기 인식과 감정 성찰): 대형 모델은 자아가 없으며, 일부 주장처럼 자의식, 목적, 주관적 경험을 획득한 것이 아니다.

자연탐구 지능(자연 패턴 인식, 생물 분류 등): 사실 검색은 가능하지만, 자연 환경에 대한 직관적 인식이나 상호작용은 불가능하다.

이러한 비교를 통해, 대형 모델이 언어·논리 지능에서는 탁월하나, 가드너가 강조한 신체성, 감정성, 경험성 측면의 지능은 구조적으로 수행할 수 없다는 점을 알 수 있다.

또한 ‘모방’과 ‘경험’의 관계 측면에서 보자면, 대형 모델은 공감이나 음악 창작 등 일부 지능을 모방할 수는 있지만, 실제 체험 기반은 결여되어 있다. 가드너의 이론은 지능이 현실 세계와의 상호작용 속에서 발전함을 강조한다.

교육 평가의 관점에서도, AI의 시험 능력 향상은 학문적 정직성과 오용 가능성에 대한 우려를 불러일으키며, 교육자들로 하여금 기존 평가 방식을 다시 고찰하도록 만들고 있다.

그러나 우리는 AI가 패턴을 인식하고 정답을 생성해 시험을 통과할 수는 있어도, 인간과 같은 방식으로 시험 내용을 ‘이해’한다고 보기는 어렵다는 점도 함께 봐야 한다. 상식이나 주관적 해석이 필요한 문제에서는 여전히 한계를 드러낸다.

오늘날 우리가 안심할 수 있는 지점은, 인공지능이 깊은 이해, 비판적 사고, 개인적 성찰이 필요한 복잡하고 미묘한 문제에는 아직 대응하기 어렵다는 사실이다.

이는 ‘의미를 이해하는 능력’이 인간 고유의 역량임을 보여준다. 현재의 AI 시스템은 이러한 능력을 갖추지 못했다. ‘수능 고득점 로봇’은 오히려 일부 학생과 비슷하다. 그들은 지식을 흡수하고 외우지만, 그 의미를 이해하지는 못한다. 그러니 그런 학생을 AI가 능가했다고 해도 이상할 것 없다.

다중지능 이론은 개별 특성에 맞춘 교육과 다양한 역량의 계발을 주장한다. 만약 학교가 글쓰기나 수학 문제 해결을 대형 모델에 과도하게 의존한다면, 인간의 발달에 있어 중요한 신체 활동, 사회적 소통, 감정 성장 등은 소홀히 다뤄질 수 있다.

따라서 우리는 새로운 형태의 교육을 고민해야 한다. 만약 대형 모델이 인간을 위해 설계된 시험을 통과할 수 있다면, 교육자는 시험의 목적을 다시 정의해야 한다. 기계적 기억이나 형식적 문제 해결만이 아니라, 창의력, 판단력, 감성 지능까지도 평가에 포함되어야 한다.

고도화된 인공지능의 수준에 놀라는 대신, ‘로봇 수험생’은 오히려 시험 구조와 그 한계를 드러내고 있다. 우리는 분명 강력한 도구를 만들어냈지만, 그들은 어디까지나 도구일 뿐이다. 이러한 모델은 훌륭한 교육 보조자일 수 있지만, 만약 이를 의료, 법률 등의 전문직을 대체하는 데 무분별하게 활용한다면 윤리적·안전적 문제가 생길 수 있다.

대형 모델이 다양한 시험을 통과한 것은 엔지니어링 복잡성 측면에서 하나의 이정표이지만, 인간 인지 능력과 동등함을 의미하지는 않는다. 인간이 AI와 어떻게 공존할 것인가는, 반드시 증거에 기반해 신중히 고민해야 할 문제다.

그리고 그 고민은 하루라도 빨리 시작해야 한다. 시간이 많지 않기 때문이다.

AI가 시험을 더 잘 본다고? 답안 정리를 잘 한 것일뿐

중 매체, AI 분석 답안과 인간의 창조 답안의 차이 인식할 필요 있어.

많이 본 기사

사회

문화

만화중국어

[만화 중국어] 忙地铁 "바쁜 지하철"