본문 바로가기
정보&팁/IT 기술

오픈AI의 새 AI ‘o3’, ‘o4 Mini’… 성능은 높지만 환각은 더 심해졌다?

by 가능성의 꾸꾸 2025. 4. 21.
반응형

안녕하세요 꾸꾸입니다!

 

AI가 그려가는 미래는 점점 더 정교해지고 있습니다. 하지만 최근 오픈AI(OpenAI)가 새롭게 발표한 ‘o3’와 ‘o4 Mini’ 모델에서는 놀라운 성능 향상 뒤에 예상치 못한 문제, 바로 환각(hallucination) 문제가 제기되며 업계의 우려를 낳고 있습니다.

이번 글에서는 이 두 모델이 무엇이고, 어떤 성능을 보여줬는지, 그리고 왜 ‘더 많이 틀리는’ 결과를 초래했는지 쉽게 정리해 보겠습니다.


1. 새롭게 등장한 추론형 AI, o3와 o4 Mini

오픈AI는 2024년 4월 16일, 기존의 GPT 계열과는 다른 ‘추론형 AI 모델’인 o3, o4 Mini를 공개했습니다.
이 모델들은 단순히 텍스트나 이미지를 “읽는 수준”을 넘어, 이미지에 담긴 의미를 해석하고 판단까지 내릴 수 있다고 소개됐습니다.

“이미지로 사고할 수 있는 첫 번째 모델” — OpenAI 공식 설명

예를 들어, 사용자가 화이트보드에 그린 다이어그램을 찍어 올리면 AI가 이를 분석하고, 흐릿한 사진이나 저화질 그래프도 이해해 관련된 해석을 제공할 수 있습니다.


2. AI 성능은 높아졌지만, 환각도 늘었다

아래 표는 오픈AI의 AI 모델별 환각 발생률을 보여줍니다.

모델명 환각률 (Person QA 기준) 비고
o1 16.0% 이전 추론형 모델
o3 Mini 14.8% 경량 모델
GPT-4o 약 20% 내외 일반형 모델
o3 33.0% 새 추론형 모델
o4 Mini 48.0% 새 경량 추론형 모델

환각(Hallucination)이란 AI가 존재하지 않거나 잘못된 정보를 실제처럼 생성하는 현상을 의미합니다. 예를 들어 "한국의 대통령은 오바마입니다" 같은 말도 안 되는 내용을 실제처럼 말하는 것입니다.


3. 왜 환각이 늘었을까?

오픈AI는 공식 기술 보고서를 통해 다음과 같은 가설을 내놓았습니다:

“새 모델이 이전 모델보다 더 많은 주장을 하기 때문에, 정확한 주장뿐 아니라 부정확하거나 허위 주장의 수도 많아진다.”

즉, 모델이 더욱 적극적으로 해석하고 판단하려다 보니, ‘자신감 있는 오답’을 낼 가능성도 함께 증가했다는 것입니다.

하지만 오픈AI는 여전히 명확한 원인을 파악하지 못하고 있으며, 이 문제는 지속적인 연구가 필요한 분야라고 밝혔습니다.


4. 성능은 어떤가요?

환각 문제가 있음에도 불구하고, 성능 자체는 분명히 강화됐습니다. 특히 코딩 능력에서는 놀라운 결과를 보였습니다.

모델명 SWE 벤치마크(코딩능력) 성능
o3 Mini 49.3%
Claude 3.7 62.3%
o3 69.1%
o4 Mini 68.1%

이는 Anthropic의 최신 모델인 Claude 3.7 Sonnet보다도 더 높은 수치로, 개발자 보조 도구로서 강력한 역량을 지녔다는 평가를 받고 있습니다.


5. 업계의 우려: “환각 잡지 못하면 사용 어렵다”

이제 생성형 AI는 단순한 도우미가 아닌, 업무 자동화와 전문 영역 보조 도구로 활용되고 있습니다. 특히 회계, 법률, 세무와 같은 정확성이 핵심인 분야에서는 환각 문제가 결정적인 결함이 될 수 있습니다.

“환각이 많아지면 AI를 쓸 수 있는 산업이 줄어든다.”
— AI 업계 관계자 인터뷰 중

또한 기존의 AI 모델 개선이 한계에 도달하자, 추론형 모델로 전략을 바꾼 주요 기업들에게 이번 결과는 경고 신호로 받아들여지고 있습니다.


6. 오픈AI의 대응과 전망

오픈AI는 다음과 같은 입장을 밝혔습니다.

“모든 문제에서 환각을 해결하는 것은 지속적인 연구 과제이며, 우리는 정확성과 신뢰성을 높이기 위해 계속 노력하고 있다.”

AI의 능력이 늘수록 무엇을 어떻게 말하는지에 대한 책임도 커지고 있습니다.
기술의 진보가 단지 스펙 경쟁으로 끝나지 않고, 신뢰성 있는 정보 제공까지 고려되어야 할 시점입니다.

 

반응형