오픈AI o1 버전 출시

지난 새벽에 오픈AI o1 버젼 출시 을 발표 하였다.

기존 chatgpt 4o버전도 많은 성능 개선이 있었는데
오늘은 o1버전은 얼마나 많은 개선이 이루어졌는지 알아보자.

o1 버전 확인

chatgpt 사용을 위한 웹사이트나 어플리케이션에 메뉴를 살펴보면 o1 프리뷰/미니가 추가 된 것을 확인 할 수 있다.
chatgpt 메뉴

오픈 AI는 24년 9월 12일(현지시간) 홈페이지를 통해 o1프리뷰와 o1 미니를 공개했다.
프리뷰는 더욱 전문화 된 영역(물리학, 화학, 생물학, 수학)에서 기존 4o보다 대폭 개선된 버전이다.
미니는 개발자를 위한 더 전문화 된 추론 엔진이다.

사용제한

몇시간 전 오픈AI o1 버전 출시 를 통하여
바로 사용할 수 있는 고급추론 엔진 특성상 사용할 수 있는 한도를 정해 두었다.
프리뷰는 주간 30개 메시지, 미니는 50개 메시지가 사용한도이다.



성능

이제 o1성능에 대해 알아보자.

시각인식 기능 벤치마크 MMMU에서 78.2%점수로 전문가 수준 달성

 

o1 버전을 사용해보면  4o 버전 보다 질문을 던지고 나서 좀 더디는 반응을 보인다.
오픈 AI에서 이야기하는 CoT(Chains of Thought;생각의 사슬)이 더 많은 연산을 하게 되어 있어
더욱 고급 추론의 대답을 낼 수 있다 한다.

벤치마크 결과들을 보면 전문가들이 참여하는 여러 경진대회에서 상위권을 랭킹하는 고무적인 결과를 볼 수 있다.
수학 역량은 미국의 가장 뛰어난 고등학생의 시험인 AIME에서 4o는 15문제에서 1.8문제를 풀었는데
반면, o1에서는 11.1(15문제중) 문제를 푼다고 한다.

화학, 물리, 생물학 분야에서는 박사 학위 전문가들의 시험인 GPQA 다이아몬드 질문에 대해서는
박사급 전문가를 능가하는 벤치마크를 달성 하여 전문가적인 문제해결 능력을 보여줄 수 있는것을 확인했다.

코딩, 필자도 4o를 통하여 많이 도움을 받는 기능인데 얼마나 개선이 이루어 졌을까?
Codeforces 프로그래밍 경연 대회에서 4o는 808점이였는데, o1는 1,807점을 받아 기존 대비 93% 더 나은 결과를 보여준다.

4o버전을 쓰면서 엉뚱한 뺑뻉이를 돌리는 경험이 종종 있는데
1o 미니를 통하여 얼마나 잘 응대하는지 적극 사용해 볼 예정이다.

생각의 사슬(Chains of Thought)

AI는 조금더 고도화 된 검색엔진의 개념으로 다양 한 데이터들을 입체적으로 저장하고
방대한 데이트를 순회하는 방법의 개선으로 클라우드를 통하여 가능해진
대용량의 데이터를 마치 하나의 컴퓨터에서 조회/연산이 가능해지면서
50년대에 등장한 AI이론을 구현하지 못하다가 빛을 보게 되어
각광을 받고 있다 생각한다.
이러한 조회와 연동 loop로 고도화 된 의미분석과 사고력을 가지게 되는데 있어
이런 반복 통로가 바로 생각의 사슬이다.
단계에 따라서 훈련, 평가, 강화학습등으로 배치되는데
1o버전은 통하여 더욱 개선되게 실수 수정, 다른 접근방법의 확장으로 더욱 전문화 된 추론 능력을 가지게 되었다고
오픈AI는 설명한다.



o1

오늘은 오픈AI o1 버전 출시 에 대해 알아보았다.
우문현답이라는 말이 있다.
AI는 결국 검색엔진의 확장이므로 더욱 자연어스러운 질의를 소화한다.
결국 AI의 쓰임은 우문우답, 현문현답의 결과를 낼 수 있는 기술이라 생각한다.
각자의 영역에서 다양한 프롬프트로 잘 활용할 수 있는 기술의 등장이라 생각하고
더욱 생산성 있는 결과를 도출하는 방법을 잘 개발하는 것이
AI시대에 중요한 역량이 될 것으로 생각한다.