OpenAI는 약 2주간의 발표 이후 차세대 프론티어 모델의 미리보기를 통해 12일간의 OpenAI 라이브스트림 시리즈를 마무리했습니다. OpenAI CEO인 Sam Altman은 “Telefónica(유럽 O2 셀룰러 네트워크 소유자)의 친구들에 대한 존경심과 OpenAI의 이름이 정말 서투른 전통에 따라 o3이라고 부릅니다.”라고 말했습니다. 유튜브에 공지.
새 모델은 아직 공개적으로 사용할 준비가 되지 않았습니다. 대신 OpenAI는 먼저 도움을 원하는 연구자들에게 o3를 제공하고 있습니다. 안전 테스트. OpenAI도 o3-mini의 존재를 발표했습니다. Altman은 회사가 “1월 말경”에 해당 모델을 출시할 계획이며, “그 직후” o3가 뒤따를 것이라고 말했습니다.
예상할 수 있듯이 o3는 이전 제품에 비해 향상된 성능을 제공하지만 여기서 헤드라인 기능은 o1보다 얼마나 나은지입니다. 예를 들어, 올해를 통과했을 때 미국 초청 수학 시험o3은 96.7%의 정확도 점수를 달성했습니다. 이와 대조적으로 o1은 83.3%라는 비교적 낮은 평점을 받았습니다. OpenAI의 연구 담당 수석 부사장인 Mark Chen은 “이것은 o3가 종종 단 하나의 질문도 놓치는 경우가 많다는 것을 의미합니다.”라고 말했습니다. 실제로 o3는 OpenAI가 모델을 통해 벤치마킹할 수 있는 더 어려운 테스트를 찾아야 했던 일반적인 벤치마크 제품군에서 매우 좋은 성적을 거두었습니다.
그 중 하나는 ARC-AGIAI 알고리즘의 현장 직관 및 학습 능력을 테스트하는 벤치마크입니다. 테스트 작성자에 따르면 비영리 단체인 아크상ARC-AGI를 성공적으로 이길 수 있는 AI 시스템은 “인공 일반 지능을 향한 중요한 이정표”가 될 것입니다. 2019년 데뷔 이후 ARC-AGI를 능가하는 AI 모델은 없습니다. 시험은 대부분의 사람들이 직관적으로 알아낼 수 있는 입출력 문제로 구성되어 있습니다. 예를 들어 위의 예에서 정답은 진한 파란색 블록을 사용하여 4개의 폴리오미노로 정사각형을 만드는 것입니다.
낮은 컴퓨팅 환경에서 o3는 테스트에서 75.7%를 기록했습니다. 추가 처리 능력을 갖춘 모델은 87.5%의 평점을 달성했습니다. ARC Prize Foundation의 Greg Kamradt 회장은 “인간의 수행 능력은 85% 임계값에서 비교할 수 있으므로 이를 초과하는 것은 중요한 이정표입니다.”라고 말했습니다.
OpenAI도 o3-mini를 선보였습니다. 새로운 모델은 OpenAI가 최근 발표한 Adaptive Thinking Time API를 사용하여 낮음, 중간, 높음의 세 가지 추론 모드를 제공합니다. 실제로 이를 통해 사용자는 소프트웨어가 답변을 제공하기 전에 문제에 대해 “생각”하는 시간을 조정할 수 있습니다. 위 그래프에서 볼 수 있듯이 o3-mini는 OpenAI의 현재 o1 추론 모델과 비슷한 결과를 얻을 수 있지만 컴퓨팅 비용은 훨씬 저렴합니다. 앞서 언급했듯이 o3-mini는 o3보다 먼저 공개적으로 출시될 예정입니다.