본문 바로가기
ChatGPT는 가장 강력한 GPT-4 Turbo도 사용할 수 있습니다! 오늘날 GPT-4 Turbo의 새 버전은 Claude 3 Opus를 제치고 다시 한번 대형 모델 순위의 왕좌를 되찾았습니다. 더욱이 새 모델이 64k 길이를 처리할 때 성능은 26k인 이전 버전의 성능에 직접적으로 도달합니다.

오늘부터 GPT-4 Turbo의 최신 버전이 공식적으로 ChatGPT Plus 사용자에게 공개됩니다!

그림그림

GPT-4 Turbo의 축복으로 ChatGPT의 쓰기, 수학, 논리적 추론 및 코딩 기능이 향상되었습니다.

편집자가 간단한 테스트를 해보니 ChatGPT의 최신 데이터가 4월로 업데이트된 것을 발견했습니다.

그림그림

벤치마크 테스트 결과에 따르면 GPT-4 Turbo는 이전 세대에 비해 수학 능력이 크게 향상되었습니다.

그림그림

신형 GPT-4 터보가 오늘 다시 한번 대형 모델 순위 1위를 차지한 것은 이해하기 어렵지 않다.

그림그림

울트라맨 자신도 “GPT-4는 이제 더 지능적이고 사용하기 더 편해졌다”고 말했다.

그림그림

또한 OpenAI에 따르면 GPT-4 Turbo는 응답할 때 더 직접적이고 덜 장황하며 구어체로 변합니다.

그림그림

벤치마크 테스트에서 GPT-4 Turbo의 성능이 어떤지 살펴보겠습니다.

수학 성적이 거의 10% 향상되었습니다.

OpenAI는 공식 공개 GitHub에서 gpt-4-turbo-2024-04-09의 최신 평가 결과를 공개했습니다.

이 모델은 주로 다음 7가지 벤치마크를 통해 평가되었습니다.

  • MMLU(대규모 다중 작업 언어 이해 측정)
  • MATH(MATH 데이터셋을 활용한 수학적 문제 해결 능력 측정)
  • GPQA(대학원 수준 Google 보호 질문 및 답변 벤치마크)
  • DROP(독해력 벤치마크에는 구절에 대한 이산적 추론이 필요함)
  • MGSM(다국어 초등 수학 벤치마크): 다국어 사고 사슬 추론기로서의 언어 모델
  • HumanEval(코드에 대해 훈련된 대규모 언어 모델 평가)
  • MMMU(전문가 일반 인공지능을 위한 대규모 다학제적 다중 모달 이해 및 추론 벤치마크)

이 GitHub 리포지토리에서 OpenAI는 주로 제로 샘플, CoT 설정을 사용하고 "다음 객관식 문제를 해결하세요"와 같은 간단한 지침을 사용합니다.

이 신속한 방법은 실제 사용 시 모델의 성능을 보다 정확하게 반영할 수 있습니다.

구체적인 결과는 다음과 같습니다.

최신 gpt-4-turbo는 이전 GPT-4 시리즈에 비해 성능이 대폭 향상되었습니다.

특히 수학 능력이 10% 가까이 향상됐다.

그림그림

전반적인 비교에서 새 모델은 기본적으로 Claude 3 Opus 및 Gemini Pro 1.5를 완전히 능가했습니다.

그림그림

건초더미에서 바늘 찾기가 기존 GPT-4보다 4.3배 향상되었습니다.

마찬가지로, 건초더미 속의 바늘 테스트에서도 최신 gpt-4-turbo는 모든 측면에서 이전 1106-프리뷰를 능가했습니다.

그림그림

컨텍스트가 길어질수록 모델에 대한 도전이 더 커지는 것으로 알려져 있습니다.

gpt-4-turbo가 최대 64,000개 토큰의 콘텐츠를 처리할 수 있는 경우 성능은 26,000개 토큰의 미리보기 버전 성능과 직접적으로 비슷합니다.

그림그림

GPT-4가 처음 출시된 시기를 되돌아보면 약 1년 전이었습니다.

최신 gpt-4-turbo의 성능은 32k 구성에서 1세대 GPT-4 대비 약 4.3배 향상되었습니다.

그런데 당시 모델이 처리할 수 있는 최대 컨텍스트는 32k에 불과했습니다.

그림그림

GPT-4 터보가 다시 왕좌에 올랐습니다.

얼마 전 Anthropic의 가장 강력한 모델인 Claude 3 Opus가 모든 주요 목록을 장악했다고 할 수 있습니다.

그러나 바로 오늘 OpenAI는 새로운 gpt-4-turbo를 출시하여 "1위" 위치에서 끌어내렸습니다.

최근 'LLM 예선 토너먼트' 결과에 따르면 GPT-4-Turbo가 다시 한번 Claude 3를 제치고 1위를 차지했습니다.

그림그림

LMSYS Org는 여러 분야에서 8,000명 이상의 인간 투표를 수집한 결과 GPT-4-Turbo의 프로그래밍 및 추론 성능이 다른 모델을 능가한다는 사실을 발견했습니다.

연구원들은 더 깊은 이해를 얻기 위해 아레나에 '카테고리' 기능을 도입했습니다.

이 새로운 기능을 사용하면 프로그래밍, 긴 쿼리 처리, 다국어 기능 등 다양한 영역에 걸쳐 보다 자세한 비교가 가능합니다.

그림그림

연구원들은 또한 코드 조각이 포함된 프로그래밍 도메인의 모든 대화에 태그를 지정했습니다. 이러한 측면에서는 GPT-4-Turbo가 더욱 강력한 성능을 보여줍니다.

그림그림

마찬가지로 Naman Jain은 LiveCodeBench에서 GPT-4-Turbo 새 버전의 성능(프로그래밍 경쟁 질문 포함)이 놀라운 4.5포인트 향상되었음을 발견했습니다.

이러한 유형의 문제는 현재 LLM에 큰 과제를 제기하며 이번 OpenAI 업데이트로 인해 모델 추론 기능이 크게 향상되었습니다.

그림그림

긴 쿼리(토큰 수가 500개를 초과) 분야에서는 Claude-3 Opus가 가장 잘 수행됩니다.

다소 예상외로 Command R/R+도 이 영역에서 매우 높은 점수를 받았습니다.

그림그림

그림그림

흥미롭게도 영어 팁만 포함된다면 순위는 전체 순위와 약간 다를 수 있습니다.

이 카테고리에서는 3개의 GPT-4-Turbo가 여전히 선두를 달리고 있습니다.

이러한 변화는 사용자 기반이 확대됨에 따라 언어 사용이 영어에서 중국어를 포함한 여러 언어로 이동하기 때문에 발생합니다.

그림그림

다른 언어를 다룰 때 모델의 성능도 다릅니다.

예를 들어 중국 환경에서는 Claude-3 Opus가 1위를 차지합니다.

그림그림

모델 점수에 대한 신뢰 구간(CI)은 다음과 같습니다.

그림그림

그리고 전체 승률 히트맵은 다음과 같습니다.

그림그림

참고자료:

 

✔️ 자세히 알아보기 URL (More information)

↓https://twitter.com/OpenAI/status/1778574613813006610

 

 

 

✔️ 자세히 알아보기 URL (More information)

↓https://twitter.com/lmsysorg/status/1778555678174663100

 

 


List of Articles
번호 분류 제목 조회 수 날짜
공지 🚨(뉴비필독) 전체공지 & 포인트안내 1 25750 2024.11.04
공지 클릭만 해도 포인트 만렙! 도전 4436 2025.03.19
공지 URL만 붙여넣으면 끝! 임베드 기능 20342 2025.01.21
145 하드웨어/네트워크 라이믹스 Rhymix 폴더 권한 소유권/퍼미 설정 스크립트 (단일 사이트용) 500 2025.05.03
144 잡담 애플 인텔리전스 한국에서도 일부 사용할 수 있네요 사용 가능 기기 참고요 file 893 2025.04.04
143 하드웨어/네트워크 서버에서 CPU의 L2, L3 캐시가 미치는 영향 765 2025.04.01
142 잡담 14만 인플루언서가 알려주는 인스타 성장을 위한 AI툴 총정리! file 369 2025.03.24
141 잡담 사전검증없는 비영리도메인 or.kr을 이용해서 돈버는 방법 (네이버 상위노출) file 690 2025.03.22
140 잡담 오픈ai에서는 유료인데 구글에서는 공짜로 풀었대 file 753 2025.03.19
139 잡담 유튜브 댓글 자동으로 삭제하는 방법 (크롬 브라우저 콘솔) file 840 2025.03.18
138 잡담 '2조원대 규모', 북한의 역대 최대 규모 암호화폐 해킹 사건을 파헤치다- BBC News 코리아 file 1239 2025.03.14
137 잡담 내 PC에서 로컬로 딥시크 (deep seek) 구동하기 345 2025.01.31
136 잡담 대황쿡: 애플 인텔리전스 한국어 4월 지원 file 345 2025.01.31
135 잡담 딥시크 검열없이 개인PC 자체 컴퓨터로 사용하는방법 file 342 2025.01.31
134 잡담 납땜과 리볼링까지 이거 보면 다 따라할 수 있어요. file 349 2025.01.30
133 잡담 ECC Unbuffered Memory가 뭔지요? 4 187 2025.01.29
132 잡담 메인보드 전원스위치를 넣어도 반응이 없는 이유... 3 183 2025.01.29
131 잡담 DNS서버 구축하시는분들 DNS 등록 어떻게 하셨나요? 1 183 2025.01.29
130 잡담 웹서버의 동시접속 수는 어떻게 산정해야하나요? 2 195 2025.01.29
129 잡담 사고를 냈는데 자동차 사이드 미러 가격이 얼마 정도 하나요? 2 201 2025.01.29
128 잡담 접지가 되어 있는 콘센트와 접지가 되어 있지 않는 콘센트 구분하는 방법 file 200 2025.01.28
127 하드웨어/네트워크 포트 스캐너(port scanner) 차단 (PSD) file 232 2025.01.27
126 하드웨어/네트워크 간단한 랜더팜/스토리지 구성 1 file 235 2025.01.27
125 가상화/딥러닝 vSphere Network 1 - vSphere에 Mikrotik RouterOS 설치 226 2025.01.27
124 하드웨어/네트워크 Mikrotik Winbox 맥OS 에서 편리하게 사용하기 file 225 2025.01.27
123 하드웨어/네트워크 미크로틱장비 L4스위치로 사용 1 218 2025.01.27
122 Q/A 포트스캔 차단방법? 214 2025.01.27
121 팁/유용/추천 링크시스 EA6900 공유기에 아수스 AC68U 펌웨어 올리기 233 2025.01.27
120 Q/A NAS 기가랜 여러개로 속도증가 성공입니다. file 230 2025.01.27
119 Q/A 리눅스 서버간 렌카드 직접 연결 문의? 1 242 2025.01.27
118 Q/A iptables로 80포트를 특정 도메인만 허용하고 싶습니다. 1 235 2025.01.27
117 Q/A C6509 부팅중 에러.. ㅠㅠ 1 239 2025.01.27
116 잡담 KT, 조직적 해킹팀 꾸려 통신망 감청·악성코드 유포 Kt진짜 뻔뻔하다 3 file 232 2025.01.27
Board Pagination Prev 1 2 3 4 5 Next
/ 5