본문 바로가기

단축키

Prev이전 문서

Next다음 문서

단축키

Prev이전 문서

Next다음 문서

ChatGPT는 가장 강력한 GPT-4 Turbo도 사용할 수 있습니다! 오늘날 GPT-4 Turbo의 새 버전은 Claude 3 Opus를 제치고 다시 한번 대형 모델 순위의 왕좌를 되찾았습니다. 더욱이 새 모델이 64k 길이를 처리할 때 성능은 26k인 이전 버전의 성능에 직접적으로 도달합니다.

오늘부터 GPT-4 Turbo의 최신 버전이 공식적으로 ChatGPT Plus 사용자에게 공개됩니다!

그림그림

GPT-4 Turbo의 축복으로 ChatGPT의 쓰기, 수학, 논리적 추론 및 코딩 기능이 향상되었습니다.

편집자가 간단한 테스트를 해보니 ChatGPT의 최신 데이터가 4월로 업데이트된 것을 발견했습니다.

그림그림

벤치마크 테스트 결과에 따르면 GPT-4 Turbo는 이전 세대에 비해 수학 능력이 크게 향상되었습니다.

그림그림

신형 GPT-4 터보가 오늘 다시 한번 대형 모델 순위 1위를 차지한 것은 이해하기 어렵지 않다.

그림그림

울트라맨 자신도 “GPT-4는 이제 더 지능적이고 사용하기 더 편해졌다”고 말했다.

그림그림

또한 OpenAI에 따르면 GPT-4 Turbo는 응답할 때 더 직접적이고 덜 장황하며 구어체로 변합니다.

그림그림

벤치마크 테스트에서 GPT-4 Turbo의 성능이 어떤지 살펴보겠습니다.

수학 성적이 거의 10% 향상되었습니다.

OpenAI는 공식 공개 GitHub에서 gpt-4-turbo-2024-04-09의 최신 평가 결과를 공개했습니다.

이 모델은 주로 다음 7가지 벤치마크를 통해 평가되었습니다.

  • MMLU(대규모 다중 작업 언어 이해 측정)
  • MATH(MATH 데이터셋을 활용한 수학적 문제 해결 능력 측정)
  • GPQA(대학원 수준 Google 보호 질문 및 답변 벤치마크)
  • DROP(독해력 벤치마크에는 구절에 대한 이산적 추론이 필요함)
  • MGSM(다국어 초등 수학 벤치마크): 다국어 사고 사슬 추론기로서의 언어 모델
  • HumanEval(코드에 대해 훈련된 대규모 언어 모델 평가)
  • MMMU(전문가 일반 인공지능을 위한 대규모 다학제적 다중 모달 이해 및 추론 벤치마크)

이 GitHub 리포지토리에서 OpenAI는 주로 제로 샘플, CoT 설정을 사용하고 "다음 객관식 문제를 해결하세요"와 같은 간단한 지침을 사용합니다.

이 신속한 방법은 실제 사용 시 모델의 성능을 보다 정확하게 반영할 수 있습니다.

구체적인 결과는 다음과 같습니다.

최신 gpt-4-turbo는 이전 GPT-4 시리즈에 비해 성능이 대폭 향상되었습니다.

특히 수학 능력이 10% 가까이 향상됐다.

그림그림

전반적인 비교에서 새 모델은 기본적으로 Claude 3 Opus 및 Gemini Pro 1.5를 완전히 능가했습니다.

그림그림

건초더미에서 바늘 찾기가 기존 GPT-4보다 4.3배 향상되었습니다.

마찬가지로, 건초더미 속의 바늘 테스트에서도 최신 gpt-4-turbo는 모든 측면에서 이전 1106-프리뷰를 능가했습니다.

그림그림

컨텍스트가 길어질수록 모델에 대한 도전이 더 커지는 것으로 알려져 있습니다.

gpt-4-turbo가 최대 64,000개 토큰의 콘텐츠를 처리할 수 있는 경우 성능은 26,000개 토큰의 미리보기 버전 성능과 직접적으로 비슷합니다.

그림그림

GPT-4가 처음 출시된 시기를 되돌아보면 약 1년 전이었습니다.

최신 gpt-4-turbo의 성능은 32k 구성에서 1세대 GPT-4 대비 약 4.3배 향상되었습니다.

그런데 당시 모델이 처리할 수 있는 최대 컨텍스트는 32k에 불과했습니다.

그림그림

GPT-4 터보가 다시 왕좌에 올랐습니다.

얼마 전 Anthropic의 가장 강력한 모델인 Claude 3 Opus가 모든 주요 목록을 장악했다고 할 수 있습니다.

그러나 바로 오늘 OpenAI는 새로운 gpt-4-turbo를 출시하여 "1위" 위치에서 끌어내렸습니다.

최근 'LLM 예선 토너먼트' 결과에 따르면 GPT-4-Turbo가 다시 한번 Claude 3를 제치고 1위를 차지했습니다.

그림그림

LMSYS Org는 여러 분야에서 8,000명 이상의 인간 투표를 수집한 결과 GPT-4-Turbo의 프로그래밍 및 추론 성능이 다른 모델을 능가한다는 사실을 발견했습니다.

연구원들은 더 깊은 이해를 얻기 위해 아레나에 '카테고리' 기능을 도입했습니다.

이 새로운 기능을 사용하면 프로그래밍, 긴 쿼리 처리, 다국어 기능 등 다양한 영역에 걸쳐 보다 자세한 비교가 가능합니다.

그림그림

연구원들은 또한 코드 조각이 포함된 프로그래밍 도메인의 모든 대화에 태그를 지정했습니다. 이러한 측면에서는 GPT-4-Turbo가 더욱 강력한 성능을 보여줍니다.

그림그림

마찬가지로 Naman Jain은 LiveCodeBench에서 GPT-4-Turbo 새 버전의 성능(프로그래밍 경쟁 질문 포함)이 놀라운 4.5포인트 향상되었음을 발견했습니다.

이러한 유형의 문제는 현재 LLM에 큰 과제를 제기하며 이번 OpenAI 업데이트로 인해 모델 추론 기능이 크게 향상되었습니다.

그림그림

긴 쿼리(토큰 수가 500개를 초과) 분야에서는 Claude-3 Opus가 가장 잘 수행됩니다.

다소 예상외로 Command R/R+도 이 영역에서 매우 높은 점수를 받았습니다.

그림그림

그림그림

흥미롭게도 영어 팁만 포함된다면 순위는 전체 순위와 약간 다를 수 있습니다.

이 카테고리에서는 3개의 GPT-4-Turbo가 여전히 선두를 달리고 있습니다.

이러한 변화는 사용자 기반이 확대됨에 따라 언어 사용이 영어에서 중국어를 포함한 여러 언어로 이동하기 때문에 발생합니다.

그림그림

다른 언어를 다룰 때 모델의 성능도 다릅니다.

예를 들어 중국 환경에서는 Claude-3 Opus가 1위를 차지합니다.

그림그림

모델 점수에 대한 신뢰 구간(CI)은 다음과 같습니다.

그림그림

그리고 전체 승률 히트맵은 다음과 같습니다.

그림그림

참고자료:

 

✔️ 자세히 알아보기 URL (More information)

↓https://twitter.com/OpenAI/status/1778574613813006610

 

 

 

✔️ 자세히 알아보기 URL (More information)

↓https://twitter.com/lmsysorg/status/1778555678174663100

 

 




List of Articles
번호 제목 글쓴이 날짜 조회 수
공지 덕질 공통 이용규칙 및 안내 (업데이트중+ 2024-04-13) 😀컴덕824 2024.04.14 5134
공지 1000P를 모으면 다이소 상품권 1000원을 신청할 수 있습니다. file Private 2024.02.14 5119
52 .Htaccess 301 리디렉션 규칙 😀익명222 2023.05.13 390
51 [Linux] ethtool 명령어를 이용한 NIC(Network Interface Controller) 정보 확인 방법 😀익명059 2023.08.31 354
50 [Ubuntu 20.04 server] 자동으로 디스플레이 끄기 😀익명631 2023.08.31 483
49 [리눅스] 리눅스 tar, gz 압축 및 해제 😀익명004 2023.08.31 456
48 10가지 매우 유용한 Python 라이브러리 😀익명355 2024.02.08 289
47 10만 개가 넘는 챗GPT 계정 정보가 다크웹에서 판매됨 file 😀익명801 2023.06.24 152
46 2023년 Stack Overflow 개발자 보고서 file 😀익명086 2023.06.24 160
45 6가지 Devin 대안 살펴보기: 프로그래밍 작업 자동화 😀익명328 2024.04.14 331
44 AI 엔지니어링을 위한 상위 5개 JavaScript 도 file 😀익명991 2024.02.08 238
43 AI로 인해, 스택오버플로우 28% 정리해고 1 file 😀익명152 2023.10.18 2376
42 AMD 인셉션 취약점 패치, 최대 54%의 성능 저하 file 😀익명136 2023.08.21 481
41 Apache Pulsar 2023년 검토 file 😀익명479 2024.02.08 223
40 Avalanche로 연속학습 해본 사람 있음? 1 😀익명447 2023.05.05 335
39 Best Practices for MySQL(mariadb) with SSD, NVME file 😀익명665 2023.08.31 515
38 claudebot 클로드봇 수집 공격 1 😀익명892 2024.04.18 134
37 cpu clock(속도) 조절 Linux CPU Frequency 😀익명484 2023.09.02 416
36 Debian 12 Bookworm 릴리즈 file 😀익명999 2023.06.24 177
35 DNS 전파를 확인하는 7가지 사이트 😀익명750 2023.11.20 50
» GPT-4 Turbo가 다시 왕좌에 올랐고 ChatGPT가 무료로 업그레이드되었습니다! file 😀익명996 2024.04.14 360
33 IT 온라인 교육 사이트 모음 (21개 사이트) 😀익명811 2024.03.05 483
목록
Board Pagination Prev 1 2 3 Next
/ 3