본문 바로가기

단축키

Prev이전 문서

Next다음 문서

단축키

Prev이전 문서

Next다음 문서

ChatGPT는 가장 강력한 GPT-4 Turbo도 사용할 수 있습니다! 오늘날 GPT-4 Turbo의 새 버전은 Claude 3 Opus를 제치고 다시 한번 대형 모델 순위의 왕좌를 되찾았습니다. 더욱이 새 모델이 64k 길이를 처리할 때 성능은 26k인 이전 버전의 성능에 직접적으로 도달합니다.

오늘부터 GPT-4 Turbo의 최신 버전이 공식적으로 ChatGPT Plus 사용자에게 공개됩니다!

그림그림

GPT-4 Turbo의 축복으로 ChatGPT의 쓰기, 수학, 논리적 추론 및 코딩 기능이 향상되었습니다.

편집자가 간단한 테스트를 해보니 ChatGPT의 최신 데이터가 4월로 업데이트된 것을 발견했습니다.

그림그림

벤치마크 테스트 결과에 따르면 GPT-4 Turbo는 이전 세대에 비해 수학 능력이 크게 향상되었습니다.

그림그림

신형 GPT-4 터보가 오늘 다시 한번 대형 모델 순위 1위를 차지한 것은 이해하기 어렵지 않다.

그림그림

울트라맨 자신도 “GPT-4는 이제 더 지능적이고 사용하기 더 편해졌다”고 말했다.

그림그림

또한 OpenAI에 따르면 GPT-4 Turbo는 응답할 때 더 직접적이고 덜 장황하며 구어체로 변합니다.

그림그림

벤치마크 테스트에서 GPT-4 Turbo의 성능이 어떤지 살펴보겠습니다.

수학 성적이 거의 10% 향상되었습니다.

OpenAI는 공식 공개 GitHub에서 gpt-4-turbo-2024-04-09의 최신 평가 결과를 공개했습니다.

이 모델은 주로 다음 7가지 벤치마크를 통해 평가되었습니다.

  • MMLU(대규모 다중 작업 언어 이해 측정)
  • MATH(MATH 데이터셋을 활용한 수학적 문제 해결 능력 측정)
  • GPQA(대학원 수준 Google 보호 질문 및 답변 벤치마크)
  • DROP(독해력 벤치마크에는 구절에 대한 이산적 추론이 필요함)
  • MGSM(다국어 초등 수학 벤치마크): 다국어 사고 사슬 추론기로서의 언어 모델
  • HumanEval(코드에 대해 훈련된 대규모 언어 모델 평가)
  • MMMU(전문가 일반 인공지능을 위한 대규모 다학제적 다중 모달 이해 및 추론 벤치마크)

이 GitHub 리포지토리에서 OpenAI는 주로 제로 샘플, CoT 설정을 사용하고 "다음 객관식 문제를 해결하세요"와 같은 간단한 지침을 사용합니다.

이 신속한 방법은 실제 사용 시 모델의 성능을 보다 정확하게 반영할 수 있습니다.

구체적인 결과는 다음과 같습니다.

최신 gpt-4-turbo는 이전 GPT-4 시리즈에 비해 성능이 대폭 향상되었습니다.

특히 수학 능력이 10% 가까이 향상됐다.

그림그림

전반적인 비교에서 새 모델은 기본적으로 Claude 3 Opus 및 Gemini Pro 1.5를 완전히 능가했습니다.

그림그림

건초더미에서 바늘 찾기가 기존 GPT-4보다 4.3배 향상되었습니다.

마찬가지로, 건초더미 속의 바늘 테스트에서도 최신 gpt-4-turbo는 모든 측면에서 이전 1106-프리뷰를 능가했습니다.

그림그림

컨텍스트가 길어질수록 모델에 대한 도전이 더 커지는 것으로 알려져 있습니다.

gpt-4-turbo가 최대 64,000개 토큰의 콘텐츠를 처리할 수 있는 경우 성능은 26,000개 토큰의 미리보기 버전 성능과 직접적으로 비슷합니다.

그림그림

GPT-4가 처음 출시된 시기를 되돌아보면 약 1년 전이었습니다.

최신 gpt-4-turbo의 성능은 32k 구성에서 1세대 GPT-4 대비 약 4.3배 향상되었습니다.

그런데 당시 모델이 처리할 수 있는 최대 컨텍스트는 32k에 불과했습니다.

그림그림

GPT-4 터보가 다시 왕좌에 올랐습니다.

얼마 전 Anthropic의 가장 강력한 모델인 Claude 3 Opus가 모든 주요 목록을 장악했다고 할 수 있습니다.

그러나 바로 오늘 OpenAI는 새로운 gpt-4-turbo를 출시하여 "1위" 위치에서 끌어내렸습니다.

최근 'LLM 예선 토너먼트' 결과에 따르면 GPT-4-Turbo가 다시 한번 Claude 3를 제치고 1위를 차지했습니다.

그림그림

LMSYS Org는 여러 분야에서 8,000명 이상의 인간 투표를 수집한 결과 GPT-4-Turbo의 프로그래밍 및 추론 성능이 다른 모델을 능가한다는 사실을 발견했습니다.

연구원들은 더 깊은 이해를 얻기 위해 아레나에 '카테고리' 기능을 도입했습니다.

이 새로운 기능을 사용하면 프로그래밍, 긴 쿼리 처리, 다국어 기능 등 다양한 영역에 걸쳐 보다 자세한 비교가 가능합니다.

그림그림

연구원들은 또한 코드 조각이 포함된 프로그래밍 도메인의 모든 대화에 태그를 지정했습니다. 이러한 측면에서는 GPT-4-Turbo가 더욱 강력한 성능을 보여줍니다.

그림그림

마찬가지로 Naman Jain은 LiveCodeBench에서 GPT-4-Turbo 새 버전의 성능(프로그래밍 경쟁 질문 포함)이 놀라운 4.5포인트 향상되었음을 발견했습니다.

이러한 유형의 문제는 현재 LLM에 큰 과제를 제기하며 이번 OpenAI 업데이트로 인해 모델 추론 기능이 크게 향상되었습니다.

그림그림

긴 쿼리(토큰 수가 500개를 초과) 분야에서는 Claude-3 Opus가 가장 잘 수행됩니다.

다소 예상외로 Command R/R+도 이 영역에서 매우 높은 점수를 받았습니다.

그림그림

그림그림

흥미롭게도 영어 팁만 포함된다면 순위는 전체 순위와 약간 다를 수 있습니다.

이 카테고리에서는 3개의 GPT-4-Turbo가 여전히 선두를 달리고 있습니다.

이러한 변화는 사용자 기반이 확대됨에 따라 언어 사용이 영어에서 중국어를 포함한 여러 언어로 이동하기 때문에 발생합니다.

그림그림

다른 언어를 다룰 때 모델의 성능도 다릅니다.

예를 들어 중국 환경에서는 Claude-3 Opus가 1위를 차지합니다.

그림그림

모델 점수에 대한 신뢰 구간(CI)은 다음과 같습니다.

그림그림

그리고 전체 승률 히트맵은 다음과 같습니다.

그림그림

참고자료:

 

✔️ 자세히 알아보기 URL (More information)

↓https://twitter.com/OpenAI/status/1778574613813006610

 

 

 

✔️ 자세히 알아보기 URL (More information)

↓https://twitter.com/lmsysorg/status/1778555678174663100

 

 




List of Articles
번호 제목 글쓴이 날짜 조회 수
공지 에디터 업데이트+) GPT AI 기능을 포함하여 강력한 도구들을 사용해보세요 ⬆️ file 🍀플로버404 2024.04.16 486
공지 덕질 공통 이용규칙 및 안내 (업데이트중+ 2024-04-13) 😀컴덕824 2024.04.14 790
공지 1000P를 모으면 다이소 상품권 1000원을 신청할 수 있습니다. file Private 2024.02.14 2696
52 claudebot 클로드봇 수집 공격 1 😀익명892 2024.04.18 96
51 이젠 병원에 UX개발 프로세스가 필요하다. file 😀익명100 2024.04.14 342
50 Redis 및 캐시 일관성 문제 file 😀익명461 2024.04.14 304
» GPT-4 Turbo가 다시 왕좌에 올랐고 ChatGPT가 무료로 업그레이드되었습니다! file 😀익명996 2024.04.14 351
48 6가지 Devin 대안 살펴보기: 프로그래밍 작업 자동화 😀익명328 2024.04.14 314
47 Opcache 설정 설명 file 😀익명681 2024.03.19 213
46 혼자 공부할 수 있는 프로그래밍 강의 링크 모음(국내) 😀익명400 2024.03.15 754
45 MIT 공개강좌 - 공짜(무료) 컴퓨터 과학 & 프로그래밍 입문 (python) 😀익명116 2024.03.10 506
44 WebRTC API 😀익명128 2024.03.10 463
43 진짜 서버 만들었습니다 file 😀익명210 2024.03.09 535
42 Pi-KVM, 라즈베리 파이를 이용하여 KVM over IP file 😀익명149 2024.03.09 515
41 IT 온라인 교육 사이트 모음 (21개 사이트) 😀익명811 2024.03.05 478
40 Apache Pulsar 2023년 검토 file 😀익명479 2024.02.08 213
39 Visual Studio Code를 위한 10가지 개발 팁 file 😀익명654 2024.02.08 247
38 효율적인 웹 개발을 위한 10가지 Visual Studio Code 확장 file 😀익명863 2024.02.08 244
37 웹 개발에 매우 ​​유용한 10가지 Github 저장소 file 😀익명538 2024.02.08 248
36 10가지 매우 유용한 Python 라이브러리 😀익명355 2024.02.08 280
35 AI 엔지니어링을 위한 상위 5개 JavaScript 도 file 😀익명991 2024.02.08 233
34 DNS 전파를 확인하는 7가지 사이트 😀익명750 2023.11.20 42
33 도메인 사이트주소 접속이 안될때 DNS 캐시 플러시 하는방법 (웹개발자가 봐야하는) file 😀익명174 2023.11.19 44
목록
Board Pagination Prev 1 2 3 Next
/ 3