SMW2025 | June 26-27 @Coex

Home > 서울메타위크 매거진

[SMW Vol.10] Ep.3 미국 변호사 시험에서 GPT-4의 성과는 그 주장과 모순

2023-06-01

최근 미국 변호사 시험(UBE)에서 GPT-4의 성능을 조사한 결과, 모델의 성공률에 대한 OpenAI의 주장의 정확성에 대한 의문이 제기되었습니다. GPT-4가 90%의 개인을 능가한다는 초기 주장과는 달리, 이번 조사 결과는 AI 모델의 예상 성능과 실제 성능 사이에 상당한 불일치가 있음을 시사합니다. 이러한 사실은 이러한 주장을 검증하기 위한 투명한 평가 절차와 접근 가능한 데이터의 중요성을 강조합니다.

이번 시험은 GPT-4의 실제 능력을 확인하기 위해 다양한 요소에 초점을 맞추었습니다. 먼저, 일리노이주에서 2월에 치러진 시험을 분석한 결과 GPT-4의 점수가 90번째 백분위수에 근접한 것으로 나타났습니다. 그러나 이러한 점수는 이전에 7월 시험에 불합격한 적이 있는 재응시자의 영향을 많이 받아 전체 평균보다 낮은 점수를 받은 것으로 나타났습니다.

또한 7월 시험 결과는 OpenAI의 주장과는 상반된 것으로, GPT-4가 일반인의 68%, 에세이의 48%만 능가하는 것으로 나타났습니다. 여러 기간의 여러 시험의 공식 데이터를 고려했을 때 첫 응시자(재응시자 제외)에 대한 GPT-4의 성적은 63번째 백분위수로 평가되었으며, 에세이는 41번째 백분위수로 상당히 낮은 점수를 받았습니다.

면허를 취득한 사람과 면허 취득을 기다리는 사람을 포함하여 시험에 합격한 사람들의 성적을 조사하여 추가적인 관점을 얻을 수 있었습니다. 이와 관련하여 GPT-4의 전체 성적은 48번째 백분위수였으며, 에세이는 15번째 백분위수로 더욱 저조한 것으로 나타났습니다.

이러한 결과는 문제가 되지만 검토 과정에서 사람의 실수 가능성을 고려하는 것이 중요합니다. 이 기사의 저자는 연구자들이 GPT-4의 성능을 평가하는 데 사용한 샘플을 이해하는 것이 중요하다고 강조합니다. 특히 집계된 형태의 공식 데이터가 부족하기 때문에 백분위수를 공정하게 비교하고 평가하기가 어렵습니다. 모든 이해관계자가 평가할 수 있는 명확하고 접근 가능한 평가 기법을 확립하는 것이 중요합니다.

이러한 우려에 대응하기 위해 OpenAI는 불일치 문제를 해결하고 평가 프로세스에 대한 추가 인사이트를 제공할 것을 촉구합니다. 투명성과 개방성은 법률과 같이 이해관계가 첨예한 영역에서 신뢰를 얻고 AI 모델의 신뢰성을 보장하는 데 필수적입니다.

이 기사에서는 298점으로 보고된 GPT-4가 획득한 구체적인 점수에 대해서는 언급하지 않았다는 점에 유의해야 합니다. 이 점수의 의미를 평가하려면 사용된 채점 시스템에 대한 맥락적 이해가 필요합니다. 학교에서 B학점을 받고 집에 돌아온 아이가 축하를 받을 수도 있고 실망할 수도 있는 것처럼, GPT-4 점수의 해석은 사용된 척도에 따라 달라집니다.

변호사 시험에서 GPT-4의 성능에 대한 평가는 OpenAI의 초기 주장의 진실성에 대한 심각한 우려를 불러일으킵니다. 예상 성과와 실제 성과 사이의 격차는 명확한 평가 시스템과 쉽게 접근할 수 있는 데이터의 중요성을 강조합니다. OpenAI는 이러한 문제를 해결하고 AI 모델 평가에 대한 보다 포괄적이고 신뢰할 수 있는 접근 방식을 개발할 것을 권장합니다.

[SMW Vol.10] Ep.2 ChatGPT를 사용하여 가짜 인용으로 가득 찬 요약문을 작성하여 제재를 받은 변호사

[SMW Vol.10] Ep.4 사운드스톰: 구글, 실시간 음성 복제가 가능한 AI 도구 공개

RELATED EPISODES