목차서론10월 7일 애플에서 발행한 논문인 "GSM-Symbolic"이다. 최근 발표하는 수학문제에 대한 성능을 측정할 때 자주 쓰이는 "GSM8K"에 대한 신뢰성 문제에 대한 의문을 제기하였다. 이런 의문을 해소하고자, 새로운 벤치마크인 "GSM-Symbolic"의 제작 방법 및 과정과 몇몇의 주요한 Open-Weight, Closed 모델에 대해서 평가를 진행했다.이 논문에서 제시한 가장 주요한 문제점 몇가지는 다음과 같다.LLM은 동일한 질문을 몇가지 변화(ex. 변수명, 값 등)가 있을 때 눈에 띄는 차이를 보인다는 것이다.문제의 절 수(문장 길이)가 증가함에 따라, 성능이 크게 저하된다.(최대 65%)GSM-Symbolic은 이런 변화에 대해서 조작해가며 LLM의 성능을 측정한 벤치마크를 다루는..