목차
서론
10월 7일 애플에서 발행한 논문인 "GSM-Symbolic"이다. 최근 발표하는 수학문제에 대한 성능을 측정할 때 자주 쓰이는 "GSM8K"에 대한 신뢰성 문제에 대한 의문을 제기하였다. 이런 의문을 해소하고자, 새로운 벤치마크인 "GSM-Symbolic"의 제작 방법 및 과정과 몇몇의 주요한 Open-Weight, Closed 모델에 대해서 평가를 진행했다.
이 논문에서 제시한 가장 주요한 문제점 몇가지는 다음과 같다.
- LLM은 동일한 질문을 몇가지 변화(ex. 변수명, 값 등)가 있을 때 눈에 띄는 차이를 보인다는 것이다.
- 문제의 절 수(문장 길이)가 증가함에 따라, 성능이 크게 저하된다.(최대 65%)
GSM-Symbolic은 이런 변화에 대해서 조작해가며 LLM의 성능을 측정한 벤치마크를 다루는 내용이다.
결국 주장하는 내용은 수학 문제 해결 벤치마크를 통해서, LLM은 문제에 대한 진정한 (수학적인)추론을 하는 것이 아니라, 훈련 데이터셋의 패턴을 모방하는 것이다.
개요
LLM의 능력이 다양한 도메인에서 발전하고 있는 가운데에, 진정한 추론이 가능한지는 중요한 문제로 아직도 남아있다. 일부 연구에서는 인상적인 기능을 강조하는데, 자세히 보면 실질적인 한계(진짜 추론이 아닌, 패턴매칭하는 것처럼 보임)가 보인다.
일례로 입력 토큰의 작은 변경에도 출력을 크게 변경하는 "강력한 토큰 편향" 문제가 보이는데, 이는 모델이 매우 민감하고 취약하다는 것을 알 수 있다. 또한 여러 토큰을 올바르게 선택하는 작업에서, 관련된 토큰이나 스텝에 따라서 정확한 답에 도달하는 확률이 기하급수적으로 감소하면서, 복잡한 추론 시나리오에서는 신뢰성이 강조되고있다.
GSM8K
수학적 추론 능력은 다양한 과학 및 실용적인 분야에서 문제해결을 위해 중요한 기술이다. 그에 따라 GSM8K (Grade School Math 8K)데이터셋은 이를 측정하기 위한 벤치마크로 부상했다.
해당 데이터셋에는 간단한 수학 질문에 대해서 자세한 자연어 해설을 포함하여, CoT(Chain-Of Thought)프롬프팅 기술에는 적합하지만, 고정된 질문들에 대해서 단일 메트릭만을 제공하고 있기에, 수학적 추론 능력에 대한 포괄적인 인사이트를 제한한다. 게다가 GSM8K의 유명세 때문에 의도치않게 데이터 오염의 위험이 증가할 수 있다.
마지막으로, GSM8K의 정적인 특성때문에(8K로 갯수가 고정), 모델의 한계를 이해하기 위한 다양한 실험들을 허용하지 않는다.(다양한 조건이나 질문과 난이도 측면에서 조정을 통한)
GSM-Symbolic의 제안
위와 같은 문제점을 해결하기 위해서, 보다 다양한 평가 프레임워크가 필요했고, 이를 통해 다양한 질문 변형과 복잡도를 조절해서 LLM의 robustness와 추론 능력을 탐구할 수 있다.
그 결과 GSM-Symbolic과 GSM-NoOp을 제안했다.
GSM-Symbolic
GSM8K는 유명한 단일 테스트 데이터셋이라서 데이터 오염과, 약간의 변형만으로도 성능이 크게 바뀔 수 있는 위험이 있다. 따라서 이런 한계를 해결하고자 새로운 변형된 데이터셋이 나왔다.
- iGSM : 계층적, 그래프 구조에서 파라미터 의존성을 포착하는 파이프라인을 통해 생성된 수학 데이터셋
- GSM-IC : 관련 없는 컨텍스트가 LLM성능을 저하시킬 수 있음을 보여주고, 프롬프트 기술에 초점을 맞춘 데이터셋
- GSM-Plus : GSM8K 질문의 변형을 소개하지만, 고정된 사이즈와 난이도를 가지고 있고, symbolic 템플릿이 없다.
- GSM1K : 기존 모델의 과적합을 식별하기 위해서 GSM8K의 스타일과 복잡도를 반영하는 데이터셋. 하지만 고정된 사이즈와, 공개되어 있지 않다.
이 논문을 읽으면서, GSM의 변형이 이렇게 많은지 알게되었다. 하지만 분명한 것은 많은 연구자들이 고정된 적은 수의 테스트 데이터셋으로 데이터 오염을 인식한 것이고, 이 논문을 포함해서 모델의 성능을 시험하고자 다양한 변형을 제시하고 있는 것이라 생각된다. 또한 저자는 고정된 크기 및 난이도의 테스트 데이터셋 사용에 대한 위험성을 주의하고, 이러한 '평가 프레임워크'로써 다양한 테스트를 통해 모델의 robustness를 평가하는데 도움이 되고자 이 논문을 작성한 것으로 보인다.
템플릿 만들기
먼저 GSM8K의 테스트 예시가 주어지면, 주석 처리 과정이 수행된다. 주석처리 과정은 변수, 도메인, 필요한 조건을 식별하여 질문과 답변의 정확성을 보장하는 작업이다. 예를 들어서, 질문들은 초등학교 수준이기 때문에 일반적인 조건으로는 정답이 0을 포함한 양의 정수여야한다는 것이다.
그리고, 템플릿 생성을 간소화하기 위해서, 공통의 적합한 이름(e.g. 사람, 음식 등으로)을 사용할 것이다.
템플릿 생성 후에는 주석 처리 과정이 옳은지 보장하기 위한, 몇가지 자동화된 체크를 할 것이다. 예를 들어, 원래 변수 값이 템플릿에 나타지 않는지 확인한다. 또, 원래 값이 모든 조건을 충족하고, 최종 답변이 원래 답변과 일치하는지 확인한다.
데이터가 생성되면, 템플릿 별로 10개의 랜덤 샘플을 수동으로 리뷰한다. 최종 자동화된 검사로, 두 개 이상의 모델이 각 질문에 올바르게 답하는지 확인한다. 그렇지 않으면, 다시 수동으로 검토한다.
실험 과정
- 모델 : 2B ~ 27B까지 다양한 크기의 20개의 오픈 모델, GPT-4o-mini, 4o, o1-mini, o1-preview 등을 사용
데이터셋
다양한 설정에서 거의 500번의 평가를 수행했다. 이를 위해 100개의 템플릿을 사용하고, 템플릿 당 50개의 샘플을 생성하여 managable한 데이터셋 크기를 유지했으며, 결과적으로 각 벤치마크에 대해서 총 5,000개의 예제가 생성되었다. 따라서, 100개의 예제로 구성된 50개의 데이터셋이 있으며, 각 예제는 GSM8K의 원래 100개 예제 중 하나의 변형이다.
평가 과정
GSM8K와 다른 벤치마크들과 같이 일반적인 설정인 CoT prompting with 8-shots를 그리디 디코딩으로 진행했다.
GSM-NoOp
GSM-NoOp 데이터셋은 질문과 관련성이 있어보이지만, 실제로는 관련이 없는 정보를 문제에 추가한 데이터셋이다. 해당 데이터셋을 통해서, 최신 모델에서 최대 65%의 성능 저하를 확인할 수 있었다.
이는 문제 해결을 위해서, 관련 정보를 식별하는 능력에 심각한 결함이 있다는 것을 드러낸다. 아마도 이러한 성능저하는 모델의 추론이 상식적인 용어에서 형식적이지 않고, 대부분 패턴매칭을 기반으로 하기 때문일 것이다.
위의 예시를 보면, 키위의 총 갯수에 대해서 물어보는데, 키위의 크기에 대한 서술이 들어가있다. 크기와 상관없이 갯수는 동일함으로 관련이 없는 정보인 것을 알 수 있다.
실험 결과
먼저, GSM8K의 신뢰성에 관한 질문을 해결하는 것으로 시작한다. GSM-Symbolic의 성능 분포를 연구함으로써, 다양한 성능 분포가 보인다. 중요한것은, GSM-Symbolic에서 모델의 성능이 떨어지는 것을 확인할 수 있었다.
다음으로는, 이름만 변경된 경우와 값과 숫자가 변경된 경우의 성능 분포를 비교해서, LLM의 추론 성능의 취약점에 대해서 조사한다.
결론적으로는 모델의 원래 GSM8K에 대한 성능은 이름만 변경했을 때의 성능 분포에 훨씬 가까웠다.
그러나, 성능 저하는 값이 변경되었을 때 크게 나타났고, 이름과 값 변경 두가지가 동시에 적용될 때 더 크게 나타나는 추세를 보였다.
그리고 우리는 질문에서 추가하거나, 제거된 절(글자 수)의 수에 따라서, 난이도의 영향을 실험했다.
그 결과 절의 수가 증가함에 따라서, 평균 성능이 떨어지고, 성능 분산이 모든 모델에서 증가했다.
50개의 GSM-Symbolic 템플릿을 사용해서 생성된 데이터셋에 대해서 측정된 성능의 분포다. 모든 모델들이 다양한 분포를 띄는 것을 볼 수 있고, GSM8K의 성능 측정 결과는 분포의 오른쪽 끝단에 위치하는 것을 주목하자.
GSM-Symbolic은 문제의 변수명, 값 정도만 변경해서 수학적인 난이도의 변화는 없는데, 이런 결과가 나오는게 흥미롭다. 또한 GSM8K가 성능 분포에서 오른쪽 끝단에 위치하는 것으로 보아, 테스트셋이 모델 학습에 이용되는 데이터 오염이 발생하여, 해당 테스트셋에 좋은 성능을 낼 수도 있을 것으로 생각된다.
GPT-4o, Llama3 모델은 성능 분포 그래프에서도, GSM8K의 성능은 분포의 중심에 가까이 있고, 하락치도 크지 않기에 수용가능한 수준인것에 비해, Gemma2, Phi-3,3.5, Mathstral 같은 모델은 성능 분포 그래프에서도 GSM8K의 성능이 오른쪽 끝에 위치 해있고, 성능 하락치도 상당히 높다.
변경 유형(이름, 값)에 따른 성능 취약점 관찰
이름, 값, 둘 다 변경함에 따라 측정된 성능 분포다. 그 결과를 보자.
먼저 이름을 변경할 때가 숫자를 변경할 때보다 분산이 더 작은 것을 볼 수 있다. 또한 GSM8K의 성능은 이름을 변경한 것의 분포에 중심에 훨씬 가까운 것도 관찰할 수 있다. 또한 분산의 증가함과 동시에, 분포의 평균이 모든 모델에서 오른쪽에서 왼쪽으로 이동하는 것을 관찰할 수 있다.
또, 이름만 변경하는데 이러한 성능차이가 발생하는 것은, 진짜 수학적 이해를 가진 초등학생에게 이런 수준의 변동성이 생기지 않을 것이기 모델의 "진정한 이해 및 추론"을 의심해볼 수 있다.
(예를 들어, 바나나 4개 와 2개를 더하는 것과 사과 4개와 2개를 더하는 것의 수학적인 이해와 추론 과정이 다르지 않을 것인데, 이런 성능 차이가 발생하는 것에 대해 말하는 것 같다.)
이 것으로, 변경하는 난이도가 증가함(이름->값->둘 다)에 따라서, 전체 성능이 떨어지고, 분산이 커진다는 것을 관찰하여 LLM의 추론 능력이 취약하다는 것을 알 수 있다.
문제 난이도가 성능 분포에 미치는 영향
이 논문에선 문제 난이도 조절을 절의 수의 조작으로 수행했다. 다음과 같이 GSM-Symbolic을 기반으로 절을 추가하거나 제거해서, 문제 난이도를 조절한다.
사실 절을 추가하거나, 제거하는 것이 정량적인 난이도 조절에 영향을 줄 수 있는가? 라는 생각이 들었지만, 저자도 그 것을 인식하고 있는 것인지 정확한 성능 메트릭 보다는, 분포의 변화를 이해하는 것에 집중해달라고 했다.
모든 모델에 대해서, 성능 분포의 변화 추세가 "난이도가 증가함에 따라, 성능이 감소하고, 분산이 증가" 하는 것으로 일관된다.
그래서 LLM은 진짜 수학에 대해서 이해하고 있나?
이 섹션에서는 모델이 학습 분포의 일부가 아닌 것에 대해서의 치명적인 성능 저하에 대해서 얘기한다. 저자는 잠재적으로 in-distribution 패턴 매칭에 의존하기 때문일 것이라고 한다.
위에서 언급했 듯, GSM-NoOp은 겉보기에는 관련성이 있어보이지만, 문제 해결에 있어서는 궁극적으로 중요하지 않은 지시문을 GSM-Symbolic 템플릿에 추가한 것이다. 위의 예시를 보면, 5개의 키위가 평균보다 작다는 지시가 주어졌다. 키위의 크기는 갯수에 영향을 끼치지는 않지만, 모델은 더 작은 과일의 수를 맹목적으로 빼버렸다. 이는 훈련 데이터셋에 뺄셈 연산으로 표현된 유사한 예제가 포함되어 있을 수 있기 때문이다.
저자는 모델이 그 의미를 진정으로 이해하지 못하고, 지시문을 연산으로 변환하는 경향이 있다는 것을 관찰했다고 한다.(예를 들어, "할인" -> "곱셈") 결론적으로, 모델이 수학적 개념을 잘 이해하고 있는지에 대한 질문을 제기할 수 있다.
(a)에서 보면, Phi-3모델의 경우에는 성능 저하가 최대 -65%까지 일어났다. 또한 o1-preview같은 강력한 모델도 -17.5%까지 성능저하가 발생했다.
이러한 성능저하를 잘 이해하기 위해서, GSM-P2에 대한 평가에 사용한 8-shots의 소스를 GSM8K에서 변경하는 실험을 추가로 수행했다.
NoOp-Symb
GSM-Symbolic에서 가져온 동일한 질문에 대한 8개의 다른 샷을 포함. 따라서 각 샷은 문제 해결에 필요한 추론 단계를 제공한다. NoOp의 대상 질문은 값과 쓸모없는 추가 절만 다른 동일한 질문의 변형을 제시한다.
(b)를 보면, 동일한 질문에 대해서 shot의 변경을 해도 편차 내에서 성능이 유지되는 것을 보인다. 근데 신기하게도 (c)를 보면, 오히려 GSM-GSM, Symb-GSM는 못하지만, 오히려 NoOp-Symb가 훨씬 뛰어난 모델도 있었다.
NoOp-NoOp
다른 질문에 대한 NoOp의 샷을 포함. 이러한 설정은 정답이 앞에 포함된 NoOp문을 무시해야한다. Llama 모델의 경우는 거의 비슷하게 성능이 유지됐지만, Phi-3는 약간 저하되는 것을 관찰할 수 있다.
결론
GSM-Symbolic의 도입은 GSM8K 결과의 신뢰성을 의심하고, LLM의 수학적 추론 능력에 대해 더 깊은 인사이트를 제공할 수 있을 것이다. 또한 GSM-NoOp의 결과는 수학 문제 해결을 위해서 관련 정보를 식별하는데 LLM의 치명적인 결함이 있다는 것을 보였고, 이런 문제가 추론 과정에서 Few-shot learning이나 미세 조정으로 쉽게 해결할 수 있을지 모르겠는 더 깊은 문제를 시사한다.
결과적으로, 이 연구는 LLM이 진정한 수학적 추론을 수행하는데 상당한 한계가 있다는 것을 보이고, 동일한 질문의 다른 버전에서의 성능 편차와, 난이도 증가, 중요하지 않은 정보에 대해 민감하게 반응 하는 것으로 보아 추론이 취약한 것을 나타낸다. 따라서 LLM의 추론 방식은 진정한 논리적 추론이 아닌 정교한 패턴 매칭과 더 닮아 있을 수 있다. GSM8K과 같은 간단한 문제의 변형에서도 이런 문제가 발생하는데, 더 복잡한 연산이 포함된 수학 벤치마크에서는 이런 결과가 더 두드러지게 나타날 수 있다.
부록(o1-mini, o1-preview)
다른 모델들과 비교해서, 아주 좋은 성능을 낸다. 하지만, 난이도가 변경되면, 성능이 저하되고 분산이 증가하는 경향성은 똑같이 보인다. 또한 GSM-NoOp에 대해서는 똑같이 유의미한 성능 저하가 발생한다.
위의 예제는 인플레이션이라는 쓸데없는 정보를 주어짐으로써, 계산 과정에서 심각한 오류를 범하고 있는 것을 보인다.
느낀점
최근 Kaggle AIMO2 를 참여하면서, 비슷한 주제의 논문을 참고하고 있는데 내용이 흥미로워서 읽어보고 정리했다.
이 논문이 시사하는 것은 LLM은 논리적인 추론이 아닌 패턴 매칭에 기반하여 문제를 해결한다는 것이다.
가장 크게 사용되는 GSM8K는 단일의 고정된 크기의 데이터셋으로 테스트셋이 데이터 오염이 발생해서, 신뢰성이 부족하다는 의견을 시작으로, 진정한 논리적 추론을 위해 GSM8K의 변형 벤치마크에 대해서 소개한다.
그 중 GSM-NoOp 데이터셋에 대한 성능 저하를 관찰하면서, 필요없는 정보도 문제 해결에 이용하려고 한다는 점을 지적하며, 훈련 데이터셋에 분포를 활용해서 생성에 사용한다는 패턴 매칭 문제점이 크게 드러난다.
별개로, Claude에 대한 결과가 없는 것(GPT 성능 강조하려고...?)과, 저자가 생성한 데이터셋(템플릿이라던지, 사용한 테스트셋)을 공개하지 않은 것이 아쉽다.
'딥러닝(Deep Learning) > 논문 리뷰' 카테고리의 다른 글
ModernBERT : Smarter, Better, Faster, Longer(더 똑똑하게, 좋게, 빠르게, 길게) (0) | 2024.12.26 |
---|---|
Attention Is All You Need : 아직도 어텐션이 전부야? (0) | 2024.12.10 |
TODO: 23.12.29 Updated (0) | 2023.12.30 |