Processing math: 100%

COT 3

[Kaggle] AIMO2 Kaggle 우승 전략 분석: NVIDIA NemoSkills 솔루션 (CoT, TIR, GenSelect, Reasoning) [6 - Fin.]

목차 개요 AIMO2(AI Mathematical Olympiad 2) Kaggle 대회가 종료했다. 이번 대회는 LLM(대규모 언어 모델)을 활용한 수학 문제 해결 능력을 겨루는 장으로, 많은 참가자들이 L4 GPU 지원 하에 다양한 규모의 모델과 프롬프트 엔지니어링, 샘플링 파라미터 최적화 등을 시도했다.이 글에서는 저의 대회 참가 경험과 함께, 압도적인 성능으로 1위를 차지한 NVIDIA NemoSkills 팀의 솔루션을 TIR(Tool-Integrated Reasoning), GenSelect(Generative Solution Selection), OpenMathReasoning 데이터셋 구축 중심으로 심층 분석하고자 한다. 대회 종료 후기이전의 대회와 다르게 L4*4의 하드웨어를 지원하며, 더..

Kaggle 2025.05.03

[Kaggle] AIMO2 : QwQ-32B-Preview, Early Sharing Prize 얻은 대세의 Long-CoT 모델[4]

목차개요저번에 작성했듯이, 원래 LB 최상위권은 7~10점을 유지하고 있었다. 그 축에는 당연히 Qwen-72B-Math 모델이 있었고, 다양한 생성전략으로 LB 상위권을 유지했을 것이라 예측한다.그러던 중 갑자기 QwQ-32B-Preview 라는 모델이 등장했고, 대회에서도 원래 규칙이었던 2024년10월 이전 모델만 사용가능한 내용을 화이트리스트를 통해 허가를 받으면 허용해준다고 변경했다.그리고, 화이트리스트에 올라가자마자 QwQ를 이용한 결과가 나오기 시작했고, Early Sharing Prize도 일부 생성에 필요한 파라미터를 최적화함으로 받을 수 있었다.별개로, 저때 QwQ를 이용한 결과들이 리더보드에 채점됐는데, 당시 한 사람만 20점이 넘는 결과가 나와서 그 사람이 상을 받을 수 있었다...

Kaggle 2025.01.16

[Kaggle] AIMO2 : Qwen2.5-Math Instruction의 TIR을 적용해보자. [3]

목차개요이전 Qwen2.5에 적용된 TIR(Tool-Integrated Reasoning)에 대한 내용을 설명하다보니, 내용이 너무 길어졌다. 정작, Qwen2.5 모델에 대한 내용은 설명도 못하고 글을 마무리 지어서, 이번 글에는 문제를 해결할 때 Qwen2.5-Math Instruction 모델에 대한 소개와, 모델을 사용한 방법에 대해서 적어보려고 한다. Qwen2.5-Math본 내용은 [Qwen2.5-Math 아티클, Qwen Blog] 글의 내용을 기반으로 설명한다. 이전 글에, Qwen2.5-Math 모델의 핵심은 TIR 방법론을 적용하여, 학습을 진행하여 성능을 크게 끌어올렸다고 설명했다.따라서, 이전 세대의 모델인 Qwen2-Math 모델은 CoT(Chain-of-Thought)만 사용 가..

Kaggle 2024.12.31