Tir 3

[Kaggle] AIMO2 Kaggle 우승 전략 분석: NVIDIA NemoSkills 솔루션 (CoT, TIR, GenSelect, Reasoning) [6 - Fin.]

목차 개요 AIMO2(AI Mathematical Olympiad 2) Kaggle 대회가 종료했다. 이번 대회는 LLM(대규모 언어 모델)을 활용한 수학 문제 해결 능력을 겨루는 장으로, 많은 참가자들이 L4 GPU 지원 하에 다양한 규모의 모델과 프롬프트 엔지니어링, 샘플링 파라미터 최적화 등을 시도했다.이 글에서는 저의 대회 참가 경험과 함께, 압도적인 성능으로 1위를 차지한 NVIDIA NemoSkills 팀의 솔루션을 TIR(Tool-Integrated Reasoning), GenSelect(Generative Solution Selection), OpenMathReasoning 데이터셋 구축 중심으로 심층 분석하고자 한다. 대회 종료 후기이전의 대회와 다르게 L4*4의 하드웨어를 지원하며, 더..

Kaggle 2025.05.03

[Kaggle] AIMO2 : Qwen2.5-Math Instruction의 TIR을 적용해보자. [3]

목차개요이전 Qwen2.5에 적용된 TIR(Tool-Integrated Reasoning)에 대한 내용을 설명하다보니, 내용이 너무 길어졌다. 정작, Qwen2.5 모델에 대한 내용은 설명도 못하고 글을 마무리 지어서, 이번 글에는 문제를 해결할 때 Qwen2.5-Math Instruction 모델에 대한 소개와, 모델을 사용한 방법에 대해서 적어보려고 한다. Qwen2.5-Math본 내용은 [Qwen2.5-Math 아티클, Qwen Blog] 글의 내용을 기반으로 설명한다. 이전 글에, Qwen2.5-Math 모델의 핵심은 TIR 방법론을 적용하여, 학습을 진행하여 성능을 크게 끌어올렸다고 설명했다.따라서, 이전 세대의 모델인 Qwen2-Math 모델은 CoT(Chain-of-Thought)만 사용 가..

Kaggle 2024.12.31

[Kaggle] AIMO2 : Early Sharing Prize는 이미 나왔지만, (Qwen2.5, TIR, ToRA Paper 리뷰) [2]

목차Qwen2.5-Math-72B-Instruction이번 대세는 Qwen의 Math 모델들이다. 아니 대세 정도가 아니고, 지배하고 있다.가장 처음부터, ~10점 정도의 좋은 성적을 이끌어 나간건 바로 [Qwen2.5-Math-72B-Instruction] 모델을 활용한 방법론이었다. Qwen2.5-Math 모델들에 대한 자세한 내용은 [Qwen 블로그 글]을 확인하자.블로그 글을 가볍게 정리하자면, 다음과 같다.위는 Open-Weight 모델들 중 MATH 데이터셋 벤치마크에 대한 성능이다. 이전에도 Qwen2-Math 모델들이 좋은 성능을 내고 있었지만, 한단계 더 개선되었다. 모델의 개선을 가져온 차이점은 무엇일까? 바로 TIR(Tool-Integrated Reasoning)방법을 적용했기때문이다..

Kaggle 2024.12.16