캐글 3

[Kaggle] AIMO2 Kaggle 우승 전략 분석: NVIDIA NemoSkills 솔루션 (CoT, TIR, GenSelect, Reasoning) [6 - Fin.]

목차 개요 AIMO2(AI Mathematical Olympiad 2) Kaggle 대회가 종료했다. 이번 대회는 LLM(대규모 언어 모델)을 활용한 수학 문제 해결 능력을 겨루는 장으로, 많은 참가자들이 L4 GPU 지원 하에 다양한 규모의 모델과 프롬프트 엔지니어링, 샘플링 파라미터 최적화 등을 시도했다.이 글에서는 저의 대회 참가 경험과 함께, 압도적인 성능으로 1위를 차지한 NVIDIA NemoSkills 팀의 솔루션을 TIR(Tool-Integrated Reasoning), GenSelect(Generative Solution Selection), OpenMathReasoning 데이터셋 구축 중심으로 심층 분석하고자 한다. 대회 종료 후기이전의 대회와 다르게 L4*4의 하드웨어를 지원하며, 더..

Kaggle 2025.05.03

[Kaggle] AIMO2 : Test-Time Compute Scaling으로 LLM 성능 극대화하기: HuggingFace 연구 분석[5]

목차1. 개요* 이 글은 HuggingFace의 연구결과를 적용한 방법입니다. 최근 몇 년간 대규모 언어 모델(LLM)의 성능은 모델 크기와 데이터셋 크기를 늘리는 Train-Time Compute Scaling 방식에 의존해 발전해왔습니다. 하지만 이 접근법은 비용이 크고, 자원이 제한된 환경에서 실행하기 어렵습니다. 이를 해결하기 위해 등장한 개념이 Test-Time Compute Scaling입니다. Test-Time Compute Scaling은 모델이 추론 단계에서 더 "오래 생각(think longer)"하도록 설계된 방법론입니다. 대표적인 예로 OpenAI의 o1 모델이 있지만, closed-source 특성상 구체적인 구현 방법은 공개되지 않았습니다. 이 글에서는 Test-Time Comp..

Kaggle 2025.02.19

[Kaggle] AIMO2 : AI Mathematical Olympiad - Progress Prize2 - 대회소개 [1]

목차개요AI를 활용하여 국제 수학 올림피아드 수준의 문제를 해결하는 대회이다. 이전에 진행된 AIMO보다 문제가 어려워졌고, 상금의 규모도 커졌다고 한다. 모든 수학문제는 LaTex 형식으로 작성되어 있다. 후원사의 후원으로 이 대회에서 생성된 노트북은 무려 L4 * 4를 가속기로 선택할 수 있다...물론 시간은 두배로 더 빨리 소모된다. 평가평가 지표는 '정확도'로 평가한다. 모든 정답은 modulo 1000 을 수행한 0 ~ 999의 정수이다. -900 이라면, 100이 나와야한다.이미 끝났지만, Early Sharing Prize 가 있었다. Test Set 50문제에 대해서, 20문제 이상을 맞춘 노트북을 처음 공개하면, $20,000을 줬다. 규칙오픈 웨이트 모델만 사용할 수 있다.2024년 1..

Kaggle 2024.12.06