[Kaggle] AIMO2 : AI Mathematical Olympiad - Progress Prize2

Kaggle

[Kaggle] AIMO2 : AI Mathematical Olympiad - Progress Prize2 - 대회소개 [1]

내 이름인데 윤기를 왜 못써 2024. 12. 6. 16:31

개요
평가
규칙
잡담

개요

AI를 활용하여 국제 수학 올림피아드 수준의 문제를 해결하는 대회이다. 이전에 진행된 AIMO보다 문제가 어려워졌고, 상금의 규모도 커졌다고 한다. 모든 수학문제는 LaTex 형식으로 작성되어 있다. 후원사의 후원으로 이 대회에서 생성된 노트북은 무려 L4 * 4를 가속기로 선택할 수 있다...물론 시간은 두배로 더 빨리 소모된다.

평가

평가 지표는 '정확도'로 평가한다. 모든 정답은 modulo 1000 을 수행한 0 ~ 999의 정수이다. -900 이라면, 100이 나와야한다.
이미 끝났지만, Early Sharing Prize 가 있었다. Test Set 50문제에 대해서, 20문제 이상을 맞춘 노트북을 처음 공개하면, $20,000을 줬다.

규칙

오픈 웨이트 모델만 사용할 수 있다.
2024년 10월 1일 이전에 출시한 모델만 사용가능하다. => 이 규칙은 White-Listed Model을 요청하면, 이후 모델도 사용할 수 있게 변경되었다.
학습을 하기 위해서, 중간과정에서 어떤 모델을 사용하여 데이터를 생성하는 것처럼 간접적으로 사용가능하다.
하루에 단 한번만 제출 가능하여, LB Score 평가를 받을 수 있다.
GPU 런타임을 사용할 경우 5시간 이내로 완료되어야 한다.
원래 문제당 해결 시간에 대한 룰도 있던 것 같은데, 보이지가 않는다.

잡담

이 대회는 수학적 추론 능력을 평가하기 위한 목적이라고 생각된다. AIMO1의 경우 1등인 HuggingFace팀의 Numina 같은 경우엔 ToRA 포맷 형식으로 데이터를 구성해서, TIR 모델을 만들어서 29문제를 맞췄다.(학습한다고 8 * H100을 한번할 때마다 10시간씩 썼다는데...) AIMO1때는 상금을 받은 모든 팀이 DeepSeek-Math 모델을 활용했다.

하지만 이번 대회는 Qwen의 시대... 그 뒤에 따라가는 내용들은 천천히 가볍게 올려보겠다.

저작자표시 비영리 동일조건

'Kaggle' 카테고리의 다른 글

[Kaggle] AIMO2 : Test-Time Compute Scaling으로 LLM 성능 극대화하기: HuggingFace 연구 분석[5] (0)	2025.02.19
[Kaggle] AIMO2 : QwQ-32B-Preview, Early Sharing Prize 얻은 대세의 Long-CoT 모델[4] (0)	2025.01.16
[Kaggle] AIMO2 : Qwen2.5-Math Instruction의 TIR을 적용해보자. [3] (0)	2024.12.31
[Kaggle] AIMO2 : Early Sharing Prize는 이미 나왔지만, (Qwen2.5, TIR, ToRA Paper 리뷰) [2] (1)	2024.12.16

현재글[Kaggle] AIMO2 : AI Mathematical Olympiad - Progress Prize2 - 대회소개 [1]

IT 개발 위주의 블로그입니다. 잡다한 내용이나 고양이, 강아지, 전자기기를 좋아합니다. 주된 관심사는 NLP, ML 전반의 내용

anaconda, 재귀, kaggle, 인공지능, 백준, triton, Inference, TRTIS, 아나콘다, 위상 정렬, DFS, Python, aimo2, BFS, qwen, 파이참, server, pycharm, tritonclient, DP,

Today :
Yesterday :

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

의식이 흐르는대로 해보는 프로그래밍