개요
AI를 활용하여 국제 수학 올림피아드 수준의 문제를 해결하는 대회이다. 이전에 진행된 AIMO보다 문제가 어려워졌고, 상금의 규모도 커졌다고 한다. 모든 수학문제는 LaTex 형식으로 작성되어 있다. 후원사의 후원으로 이 대회에서 생성된 노트북은 무려 L4 * 4를 가속기로 선택할 수 있다...물론 시간은 두배로 더 빨리 소모된다.
평가
- 평가 지표는 '정확도'로 평가한다. 모든 정답은 modulo 1000 을 수행한 0 ~ 999의 정수이다. -900 이라면, 100이 나와야한다.
- 이미 끝났지만, Early Sharing Prize 가 있었다. Test Set 50문제에 대해서, 20문제 이상을 맞춘 노트북을 처음 공개하면, $20,000을 줬다.
규칙
- 오픈 웨이트 모델만 사용할 수 있다.
- 2024년 10월 1일 이전에 출시한 모델만 사용가능하다. => 이 규칙은 White-Listed Model을 요청하면, 이후 모델도 사용할 수 있게 변경되었다.
- 학습을 하기 위해서, 중간과정에서 어떤 모델을 사용하여 데이터를 생성하는 것처럼 간접적으로 사용가능하다.
- 하루에 단 한번만 제출 가능하여, LB Score 평가를 받을 수 있다.
- GPU 런타임을 사용할 경우 5시간 이내로 완료되어야 한다.
- 원래 문제당 해결 시간에 대한 룰도 있던 것 같은데, 보이지가 않는다.
잡담
이 대회는 수학적 추론 능력을 평가하기 위한 목적이라고 생각된다. AIMO1의 경우 1등인 HuggingFace팀의 Numina 같은 경우엔 ToRA 포맷 형식으로 데이터를 구성해서, TIR 모델을 만들어서 29문제를 맞췄다.(학습한다고 8 * H100을 한번할 때마다 10시간씩 썼다는데...) AIMO1때는 상금을 받은 모든 팀이 DeepSeek-Math 모델을 활용했다.
하지만 이번 대회는 Qwen의 시대... 그 뒤에 따라가는 내용들은 천천히 가볍게 올려보겠다.