'Kaggle' 카테고리의 글 목록

Kaggle 6

[Kaggle] AIMO2 Kaggle 우승 전략 분석: NVIDIA NemoSkills 솔루션 (CoT, TIR, GenSelect, Reasoning) [6 - Fin.]

목차 개요 AIMO2(AI Mathematical Olympiad 2) Kaggle 대회가 종료했다. 이번 대회는 LLM(대규모 언어 모델)을 활용한 수학 문제 해결 능력을 겨루는 장으로, 많은 참가자들이 L4 GPU 지원 하에 다양한 규모의 모델과 프롬프트 엔지니어링, 샘플링 파라미터 최적화 등을 시도했다.이 글에서는 저의 대회 참가 경험과 함께, 압도적인 성능으로 1위를 차지한 NVIDIA NemoSkills 팀의 솔루션을 TIR(Tool-Integrated Reasoning), GenSelect(Generative Solution Selection), OpenMathReasoning 데이터셋 구축 중심으로 심층 분석하고자 한다. 대회 종료 후기이전의 대회와 다르게 L4*4의 하드웨어를 지원하며, 더..

Kaggle 2025.05.03

[Kaggle] AIMO2 : Test-Time Compute Scaling으로 LLM 성능 극대화하기: HuggingFace 연구 분석[5]

목차1. 개요* 이 글은 HuggingFace의 연구결과를 적용한 방법입니다. 최근 몇 년간 대규모 언어 모델(LLM)의 성능은 모델 크기와 데이터셋 크기를 늘리는 Train-Time Compute Scaling 방식에 의존해 발전해왔습니다. 하지만 이 접근법은 비용이 크고, 자원이 제한된 환경에서 실행하기 어렵습니다. 이를 해결하기 위해 등장한 개념이 Test-Time Compute Scaling입니다. Test-Time Compute Scaling은 모델이 추론 단계에서 더 "오래 생각(think longer)"하도록 설계된 방법론입니다. 대표적인 예로 OpenAI의 o1 모델이 있지만, closed-source 특성상 구체적인 구현 방법은 공개되지 않았습니다. 이 글에서는 Test-Time Comp..

Kaggle 2025.02.19

[Kaggle] AIMO2 : QwQ-32B-Preview, Early Sharing Prize 얻은 대세의 Long-CoT 모델[4]

목차개요저번에 작성했듯이, 원래 LB 최상위권은 7~10점을 유지하고 있었다. 그 축에는 당연히 `Qwen-72B-Math` 모델이 있었고, 다양한 생성전략으로 LB 상위권을 유지했을 것이라 예측한다.그러던 중 갑자기 QwQ-32B-Preview 라는 모델이 등장했고, 대회에서도 원래 규칙이었던 2024년10월 이전 모델만 사용가능한 내용을 화이트리스트를 통해 허가를 받으면 허용해준다고 변경했다.그리고, 화이트리스트에 올라가자마자 QwQ를 이용한 결과가 나오기 시작했고, Early Sharing Prize도 일부 생성에 필요한 파라미터를 최적화함으로 받을 수 있었다.별개로, 저때 QwQ를 이용한 결과들이 리더보드에 채점됐는데, 당시 한 사람만 20점이 넘는 결과가 나와서 그 사람이 상을 받을 수 있었다...

Kaggle 2025.01.16

[Kaggle] AIMO2 : Qwen2.5-Math Instruction의 TIR을 적용해보자. [3]

목차개요이전 Qwen2.5에 적용된 TIR(Tool-Integrated Reasoning)에 대한 내용을 설명하다보니, 내용이 너무 길어졌다. 정작, Qwen2.5 모델에 대한 내용은 설명도 못하고 글을 마무리 지어서, 이번 글에는 문제를 해결할 때 Qwen2.5-Math Instruction 모델에 대한 소개와, 모델을 사용한 방법에 대해서 적어보려고 한다. Qwen2.5-Math본 내용은 [Qwen2.5-Math 아티클, Qwen Blog] 글의 내용을 기반으로 설명한다. 이전 글에, Qwen2.5-Math 모델의 핵심은 TIR 방법론을 적용하여, 학습을 진행하여 성능을 크게 끌어올렸다고 설명했다.따라서, 이전 세대의 모델인 Qwen2-Math 모델은 CoT(Chain-of-Thought)만 사용 가..

Kaggle 2024.12.31

[Kaggle] AIMO2 : Early Sharing Prize는 이미 나왔지만, (Qwen2.5, TIR, ToRA Paper 리뷰) [2]

목차Qwen2.5-Math-72B-Instruction이번 대세는 Qwen의 Math 모델들이다. 아니 대세 정도가 아니고, 지배하고 있다.가장 처음부터, ~10점 정도의 좋은 성적을 이끌어 나간건 바로 [Qwen2.5-Math-72B-Instruction] 모델을 활용한 방법론이었다. Qwen2.5-Math 모델들에 대한 자세한 내용은 [Qwen 블로그 글]을 확인하자.블로그 글을 가볍게 정리하자면, 다음과 같다.위는 Open-Weight 모델들 중 MATH 데이터셋 벤치마크에 대한 성능이다. 이전에도 Qwen2-Math 모델들이 좋은 성능을 내고 있었지만, 한단계 더 개선되었다. 모델의 개선을 가져온 차이점은 무엇일까? 바로 TIR(Tool-Integrated Reasoning)방법을 적용했기때문이다..

Kaggle 2024.12.16

[Kaggle] AIMO2 : AI Mathematical Olympiad - Progress Prize2 - 대회소개 [1]

목차개요AI를 활용하여 국제 수학 올림피아드 수준의 문제를 해결하는 대회이다. 이전에 진행된 AIMO보다 문제가 어려워졌고, 상금의 규모도 커졌다고 한다. 모든 수학문제는 LaTex 형식으로 작성되어 있다. 후원사의 후원으로 이 대회에서 생성된 노트북은 무려 L4 * 4를 가속기로 선택할 수 있다...물론 시간은 두배로 더 빨리 소모된다. 평가평가 지표는 '정확도'로 평가한다. 모든 정답은 modulo 1000 을 수행한 0 ~ 999의 정수이다. -900 이라면, 100이 나와야한다.이미 끝났지만, Early Sharing Prize 가 있었다. Test Set 50문제에 대해서, 20문제 이상을 맞춘 노트북을 처음 공개하면, $20,000을 줬다. 규칙오픈 웨이트 모델만 사용할 수 있다.2024년 1..

Kaggle 2024.12.06

IT 개발 위주의 블로그입니다. 잡다한 내용이나 고양이, 강아지, 전자기기를 좋아합니다. 주된 관심사는 NLP, ML 전반의 내용

triton, anaconda, pycharm, 재귀, Inference, kaggle, 위상 정렬, DFS, qwen, Python, COT, Tir, 백준, DP, 파이참, 아나콘다, 캐글, TRTIS, server, tritonclient,

Today :
Yesterday :

일	월	화	수	목	금	토
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

의식이 흐르는대로 해보는 프로그래밍

Kaggle 6

티스토리툴바