딥러닝(Deep Learning)/논문 리뷰 4

ModernBERT : Smarter, Better, Faster, Longer(더 똑똑하게, 좋게, 빠르게, 길게)

목차개요갑자기 HF에 등장한, ModerBERT에 대해서 짧게 정리해보도록 한다.다프트펑크가 생각나는 논문 제목Encoder Model은 정보 탐색에서 특히 인기있다. 최근 몇년동안 LLM이 주목받으면서, Encoder Model을 이용한 RAG, NER같은 Task에 대한 새로운 관심도 불러일으켰다.하지만, 이러한 파이프라인에 아직도 백본으로 기존의 BERT모델(마지막 경험으론, DeBERTa를 아주 많이 사용하는 것 같았다.)을 사용하는 오래된 모델에 의존하고 있다. 이건 몇가지 문제가 있는데,시퀀스 길이가 512토큰으로 제한된 것Vocab 크기하위 작업 성능, 계산 효율적 측면에서 비효율적인 모델 설계Suboptimal한 모델 디자인훈련 데이터가 제한적이고, 특정 도메인에 한정(특히, 코드 데이터의..

Attention Is All You Need : 아직도 어텐션이 전부야?

목차시작2017년 구글에서 발표한 "Attention Is All You Need"라는 공격적인 이름의 논문이다. 현재는 시기도 오래 지난 논문이지만, 아직까지 Attention이 전부인가?라고 묻는다면, 단연 아직도 "Yes."로 대답할 것이다. 논문을 읽어보고, 한 번도 글로 정리했던 적은 없었던 것 같아, 한참 늦었지만 시간이 비었을 때 내 생각을 정리하려고 한다. 자, 시작해 보자. 2024년에 읽는 Transformer 논문. 여담으로, 아직도 Attention이 전부인가를 표시해주는 사이트가 있다..  개요와 배경회귀 모델의 문제점순차적 모델링과 기계 독해, 언어 모델링과 같은 Transduction 문제(한국어로 해석하기가 힘들다)에서 RNN, LSTM, GRU, Encoder-Decoder..

GSM-Symbolic : 애플의 새로운 수학 벤치마크 제안

목차서론10월 7일 애플에서 발행한 논문인 "GSM-Symbolic"이다. 최근 발표하는 수학문제에 대한 성능을 측정할 때 자주 쓰이는 "GSM8K"에 대한 신뢰성 문제에 대한 의문을 제기하였다. 이런 의문을 해소하고자, 새로운 벤치마크인 "GSM-Symbolic"의 제작 방법 및 과정과 몇몇의 주요한 Open-Weight, Closed 모델에 대해서 평가를 진행했다.이 논문에서 제시한 가장 주요한 문제점 몇가지는 다음과 같다.LLM은 동일한 질문을 몇가지 변화(ex. 변수명, 값 등)가 있을 때 눈에 띄는 차이를 보인다는 것이다.문제의 절 수(문장 길이)가 증가함에 따라, 성능이 크게 저하된다.(최대 65%)GSM-Symbolic은 이런 변화에 대해서 조작해가며 LLM의 성능을 측정한 벤치마크를 다루는..