Loading [MathJax]/jax/output/CommonHTML/jax.js

딥러닝(Deep Learning) 10

ModernBERT : Smarter, Better, Faster, Longer(더 똑똑하게, 좋게, 빠르게, 길게)

목차개요갑자기 HF에 등장한, ModerBERT에 대해서 짧게 정리해보도록 한다.다프트펑크가 생각나는 논문 제목Encoder Model은 정보 탐색에서 특히 인기있다. 최근 몇년동안 LLM이 주목받으면서, Encoder Model을 이용한 RAG, NER같은 Task에 대한 새로운 관심도 불러일으켰다.하지만, 이러한 파이프라인에 아직도 백본으로 기존의 BERT모델(마지막 경험으론, DeBERTa를 아주 많이 사용하는 것 같았다.)을 사용하는 오래된 모델에 의존하고 있다. 이건 몇가지 문제가 있는데,시퀀스 길이가 512토큰으로 제한된 것Vocab 크기하위 작업 성능, 계산 효율적 측면에서 비효율적인 모델 설계Suboptimal한 모델 디자인훈련 데이터가 제한적이고, 특정 도메인에 한정(특히, 코드 데이터의..

Attention Is All You Need : 아직도 어텐션이 전부야?

목차시작2017년 구글에서 발표한 "Attention Is All You Need"라는 공격적인 이름의 논문이다. 현재는 시기도 오래 지난 논문이지만, 아직까지 Attention이 전부인가?라고 묻는다면, 단연 아직도 "Yes."로 대답할 것이다. 논문을 읽어보고, 한 번도 글로 정리했던 적은 없었던 것 같아, 한참 늦었지만 시간이 비었을 때 내 생각을 정리하려고 한다. 자, 시작해 보자. 2024년에 읽는 Transformer 논문. 여담으로, 아직도 Attention이 전부인가를 표시해주는 사이트가 있다..  개요와 배경회귀 모델의 문제점순차적 모델링과 기계 독해, 언어 모델링과 같은 Transduction 문제(한국어로 해석하기가 힘들다)에서 RNN, LSTM, GRU, Encoder-Decoder..

GSM-Symbolic : 애플의 새로운 수학 벤치마크 제안

목차서론10월 7일 애플에서 발행한 논문인 "GSM-Symbolic"이다. 최근 발표하는 수학문제에 대한 성능을 측정할 때 자주 쓰이는 "GSM8K"에 대한 신뢰성 문제에 대한 의문을 제기하였다. 이런 의문을 해소하고자, 새로운 벤치마크인 "GSM-Symbolic"의 제작 방법 및 과정과 몇몇의 주요한 Open-Weight, Closed 모델에 대해서 평가를 진행했다.이 논문에서 제시한 가장 주요한 문제점 몇가지는 다음과 같다.LLM은 동일한 질문을 몇가지 변화(ex. 변수명, 값 등)가 있을 때 눈에 띄는 차이를 보인다는 것이다.문제의 절 수(문장 길이)가 증가함에 따라, 성능이 크게 저하된다.(최대 65%)GSM-Symbolic은 이런 변화에 대해서 조작해가며 LLM의 성능을 측정한 벤치마크를 다루는..

[TRTIS] Triton Inference Server - 3 (Ensemble Model 사용해보기)

목차이전 글에 이어서 Triton Inference Server 사용 튜토리얼을 저번 글에 이어서 작성해 보겠다.아래 시리즈를 따라서 튜토리얼을 진행하는 것을 추천한다.2024.03.30 - [딥러닝(Deep Learning)/Etc.] - [TRTIS] Triton Inference Server 사용해보기 - 1 (개요 및 설치)2024.04.21 - [딥러닝(Deep Learning)/Etc.] - [TRTIS] Triton Inference Server 사용해보기 - 2 (서버 실행, 모델 배포 맛보기)이번 글에서는 저번 튜토리얼에 이어서 Triton Inference Server에서 제공하는 Ensemble Model에 대해서 다뤄보겠다. Ensemble Model개요Ensemble이라는 단어는 ..

[TRTIS] Triton Inference Server 사용해보기 - 2 (서버 실행, 모델 배포 맛보기)

목차2024.03.30 - [딥러닝(Deep Learning)/Etc.] - [TRTIS] Triton Inference Server 사용해보기 - 1 (개요 및 설치) 저번 글에 이어서, 이번 글은 서버 실행과 모델 배포에 관한 내용을 간단하게 작성해보겠다.위의 글에서 이어지니까, 처음 이 시리즈를 방문했다면, 위의 글부터 읽고 차근차근 따라오자. 서버 구동먼저 가동된 컨테이너 내에서 trinserver 커맨드를 입력해 보자. 그럼 Server를 시작할 수 있다. 그럼 위와 같이 오류가 날 것이다.바로 model-repositroy를 옵션으로 명시해 달라는 것이다. 간단하게 최상위 디렉터리에 modelreposiry라는 폴더를 만들고, 인자에 해당 경로를..

[TRTIS] Triton Inference Server 사용해보기 - 1 (개요 및 설치)

목차 회사에서 모델을 Inference 하는데, Triton Inference Server를 사용해서 우여곡절 끝에 익힌 내용들을 정리하기 위해서 기록을 남긴다. 모델 배포 경험은 FastAPI로 Torch 모델을 서빙하는 간단한 작업밖에 모르는지라 처음 접하는 이 프레임워크는 쉽지 않았다. 구글에 막히는 내용에 대해서, 검색을 해도 많이 나오지 않을뿐더러 세부적인 내용은 직접 부딪히며 해결한 게 더 많은 것 같다. 초기세팅부터 모델적재와 작업을 수행하며, 어려웠던 점들을 기록해 볼 예정이다. ‼️ 배포 전문가의 글이 아니니, 틀린 내용이 아주 많을 수 있다. 배우는 과정이니 나와 같은 문제점에 접한 사람들이 도움이 됐으면 하고, 후에 조금 더 편하게 문제를 해결했으면 하는 마음이다. 개요 Triton ..

1-2(Extra). 딥러닝 개발환경 구축(PyTorch 설치)

안녕하세요. 오랜 기간동안 포스팅을 하지못하고, 이제서야 포스팅을 합니다. 군대에 다녀오느라 처리할 시간이 너무 부족했었습니다. 각설하고, 오늘은 저번의 포스팅인 TensorFlow가 아닌 PyTorch라는 패키지를 설치해보겠습니다. PyTorch란 무엇인가? PyTorch는 페이스북에서 만든 딥러닝 프레임워크입니다. TensorFlow는 구글에서 만든 딥러닝 프레임워크입니다. 자세한 내용은 다른 아티클을 참고하시면 좋을거 같고, 이 정도로만 알면될것같습니다. PyTorch는 자율주행전기자동차로 유명한 Tesla 사에서도 사용하고 있고, 여러 논문에서도 입지가 넓어지고 있습니다. 그렇기 때문에, Study용으로 이제 올릴 포스팅에는 PyTorch로 사용해보도록 하겠습니다. 간단한 conda 커맨드는 저번..

1-2. 딥러닝 개발환경 구축(Anaconda 가상개발환경, TensorFlow | Keras 설치, Git 설치)

2018/12/18 - [딥러닝(Deep Learning)] - 1-1. 딥러닝 개발환경 구축 (Anaconda 3 설치, Pycharm) 저번 글에는 아나콘다를 설치하고, Pycharm을 설치해봤습니다. 이번 글에는 설치한 아나콘다에 TensorFlow 개발환경을 위한 가상환경을 구성하고, TensorFlow 설치 및 Github 연동을 위한 Git 프로그램을 설치하겠습니다. 아나콘다 가상 개발환경 구성 아나콘다를 정상적으로 설치했다면, 이런식으로 윈도우메뉴에 여러가지 프로그램이 설치되어야합니다. 혹시, Anaconda Prompt만 설치되고, 나머지가 깔리지 않으셨다면, 앞에 1-1에서 언급한 주의사항을 다시 한번 봐주시길 바랍니다. Anaconda Prompt 를 '우클릭' 하여 자세히 -> 관리자..

1-1. 딥러닝 개발환경 구축 (Anaconda 3 설치, Pycharm)

딥러닝을 공부하기 위해서 책을 사고, 아무것도 모르는 상태로 시작하면서, 공부와 동시에 나중에 내가 혹은 나같이 막무가내로 접근하는 사람들을 위해 남기는 글이다. 필요 사항 TensorFlow, Keras를 공부하기 위해서, 아무 생각없이 내가 관심있는 분야의 딥러닝 책을 사버렸기 때문에, 기반이 되는 책은 김문권 저 이다. 파이썬과 케라스를 이용한 딥러닝/강화학습 주식투자 국내도서 저자 : 김문권 출판 : 위키북스 2018.05.29 상세보기 일단 요구하는 프로그램으로써는 Pycharm : 파이썬 개발을 위해 필요한 IDE프로그램이다. 평소에 파이썬 공부를 위해 이미 설치되어있는 상황이었다. Anaconda3 : 파이썬 개발할 때 필요로 하는 여러가지의 Lib를 한번에 설치, 관리의 용이성 때문에 사용..