의식이 흐르는대로 해보는 프로그래밍

  • 홈
  • 태그
  • 방명록
  • About 윤기

encoder 1

ModernBERT : Smarter, Better, Faster, Longer(더 똑똑하게, 좋게, 빠르게, 길게)

목차개요갑자기 HF에 등장한, ModerBERT에 대해서 짧게 정리해보도록 한다.다프트펑크가 생각나는 논문 제목Encoder Model은 정보 탐색에서 특히 인기있다. 최근 몇년동안 LLM이 주목받으면서, Encoder Model을 이용한 RAG, NER같은 Task에 대한 새로운 관심도 불러일으켰다.하지만, 이러한 파이프라인에 아직도 백본으로 기존의 BERT모델(마지막 경험으론, DeBERTa를 아주 많이 사용하는 것 같았다.)을 사용하는 오래된 모델에 의존하고 있다. 이건 몇가지 문제가 있는데,시퀀스 길이가 512토큰으로 제한된 것Vocab 크기하위 작업 성능, 계산 효율적 측면에서 비효율적인 모델 설계Suboptimal한 모델 디자인훈련 데이터가 제한적이고, 특정 도메인에 한정(특히, 코드 데이터의..

딥러닝(Deep Learning)/논문 리뷰 2024.12.26
이전
1
다음
더보기
프로필사진

IT 개발 위주의 블로그입니다. 잡다한 내용이나 고양이, 강아지, 전자기기를 좋아합니다. 주된 관심사는 NLP, ML 전반의 내용

  • 분류 전체보기 (54)
    • 딥러닝(Deep Learning) (10)
      • 논문 리뷰 (4)
      • Etc. (3)
      • Memo. (0)
    • 알고리즘(Algorithm) (29)
    • 코딩 테스트 (1)
    • Kaggle (6)
    • 잡담 (6)
      • 일상 (1)
      • 취업 (4)
      • 체험기 (0)
    • 에러 메모 (2)

Tag

DFS, kaggle, 위상 정렬, server, anaconda, qwen, Inference, 백준, COT, tritonclient, 아나콘다, 재귀, pycharm, DP, 캐글, TRTIS, Tir, 파이참, triton, Python,

최근글과 인기글

  • 최근글
  • 인기글

최근댓글

공지사항

Archives

Calendar

«   2025/05   »
일 월 화 수 목 금 토
1 2 3
4 5 6 7 8 9 10
11 12 13 14 15 16 17
18 19 20 21 22 23 24
25 26 27 28 29 30 31

방문자수Total

  • Today :
  • Yesterday :

Copyright ©One-Way-People All rights reserved.

  • Github

티스토리툴바