의식이 흐르는대로 해보는 프로그래밍

  • 홈
  • 태그
  • 방명록
  • About 윤기

llm 1

GSM-Symbolic : 애플의 새로운 수학 벤치마크 제안

목차서론10월 7일 애플에서 발행한 논문인 "GSM-Symbolic"이다. 최근 발표하는 수학문제에 대한 성능을 측정할 때 자주 쓰이는 "GSM8K"에 대한 신뢰성 문제에 대한 의문을 제기하였다. 이런 의문을 해소하고자, 새로운 벤치마크인 "GSM-Symbolic"의 제작 방법 및 과정과 몇몇의 주요한 Open-Weight, Closed 모델에 대해서 평가를 진행했다.이 논문에서 제시한 가장 주요한 문제점 몇가지는 다음과 같다.LLM은 동일한 질문을 몇가지 변화(ex. 변수명, 값 등)가 있을 때 눈에 띄는 차이를 보인다는 것이다.문제의 절 수(문장 길이)가 증가함에 따라, 성능이 크게 저하된다.(최대 65%)GSM-Symbolic은 이런 변화에 대해서 조작해가며 LLM의 성능을 측정한 벤치마크를 다루는..

딥러닝(Deep Learning)/논문 리뷰 2024.11.09
이전
1
다음
프로필사진

IT 개발 위주의 블로그입니다. 잡다한 내용이나 고양이, 강아지, 전자기기를 좋아합니다. 주된 관심사는 NLP, ML 전반의 내용

  • 분류 전체보기 (54)
    • 딥러닝(Deep Learning) (10)
      • 논문 리뷰 (4)
      • Etc. (3)
      • Memo. (0)
    • 알고리즘(Algorithm) (29)
    • 코딩 테스트 (1)
    • Kaggle (6)
    • 잡담 (6)
      • 일상 (1)
      • 취업 (4)
      • 체험기 (0)
    • 에러 메모 (2)

Tag

qwen, Inference, anaconda, pycharm, DFS, tritonclient, 파이참, server, TRTIS, kaggle, 아나콘다, DP, 재귀, triton, COT, Tir, 위상 정렬, 캐글, 백준, Python,

최근글과 인기글

  • 최근글
  • 인기글

최근댓글

공지사항

Archives

Calendar

  2025. 06  
일 월 화 수 목 금 토
1 2 3 4 5 6 7
8 9 10 11 12 13 14
15 16 17 18 19 20 21
22 23 24 25 26 27 28
29 30

방문자수Total

  • Today :
  • Yesterday :

Copyright ©One-Way-People All rights reserved.

  • Github

티스토리툴바

개인정보

  • 티스토리 홈
  • 포럼
  • 로그인

단축키

내 블로그

내 블로그 - 관리자 홈 전환
Q
Q
새 글 쓰기
W
W

블로그 게시글

글 수정 (권한 있는 경우)
E
E
댓글 영역으로 이동
C
C

모든 영역

이 페이지의 URL 복사
S
S
맨 위로 이동
T
T
티스토리 홈 이동
H
H
단축키 안내
Shift + /
⇧ + /

* 단축키는 한글/영문 대소문자로 이용 가능하며, 티스토리 기본 도메인에서만 동작합니다.