레거시 GPU에 날개 달기: 극한의 서빙 최적화 가이드 - 데브캐치 - 데브캐치
#AI

레거시 GPU에 날개 달기: 극한의 서빙 최적화 가이드

네이버

AI 요약

GPT로 자동 생성된 요약입니다

네이버 엔지니어링 데이 2025에서 발표된 세션으로, BERT 기반 SPLADE 모델의 실시간 서비스 최적화 방법과 빠른 텍토나이저인 FlashTokenizer 개발 배경과 성능을 소개합니다. 강의는 모델 간소화, 추론 최적화, 전처리 및 후처리 최적화 등 다양한 성능 향상 기법을 다룹니다. NAVER 엔지니어링 데이는 개발 경험과 기술 트렌드 공유를 위한 사내 행사입니다. 이번 세션은 실시간 서빙을 위한 인프라 최적화에 관심 있는 개발자를 대상으로 합니다.

원문 보기

관련 아티클