Written by
AI 팀
게시됨
2023. 11. 17.
소개
퍼플렉시티의 답변 엔진의 성능을 위한 추구는 NVIDIA와 AWS가 제공하는 최신 기술을 도입하도록 우리를 이끕니다. 이 블로그에서는 최신 실험 결과를 공유할 기쁨을 느끼고 있습니다: 다양한 하드웨어 및 소프트웨어 설정에서 Llama 2 70B 추론을 비교한 결과입니다.
저희의 LLM 추론 플랫폼, pplx-api,는 오픈 소스 라이브러리를 기반으로 한 첨단 스택에 기반합니다. pplx-api의 공개 베타가 10월에 시작된 이후로, 우리는 확장에 대한 도전 과제를 해결해 오면서 구성을 최적화하기 위한 가장 좋은 방법을 학습했습니다. 이를 통해 다음과 같은 지침으로 실험을 진행했습니다:
다른 설정은 동일한 채로 GPU를 NVIDIA A100에서 NVIDIA H100으로 변경했을 때 원시 성능 향상은 얼마나 되는가?
H100이 기본 지원하는 8비트 부동 소수점 (fp8) 양자화의 효율성 향상은 얼마나 되는가? 이 양자화의 정확도 비용은 얼마인가?
텐서 병렬 처리 및 일괄 처리 크기가 지연시간 및 토큰 처리량에 어떤 영향을 미치는가?
위의 점을 고려할 때, 어떤 구성이 성능 및 비용 효율성의 가장 확장 가능한 균형을 보여주는지?
실험적인 설정
네트워크 지연을 피하기 위해 이러한 실험을 일련의 로컬 벤치마크로 실행했습니다.
주요 메트릭
지연: 추론 서버가 완전한 응답을 생성하는 데 걸리는 총 시간
스루풋: 추론 서버가 모든 사용자 및 요청을 대상으로 생성할 수 있는 출력 토큰의 수, 초당, GPU당
상수
다음 요소들은 주요 메트릭에 영향을 미칠 수 있으므로 실험의 다양한 시행에서 일관되게 유지했습니다.
인공지능 모델
성능은 LLM의 크기에 비례합니다. 더 많은 매개 변수는 더 많은 계산을 필요로 하기 때문에 전체적으로 추론이 느려집니다. 예를 들어, 다른 설정이 동일한 상황에서 Llama 2 13B는 빠르지만 Llama 2 70B보다 느립니다. 저희는 가장 능력 있는 공개 소스 모델을 제공하기 위해 이 실험에서 Llama 2 70B를 사용합니다.
입력/출력 토큰 데이터셋
각 샘플 요청/응답 쌍의 입력 및 출력 토큰의 양은 성능 측정에 영향을 미칠 수 있습니다. 일반적으로 출력 토큰 생성이 전체 응답 시간을 지배합니다. LLM에서