Written by
AI 팀
게시됨
2023. 10. 4.
우리는 pplx-api를 발표하여 한 가지의 가장 빠른 방법으로 Mistral 7B, Llama2 13B, Code Llama 34B, Llama2 70B, replit-code-v1.5-3b 모델에 액세스할 수 있는 것을 자랑스럽게 생각합니다. pplx-api를 사용하면 개발자들이 첨단 오픈 소스 LLM을 프로젝트에 통합하기 쉽습니다.
저희 pplx-api는 다음을 제공합니다:
사용의 편리성: 개발자들은 상용 REST API로 분 단위 내에 시작할 수 있는 첨단 오픈 소스 모델을 사용할 수 있습니다.
혜성 같은 추론 속도: 저희가 신중하게 설계한 추론 시스템은 Replicate보다 2.9배, Anyscale보다 3.1배 더 낮은 대기 시간을 달성합니다.
실전 검증된 인프라: pplx-api는 신뢰할 만하며 저희의 퍼플렉서티 응답 엔진과 연구실 플레이그라운드에서 제품화된 트래픽을 제공하는 것으로 입증되었습니다.
오픈 소스 LLM 종합 쇼핑몰: 저희 팀은 새로운 오픈 소스 모델을 추가하는 데 헌신하고 있습니다. 예를 들어, 저희는 런칭 당시 몇 시간 내에 Llama와 Mistral 모델을 추가했습니다. 사전 릴리스 액세스 없이 추가한 것입니다.
pplx-api는 공개 베타 버전이며 퍼플렉서티 Pro 구독을 한 사용자들에게 무료입니다.
편안한 주말 해커톤이나 혁신적인 제품을 만들기 위한 상용 솔루션으로 pplx-api를 사용해보세요. 이 릴리스를 통해 우리의 API를 통해 사람들이 멋지고 혁신적인 제품을 어떻게 만들 수 있는지 배우길 바랍니다. 비즈니스적인 사용 사례가 있으시다면 api@perplexity.ai로 연락해 주세요. 여러분으로부터 소식을 듣고 싶습니다!
pplx-api의 이점
사용의 편리성
LLM 배포 및 추론은 모델 서비스의 성능과 비용 효율성을 위한 중요한 인프라 과정을 필요로 합니다. 개발자들은 C++/CUDA에 대한 심도 있는 지식 없이도 상용 API를 사용할 수 있으며 최첨단 성능을 누리실 수 있습니다. 저희 LLM 추론은 하드웨어를 관리하고 복잡성을 추상화하는 것을 압축하여 사용의 편리성을 더 높여드립니다.
혜성 같은 추론 속도
퍼플렉서티의 LLM API는 빠른 추론을 위해 신중하게 설계되고 최적화되었습니다. 이를 위해 저희는 NVIDIA의 TensorRT-LLM 사용하여 최신 최적화된 커널을 포함한 LLM 추론 인프라를 구축했습니다. 결과적으로, pplx-api는 상용으로 제공되는 Llama와 Mistral API 중 가장 빠른 속도입니다.
기존 솔루션과의 벤치마크를 위해 pplx-api의 지연 시간을 기존의 다른 LLM 추론 라이브러리와 비교했습니다. 우리의 실험에서 pplx-api는 Text Generation Inference (TGI)보다 최대 2.92배 더 빠른 전체 지연 시간을 달성하고, 초기 응답 지연 시간에서 최대 4.35배 더 빠릅니다. 우리는 실제 사용 데이터를 사용하여 다양한 입력 및 출력 토큰 길이로 프로덕션 작업을 시뮬레이션하였습니다. 요청은 평균 ~700개의 입력 토큰 및 ~550개의 출력 토큰입니다.
동일한 입력으로 단일 요청 스트림을 보내고 있는 경우, Replicate 및 Anyscale의 API에 대해이 같은 모델을 위한 pplx-api의 평균 지연 시간을 측정하여 성능 기준선을 수립했습니다.
동일한 실험 시나리오를 사용하여, pplx-api의 최대 처리량을 TGI와 비교하고, 디코딩 속도를 지연 제약 조건으로 사용했습니다. 우리의 실험에서 pplx-api는 TGI보다 토큰을 1.90배-6.75배 더 빠르게 처리하며, TGI는 60 및 80 토큰/초에서는 우리의 엄격한 지연 조건을 만족시키지 못합니다. Replicate 및 Anyscale과 이러한 지표를 비교하는 것은 불가능합니다. 그들의 하드웨어와 부하 요인을 제어할 수 없기 때문입니다.
참고로, 평균 인간의 독서 속도는 초당 5개의 토큰이며, 따라서 pplx-api는 독서 속도보다 빠른 속도로 제공됩니다.
pplx-api 인프라 전체 개요
이러한 지연 시간 수치를 달성하려면 첨단 소프트웨어와 하드웨어의 혼합이 필요합니다.
AWS NVIDIA A100 GPU를 제공하는 가장 비용 효율적이고 신뢰할 수 있는 옵션인 p4d 인스턴스를 이용하여 확장성을 활용합니다.
이 하드웨어를 활용하기 위해 우리는 NVIDIA의 TensorRT-LLM을 실행하여 LLM 추론을 가속화하고 최적화한 오픈 소스 라이브러리입니다. TensorRT-LLM은 FlashAttention 및 마스크된 멀티 헤드 어텐션 (MHA)을 위해 최신 최적화된 커널을 포함한 TensorRT의 딥 러닝 컴파일러를 감싸고 있습니다.
여기서 AWS의 백본 및 쿠버네티스와의 견고한 통합은 수백 개의 GPU로 탄력적으로 확장하고 다운 타임과 네트워크 오버헤드를 최소화할 수 있도록 돕고 있습니다.
사용 사례: 저희의 API 제품에서
pplx-api가 퍼플렉서티에 미치는 영향: 비용 절감과 안정성
저희 API는 이미 퍼플렉서티의 핵심 제품 기능 중 하나를 지원하고 있습니다. 단일 기능을 외부 API에서 pplx-api로 전환하면 연간 비용을 $0.62M 절감하여 약 4배 비용이 절감되는 결과를 얻었습니다. A/B 테스트를 실행하고 인프라 메트릭을 모니터링하여 품질의 저하가 없음을 확인했습니다. 2주 동안 A/B 테스트에 대한 통계적으로 유의미한 차이가 없었습니다. 게다가, pplx-api는 하루에 100만 건 이상의 요청을 처리하여 거의 10억 개의 토큰을 처리할 수 있습니다.
이 초기 탐색 결과는 매우 격려받는 결과로, 시간이 지남에 따라 pplx-api가 저희 제품 기능을 더 많이 지원할 것으로 기대합니다.
퍼플렉서티 연구소에서의 pplx-api: 오픈 소스 추론 생태계
우리는 또한 퍼플렉서티 연구소에서 다양한 오픈 소스 모델을 제공하기 위해 pplx-api를 사용하고 있습니다.
저희 팀은 최신의 첨단 오픈 소스 LLM에 액세스할 수 있도록 헌신하고 있습니다. 그래서, 릴리스 후 몇 시간 내에 Mistral 7B, Code Llama 34b 및 모든 Llama 2 모델을 통합했으며, 더 강력하고 오픈 소스 LLM이 출시됨에 따라 매력적인 오픈 소스 LLM을 추가할 계획입니다.
퍼플렉서티 AI API 시작하기
HTTPS 요청을 사용하여 pplx-api REST API에 액세스할 수 있습니다. pplx-api에 인증하기 위한 단계는 다음과 같습니다:
퍼플렉서티 계정 설정 페이지를 통해 API 키를 생성합니다. API 키는 수동으로 새로 고칠 때까지 사용할 수 있는 오랜 기간의 액세스 토큰입니다.
각 pplx-api 요청 시
Authorization
헤더에 API 키를 베어러 토큰으로 보냅니다.
다음 예제에서는 PERPLEXITY_API_KEY
가 상기 지침을 사용하여 생성된 키에 바운드된 환경 변수입니다. CURL을 사용하여 채팅 완성 요청을 제출합니다.
이에 대한 응답은 다음과 같습니다. content-type: application/json
Python 호출 예제:
현재 우리는 Mistral 7B, Llama 13B, Code Llama 34B, Llama 70B을 지원하고 있으며 API는 기존 응용 프로그램과 쉽게 통합할 수 있도록 OpenAI 클라이언트 호환성을 갖추고 있습니다.
자세한 정보는 저희의 API 문서 및 빠른 시작 가이드를 참조하십시오.
다음 계획
가까운 미래에는 pplx-api가 다음을 지원할 예정입니다:
사용자 정의 퍼플렉서티 LLM 및 기타 오픈 소스 LLM.
사용자 정의 퍼플렉서티 임베딩 및 오픈 소스 임베딩.
범용 액세스 구조를 갖춘 상용 API 가격 정책이 베타 버전이 종료된 후에 제공될 예정입니다.
사실과 인용에 대한 퍼플렉서티 RAG-LLM API가 지원될 예정입니다.
이 중 어느 사례에나 관심이 있으신 경우 api@perplexity.ai로 연락해 주세요.
이는 또한 퍼플렉서티 블로그 포스트 시리즈의 시작입니다. 다음 포스트에서는 LLM 추론을위한 A100 대 H100 성능 비교에 대해 자세히 소개하겠습니다. 기대해 주세요!
저희는 채용 중입니다! 대규모로 배포되는 제품에 참여하고 정교하게 최적화된 생성 및 대형 언어 모델 인프라를 만들고 싶으시다면 저희와 함께 가입해 주십시오.
Twitter에서 팔로우하거나, LinkedIn에 참여하시고 더 많은 토론을 위해 Discord에 참여해 주세요.