手書き
Perplexity チーム
公開日
2023/11/29
導入PPLXオンラインLLMs
そのようなオンラインLLM APIは初めてです。
新しいPPLXモデルを2つ紹介するのを楽しみにしています:pplx-7b-online
と pplx-70b-online
! 当社のオンラインモデルは、役立つ、最新で事実に基づいた回答を提供することに焦点を当てており、pplx-api を介して一般に提供される初のAPIとして利用可能です。 pplx-7b-online
と pplx-70b-online
は、Perplexity Labs を通じてもアクセス可能です。
LLMsは情報の検索方法を変革しました。ただし、今日のほとんどのLLMsには2つの制限があります:
鮮度:LLMsはしばしば最新情報を共有するのに苦労します。
幻覚:LLMsは誤った記述を出力することもあります。
pplx-7b-online
と pplx-70b-online
モデルは、その回答で便利で、事実に基づいた、最新の情報を提供することで現在の制限に対処します。
PPLXオンラインLLMs
当社のLLMs、pplx-7b-online
と pplx-70b-online
、はオンラインLLMsであるため、インターネットからの知識を活用することができ、そのために回答形成時に最新の情報を利用できます。ウェブからの知識を提供することで、当社のモデルは訓練コーパス以上の知識を解き放ち、時の経過に敏感なクエリに正確に応答できます。これにより、PerplexityのオンラインLLMsはオフラインモデルにとって難しい「昨夜のウォリアーズの試合のスコアは?」といったクエリに答えることができます。簡単に言うと、これが当社のオンラインLLMの動作方法です:
オープンソースのモデルを活用: 当社のPPLXモデルは、
mistral-7b
とllama2-70b
の基本モデルに基づいて構築されています。社内検索技術: 当社の社内検索、インデックス作成、およびクローリングインフラストラクチャを使用することで、LLMsを最も関連性の高い、最新の、価値のある情報で補完することができます。私たちの検索インデックスは大規模であり、定期的に更新され、洗練されたランキングアルゴリズムを使用して高品質な、SEOに影響されないサイトが優先されます。ウェブサイトの抜粋、当社が「スニペット」と呼んでいるものは、
pplx-online
モデルに最新の情報を提供するために使用されます。ファインチューニング: 当社のPPLXモデルは、スニペットを回答形成に使用することを効果的にファインチューンしました。社内のデータコントラクターを使用して、私たちは高品質で多様で大規模なトレーニングセットを注意深くキュレーションし、役立ち、事実に基づいた、鮮度などの様々な軸での高い性能を達成するために取り組んでいます。当社のモデルは、継続的なパフォーマンス向上のために定期的にファインチューニングされています。
PerplexityのオンラインLLMsの評価
Perplexityの使命は、人々が信頼して知識を発見し拡大できる世界最高の回答エンジンを開発することに深く焦点を当てることです。これを達成するために、私たちは役立つ、事実に基づき、最新の情報を提供することに深く焦点を当てています。これらの軸で当社のLLMsのパフォーマンスをベンチマークするために、回答エンジンに求められる厳しいけれども現実的な使用ケースを反映した評価データセットをキュレーションしました。各評価セットの各クエリについて、請負業者に2つのモデルの回答を提供し、指定された基準に基づいてどちらの回答がより優れているかを選択するよう指示しました:
役立つ性: どちらの回答がクエリに答え、指定された指示によく従うか?
事実性: どちらの回答が非常に正確またはニッチな知識を要求する質問に対して、より正確な回答を提供していますか?
鮮度 (inspired by FreshLLMs):どちらの回答にはより最新の情報が含まれていますか?モデルはこの基準でクエリに「新鮮な」情報で答えることができる場合、この基準で優れたパフォーマンスを発揮します。
上記の3つの基準に加えて、モデルの回答は包括的に評価されました。包括的に評価するために、評価者にはクエリにお手伝いしている人間アシスタントから受け取りたい回答を選択するよう求められました。
評価セットのキュレーション
この評価のために、有効性、事実性、鮮度を効果的に評価するために、多様な促進策を慎重に選択し、データの品質と関連性を厳しくコントロールできるようにしました。データセットは、回答エンジンの促進すべき内容の包括的な概要を示すように手動で選択され、当社がPerplexityの優れた成果を達成するためにはこれが極めて重要です。これは、当社のモデルのパフォーマンス評価が高い信号を発信するために重要です。
3つの評価セットそれぞれには50のプロンプトが含まれます。これらのセットの一部の例は以下の通りです:
役立つ性: ワールドカップ決勝でプレーしたすべてのUSAサッカー選手の表を作成し、得点、アシストなどの項目を作成します。
事実性: AISI 1015およびAISI 1040鋼の優れた説明。
最新情報: 自動車会社が2023年にサンフランシスコから禁止されたのはどの会社ですか?
モデル回答の生成
当社は4つのモデルを評価しました:
pplx-7b-online
: Perplexityのモデルで、インターネットからの情報へのアクセスを含んでいます。このモデルはmistral-7b
を使用してファインチューニングされました。pplx-70b-online
: Perplexityのモデルで、インターネットからの情報へのアクセスを含んでいます。このモデルはllama2-70b
を使用してファインチューニングされました。gpt-3.5-turbo-1106
: OpenAIのモデルで、APIを介してアクセスされたもので、追加の拡張機能はありません。なお、当社は最新のgpt-3.5
モデルを使用してこの評価を実施しました。llama2-70b-chat
: Meta AIのモデルで、当社のpplx-apiを介してアクセスされ、追加の拡張機能はありません。
各プロンプトに対して、pplx-7b-online
と pplx-70b-online
モデルには同じ検索結果とスニペットが提供されました。すべての回答は同じハイパーパラメータとシステムプロンプトを使用して生成されました。
システムプロンプト
評価基準でモデル回答をランキング
各ペアワイズ比較について、当社の社内請負業者には、プロンプト自体、評価基準(つまり、役立つ性、事実性、または鮮度)、および並べ替えられたモデルの回答が並んで表示されました。回答の順番は各ターンごとにランダムになされ、評価者にはソースモデルが明らかになることはありませんでした。評価者には、包括的に好む回答を選択し、また特定の評価基準でどちらがより優れているかを選択するよう指示されました。最後に、評価者は回答の正確さを確認するためにインターネット検索を利用することができました。当社はこの評価のために、独自の社内優先順位付けツールを構築しました。
評価結果
人間の評価から収集したペアワイズの好みのランキングを使用して、各モデルのタスクごとのEloスコアを計算しました。Eloスコアは、大規模な言語モデルに適用されると、これらのスコアは、1つのモデルの出力を別のモデルの出力よりもより好む可能性を測定するために使用されます。
Eloスコアは通常、選手の能力の変化を考慮するために、一連の比較のために計算されます。しかし、能力が変化しないモデルの性能を数量化することを目指して、当社はDuanらによって記述され、またlmsysがChatbot Arena向けに使用しているBootstrap Elo方法を採用しました。この方法では、比較の多くのランダムな順列に対してEloスコアを計算し、これらのEloスコアの分布を使用して95%信頼区間を計算しました。
図1に示す結果は、当社のPPLXモデルがPerplexity関連のユースケースでgpt-3.5のパフォーマンスを上回ることができることを示しています。特に、pplx-7b-online
と pplx-70b-online
モデルの回答は、その正確で最新の情報を提供するために人間の評価者によって好まれます。
pplx-7b-online
と pplx-70b-online
は、gpt-3.5
および llama2-70b
よりも、鮮度、事実性、および包括的基準において良いパフォーマンスを発揮します。
図1。4つの異なる評価セット全体での、pplx-7b
(-online)、pplx-70b
(-online)、llama2-70b
、および gpt-3.5
の推定Eloスコアと95%信頼区間を示しています。たとえば、鮮度の軸では、pplx-7