Whisper: OpenAI で作成された多言語モデルが BLOOM に対して出現 | ケイ素

データ品質を犠牲にして、大規模なトレーニングをどこまで優先する必要がありますか? OpenAI は、ウィスパー (現在はオープン ソース) でこの道をたどりました。

ソース データの量と質の間で、多言語音声認識モデルをトレーニングするための適切な妥協点はどこでしょうか? この疑問がウィスパーの開発を支えました。 ワンドで、MITライセンスの下でプロジェクトを公開したばかりのOpenAI。

Whisper は Seq2seq トランスフォーマーです。 主に音声認識で評価されていますが、他のタスクも実行できます。 この場合、翻訳、言語識別、音声検出。

(画像をクリックすると拡大します。)

OpenAI は、 データセット 参照しますが、独自のコーパスをコンパイルします。 質的ではなく、データ準備フェーズが削減されていますが、よりボリュームがあります。対応するトランスクリプションを含む 680,000 時間のオーディオです。 詳細に :

– 438,000 時間の英語音声と英語の書き起こし
– 98 の他の言語で 126,000 時間、英語の書き起こし付き
– 117,000 時間 これらの同じ言語と対応する文字起こし

バックグラウンドでは、特にコンピュータ ビジョンの分野で行われた作業 (マハジャン ら。、2018; コレスニコフ ら。、2020)。 そして、これは正確には、ImageNet タイプの参照データセットから距離を置くことで構成されていました。 データセット 監督が少ない。 彼らは、訓練されたモデルをより一般化する能力を観察することを可能にしました.

OpenAI は、多くのトレーニング ステージで、Whisper の 5 つのバージョンをリリースしました。 最大のもの (15 億 5000 万のハイパーパラメーター) を除くすべてが、多言語または英語でのみ利用可能です。

配列モデル

英語の音声認識を除いて、データの量に応じてパフォーマンスが向上します (多言語 ASR、翻訳、言語識別)。

小規模では、「英語のみ」のモデルの方が優れたパフォーマンスを発揮します。 その後、傾向は逆転し、いくつかのタスクで訓練を受けた人が有利になります.多言語

BLOOM より 100 分の 1 小さい

同じニッチで、最近 BLOOM (BigScience Large Open-science Open-access multilingual Language Model) が登場しました。 70 層のニューロン、112 個の注意の頭、1760 億個のパラメーターを備えているため、Whisper と同じコートではプレーしません。 彼が独占した手段は比較にならないと言わざるを得ない。

Airbus、Meta AI、Mozilla、Orange Labs、Ubisoft など、約 70 の国と企業を代表する 1,000 人の科学者がその開発に関与しました。 トレーニングは、フランスのサクレー (エソンヌ) にあるジャン ゼイ スーパーコンピューターで行われました。 最初のトレーニング フェーズのコンピューティング リソース (CNRS + GENCI 助成金) の基金は、約 300 万ユーロと見積もられています。

BLOOM のベースには、社内アーキテクチャはありませんが、Megatron-DeepSpeed のフォークです。 これ自体は Megatron-LM (3 億 4500 万のパラメーターを持つ NVIDIA で作成され、GPT-2 モデルに基づいて構築され、Wikipedia、OpenWebText、および CC-Stories でトレーニングされた言語モデル) から派生しています。

メインイラスト©

#Whisper #OpenAI #で作成された多言語モデルが #BLOOM #に対して出現 #ケイ素

Leave a Reply

Your email address will not be published. Required fields are marked *