データ品質を犠牲にして、大規模なトレーニングをどこまで優先する必要がありますか? OpenAI は、ウィスパー (現在はオープン ソース) でこの道をたどりました。 ソース データの量と質の間で、多言語音声認識モデルをトレーニングするための適切な妥協点はどこでしょうか? この疑問がウィスパーの開発を支えました。 ワンドで、MITライセンスの下でプロジェクトを公開したばかりのOpenAI。 Whisper は Seq2seq トランスフォーマーです。 主に音声認識で評価されていますが、他のタスクも実行できます。 この場合、翻訳、言語識別、音声検出。 (画像をクリックすると拡大します。) OpenAI は、 データセット 参照しますが、独自のコーパスをコンパイルします。 質的ではなく、データ準備フェーズが削減されていますが、よりボリュームがあります。対応するトランスクリプションを含む 680,000 時間のオーディオです。 詳細に : – 438,000 時間の英語音声と英語の書き起こし– 98 の他の言語で 126,000 時間、英語の書き起こし付き– 117,000 時間 これらの同じ言語と対応する文字起こし バックグラウンドでは、特にコンピュータ ビジョンの分野で行われた作業 (マハジャン ら。、2018; コレスニコフ ら。、2020)。 そして、これは正確には、ImageNet タイプの参照データセットから距離を置くことで構成されていました。 データセット 監督が少ない。 彼らは、訓練されたモデルをより一般化する能力を観察することを可能にしました. OpenAI は、多くのトレーニング ステージで、Whisper の 5 つのバージョンをリリースしました。 最大のもの (15 […]