この仮定のアウトプットでは、モデルはラテン語のフレーズ「mihi canes placent」に対する英語の翻訳の可能性を予測します。英語の「I like dogs」の確率は0.8と最も高くなります。これは、モデルがラテン語と英語のペアから学習した内容に基づいて、これが最適な英語翻訳である可能性が80％であることを意味します。

2番目のモデルは、ターゲット言語の単一言語モデルです。このモデルは基本的に、翻訳モデルのn-gramアウトプットがターゲット言語で表示される可能性を予測します。例えば、翻訳モデルから「I like dogs」という仮定のアウトプットを考えてみましょう。単一言語モデルは、提供された英語のトレーニング・データに従って、I likeの後にdogが現れる確率を予測します。このように、単一言語モデルは、翻訳の意味と適切性を確認することを目的としたポストエディットへの確率的アプローチと考えることができます。7

SMTはルールベースの手法を改善していますが、機械学習モデルに共通する問題が多くあります。例えば、トレーニング・データの過学習または過小学習です。前者は、語彙用語、慣用表現、異なる語順に対するSMTシステムの能力を特に妨げる可能性があります。SMTシステムは、テキスト・シーケンスをn単語の固定長で前処理します。