Les systèmes de traduction automatique statistique (TAS) comportent trois principales composantes: le modèle de langue, le modèle de traduction et le décodeur.
Le modèle de langue est une série de suites de mots, extraites d’un nombre de textes aussi grand que possible. Actuellement, la puissance de calcul des ordinateurs permet d’obtenir des listes allant jusqu’à 8 mots, en plus de la liste des mots uniques. Les spécialistes appellent ces groupes ngrammes, comme dans unigramme, bigramme… jusqu’à octogramme. Le modèle de langue permet de lever les ambigüités, c’est-à-dire de choisir le bon mot ou groupe de mots.
Aussi appelé «tables de traduction», le modèle de traduction est une série de tables de groupes de mots et de leurs équivalents. Le modèle de traduction permet au moteur de traduction automatique de trouver les mots en langue source pour les remplacer en langue cible, en fonction de la fréquence répertoriée dans une série de textes.
Le décodeur est la partie du logiciel qui prend le texte en langue source, fait des recherches pour trouver des segments, des plus longs aux plus courts, et applique le modèle de langue (langue cible). On l’appelle «décodeur» parce qu’en traduction automatique, les langues sont considérées comme des séries de codes qu’il faut décoder. Le décodeur permet de produire une traduction automatique statistique plus ou moins grossière.