La traducción de Neural networks (NMT) proporciona una traducción más flexible que se adapta a entradas y resultados de longitudes variables. Al igual que los sistemas SMT, los enfoques de NMT se pueden dividir en dos pasos generales. Primero, un modelo lee el texto de entrada y lo contextualiza dentro de una estructura de datos que resume la entrada. Esta representación contextual suele ser un modelo vectorial, como en los modelos de bag of words, pero también puede adoptar otras formas, como tensores. Una Neural Networks recurrente o convolucional lee esta representación y genera una oración en el idioma de destino.8 Más recientemente, los investigadores han recurrido a las arquitecturas transformadoras para NMT. Un ejemplo clave es mBART, un transformador entrenado con datos multilingües para recuperar lagunas artificiales que luego se ajustan para la traducción.9
Los enfoques de NMT también han adoptado modelos de lenguaje grandes (LLM). Específicamente, en lugar de ajustar una Neural Networks o un transformador para la traducción, los investigadores han explorado la posibilidad de generar modelos de lenguaje generativos de gran tamaño para la traducción. Uno de estos estudios examina los modelos GPT para la traducción automática. Los sistemas NMT consisten en la arquitectura de codificador-decodificador descrita anteriormente entrenada en grandes cantidades de datos multilingües. Los modelos GPT, por el contrario, consisten solo en configuraciones de decodificador entrenadas principalmente con datos en inglés. Al realizar pruebas en varios idiomas, incluidos inglés, francés, español, alemán, chino y ruso, el estudio sugiere que los enfoques híbridos de los modelos NMT y GPT producen traducciones de alta calidad y de vanguardia.10
Esto sugiere que los sistemas NMT, particularmente cuando se combinan con LLM y modelos generativos, pueden manejar mejor las expresiones idiomáticas y los términos fuera del vocabulario que los métodos SMT. Además, mientras que las SMT procesan n-gramas, las NMT procesan la oración fuente completa. Por lo tanto, maneja mejor las características lingüísticas, como la discontinuidad, que requieren abordar las oraciones como unidades. Sin embargo, la ambigüedad en los pronombres puede seguir siendo un problema para los NMT.11