Los humanos han soñado con crear máquinas pensantes desde la antigüedad. El folclore y los intentos históricos de crear dispositivos programables reflejan esta antigua ambición, y abunda la ficción sobre las posibilidades de las máquinas inteligentes en la que se imaginan sus beneficios y peligros. No es de extrañar que cuando OpenAI publicó la primera versión de GPT (Generative Pretrained Transformer), obtuviera rápidamente una gran atención, lo que supuso un paso importante hacia la materialización de este antiguo sueño.
GPT-3 supuso un hito en el ámbito de la IA debido a su tamaño sin precedentes (175 000 millones de parámetros), que le permitió realizar una amplia gama de tareas de lenguaje natural sin necesidad de grandes ajustes. Este modelo se entrenó utilizando big data, lo que le permitió generar texto similar al humano y entablar conversaciones. También tenía la capacidad de llevar a cabo aprendizajes few-shot, lo que mejoraba significativamente su versatilidad y demostraba su utilidad en aplicaciones comerciales de IA como chatbots y asistentes virtuales.
Hoy en día, la IA está cada vez más integrada en muchos aspectos de la vida cotidiana, desde las redes sociales hasta los procesos de trabajo, y a medida que la tecnología mejore, su influencia seguirá creciendo. Para comprender las direcciones que puede tomar la tecnología, ayuda entender cómo hemos llegado hasta aquí. A continuación, se presenta la historia de los principales avances de la IA:
La fantástica novela de Jonathan Swift "Los viajes de Gulliver" introduce la idea de "la máquina", un gran aparato mecánico que se utiliza para ayudar a los eruditos a generar nuevas ideas, frases y libros.
Los eruditos giran manivelas en la máquina, que hace girar bloques de madera inscritos con palabras. Se dice que la máquina crea nuevas ideas y tratados filosóficos al combinar palabras en diferentes disposiciones:
"Todos sabemos cuán laborioso es el método corriente para llegar a poseer artes y ciencias; pues bien: gracias a su invento, la persona más ignorante, por un precio módico y con un pequeño trabajo corporal, es capaz de escribir libros de filosofía, poesía, política, leyes, matemáticas y teología, sin que para nada necesite el auxilio del talento ni del estudio".
- Los viajes de Gulliver, de Jonathan Swift (1726)
La sátira de Swift anticipa el concepto de generación algorítmica de texto, que ahora es una realidad con la IA moderna. Los modelos de IA pueden producir texto coherente mediante la combinación de palabras e ideas basadas en algoritmos subyacentes, de forma similar a lo que pretende hacer la máquina ficticia de Swift.
El ingeniero español Leonardo Torres y Quevedo presenta la primera máquina para jugar al ajedrez, El Ajedrecista, en la Exposición Universal de París. Utilizaba electroimanes y estaba completamente automatizada. El Ajedrecista jugaba automáticamente un simple final de ajedrez de rey y torre contra rey. La máquina no requería intervención humana una vez puesta en marcha: realizaba de forma autónoma jugadas de ajedrez legales, y si el oponente humano realizaba una jugada ilegal, la máquina señalaba el error. Si esta se colocaba en una posición ganadora, era capaz de dar jaque mate al oponente humano de manera fiable.
Se estrena en Londres una obra de teatro llamada R. U. R. (Robots Universales Rossum). La obra de Karel Čapek representa la primera vez que se utiliza la palabra "robot" en inglés. En checo, la palabra "robota" se asocia al trabajo obligatorio o forzado que realizan los campesinos en un sistema feudal. El término "robot" ganó rápidamente reconocimiento internacional tras el éxito de la obra y se convirtió en el término estándar para designar a los seres mecánicos o artificiales creados para realizar tareas. Aunque los robots de Čapek son orgánicos, la palabra pasó a asociarse con máquinas mecánicas humanoides diseñadas para realizar trabajos monótonos y no cualificados.
John Vincent Atanasoff, profesor de física y matemáticas en el Iowa State College, y su estudiante de posgrado Clifford Berry, crean el ordenador Atanasoff-Berry (ABC) con una subvención de 650 dólares en la Universidad Estatal de Iowa. El ordenador ABC está considerado uno de los primeros ordenadores electrónicos digitales y un hito en el campo de la informática estadounidense.
Aunque el ABC nunca llegó a ser plenamente operativo ni a utilizarse de forma generalizada, introdujo varios conceptos clave que se convertirían en fundamentales en el desarrollo de la informática moderna.
A diferencia de los dispositivos informáticos anteriores, que se basaban en sistemas decimales, el ABC utilizaba el sistema binario (1 y 0) para representar los datos, que se convirtió en el estándar para los ordenadores a partir de entonces. El ABC es también uno de los primeros ordenadores en utilizar circuitos electrónicos para el cálculo en lugar de sistemas mecánicos o electromecánicos, lo que permite cálculos más rápidos y fiables. El ABC separaba el almacenamiento de datos (memoria) de la unidad de procesamiento (operaciones lógicas), un principio que aún se sigue en la arquitectura informática moderna. Utilizaba condensadores para almacenar los datos y podía manejar hasta 30 ecuaciones simultáneas.
El ABC empleaba alrededor de 300 tubos de vacío para sus operaciones lógicas, lo que lo hacía mucho más rápido que las calculadoras mecánicas anteriores. Los tubos de vacío, aunque voluminosos y propensos a fallar, son un desarrollo clave en la informática electrónica. El ABC pesaba más de 300 kilos y podía resolver hasta 29 ecuaciones lineales de forma simultánea.
Warren S. McCulloch y Walter Pitts publican "A Logical Calculus of the Ideas Immanent in Nervous Activity" (Un cálculo lógico de las ideas inmanentes a la actividad nerviosa) en el Bulletin of Mathematical Biophysics1. Se trata de uno de los trabajos más importantes de la historia tanto de la neurociencia como de la IA. El artículo sienta las bases de la idea de que el cerebro puede entenderse como un sistema computacional e introduce el concepto de redes neuronales artificiales, actualmente una tecnología clave en la IA moderna. Esta idea inspira los sistemas informáticos que simulan funciones y procesos similares a los del cerebro, en particular a través de las redes neuronales y el deep learning.
Se publica en Mind el histórico artículo del matemático británico Alan Turing "Computing Machinery and Intelligence" (Maquinaria computacional e inteligencia)2. Este trabajo es un texto fundacional en el campo de la IA y aborda la pregunta "¿Pueden pensar las máquinas?". El planteamiento de Turing sentó las bases para futuros debates sobre la naturaleza de las máquinas pensantes y cómo podría medirse su inteligencia a través del "juego de imitación", conocido actualmente como la prueba de Turing. Turing introdujo un experimento mental para evitar responder directamente a la pregunta planteada. En su lugar, reformuló el problema de una forma más específica y operativa: ¿puede una máquina exhibir un comportamiento inteligente indistinguible del de un humano?
La prueba de Turing se ha convertido en un concepto central en IA, y sirve como una forma de medir la inteligencia de las máquinas mediante la evaluación de su capacidad para imitar de manera convincente la conversación y el comportamiento humanos.
Marvin Minsky y Dean Edmunds construyen la primera red neuronal artificial. La calculadora de refuerzo analógico neuronal estocástico (SNARC) es uno de los primeros intentos de modelar los procesos de aprendizaje en el cerebro humano, concretamente a través del aprendizaje por refuerzo.
La SNARC está diseñada para simular el comportamiento de una rata al recorrer un laberinto. La idea es que la máquina imite la forma en que los animales aprenden mediante recompensas y castigos, es decir, ajustando su comportamiento a lo largo del tiempo en función del feedback. Se trata de un ordenador analógico que utiliza una red de 3000 tubos de vacío junto a pesos sinápticos para simular 40 unidades similares a neuronas.
Allen Newell, matemático e informático, y Herbert A. Simon, politólogo, desarrollaron programas tan influyentes como Logic Theorist y General Problem Solver, que fueron de los primeros en imitar la capacidad humana de resolución de problemas mediante métodos computacionales.
El término "inteligencia artificial" se acuña por primera vez en una propuesta de taller titulada "A Proposal for the Dartmouth Summer Research Project on Artificial Intelligence" (Una propuesta para el proyecto de investigación de verano de Dartmouth sobre inteligencia artificial)3, presentada por John McCarthy del Dartmouth College, Marvin Minsky de la Universidad de Harvard, Nathaniel Rochester de IBM y Claude Shannon de Bell Telephone Laboratories.
El taller, que tuvo lugar un año después, en julio y agosto de 1956, se considera generalmente la fecha de nacimiento oficial del floreciente campo de la IA.
Frank Rosenblatt, psicólogo e informático, desarrolla el perceptrón, una de las primeras redes neuronales artificiales que permite el reconocimiento de patrones a partir de una red de aprendizaje informático de dos capas. El perceptrón introduce el concepto de clasificador binario que puede aprender de los datos mediante el ajuste de las ponderaciones de sus entradas a través de algoritmos de aprendizaje. Aunque limitado a la resolución de problemas linealmente separables, sentó las bases para futuras redes neuronales y desarrollos de machine learning.
John McCarthy desarrolla el lenguaje de programación Lisp4, acrónimo de LISt Processing (procesamiento de listas). Lisp se desarrolla a partir del trabajo de McCarthy sobre la formalización de algoritmos y lógica matemática, particularmente influenciado por su deseo de crear un lenguaje de programación capaz de manejar información simbólica. Lisp pronto se convierte en el lenguaje de programación más popular utilizado en la investigación de la IA.
Arthur Samuel es pionero en el concepto de machine learning al desarrollar un programa informático que mejora su rendimiento en las damas con el tiempo. Samuel demuestra que un ordenador puede programarse para seguir reglas predefinidas y "aprender" de la experiencia, hasta el punto de jugar mejor que su programador. Su trabajo marca un gran paso hacia la enseñanza de las máquinas para que mejoren a través de la experiencia, acuñando el término "machine learning" en el proceso.
Oliver Selfridge publica su artículo "Pandemonium: A paradigm for learning" (Pandemonium: un paradigma para el aprendizaje)5. Su modelo de pandemonio proponía un sistema en el que varios "demonios" (unidades de procesamiento) trabajan juntos para reconocer patrones. Los demonios compiten por identificar características en datos que no han sido preprogramados, lo que simula un aprendizaje no supervisado. El modelo de Selfridge supone una contribución temprana al reconocimiento de patrones, que influyó en futuros desarrollos de la visión artificial y la IA.
John McCarthy introduce el concepto de "advice taker" (seguidor de consejos) en su artículo "Programs with Common Sense" (Programas con sentido común)6. Este programa tiene como objetivo resolver problemas mediante la manipulación de oraciones en lógica formal, con el fin de sentar las bases del razonamiento en la IA. McCarthy imagina un sistema que pueda entender instrucciones, razonar con conocimiento de sentido común y aprender de la experiencia, con el objetivo a largo plazo de desarrollar una IA que pueda adaptarse y aprender con la misma eficacia que los humanos. Este concepto ayuda a dar forma a las primeras investigaciones sobre la representación del conocimiento y el razonamiento automatizado.
El filósofo Hubert Dreyfus publica "Alchemy and Artificial Intelligence" (Alquimia e inteligencia artificial)7, donde sostiene que la mente humana funciona de forma fundamentalmente diferente a la de los ordenadores. Predice límites al progreso de la IA debido a los retos de replicar la intuición y la comprensión humanas. Su crítica influye en los debates sobre los límites filosóficos y prácticos de la IA.
I.J. Good escribe "Speculations Concerning the First Ultraintelligent Machine" (Especulaciones sobre la primera máquina ultrainteligente)8, donde afirma que una vez que se crea una máquina ultrainteligente, puede diseñar sistemas aún más inteligentes, lo que la convierte en el último invento de la humanidad, siempre que siga siendo controlable. Sus ideas prefiguran los debates modernos sobre la superinteligencia de la IA y sus riesgos.
Joseph Weizenbaum desarrolla ELIZA9, un programa que imita la conversación humana al responder a entradas escritas en lenguaje natural. Aunque Weizenbaum pretende mostrar la superficialidad de la comunicación entre humanos y ordenadores, le sorprende la cantidad de usuarios que atribuyen al programa emociones similares a las humanas, lo que plantea cuestiones éticas sobre la IA y la interacción humana.
Edward Feigenbaum, Bruce Buchanan, Joshua Lederberg y Carl Djerassi desarrollan DENDRAL en la Universidad de Stanford10. Es el primer sistema experto que automatiza el proceso de toma de decisiones de los químicos orgánicos mediante la simulación de la formación de hipótesis. El éxito de DENDRAL supone un avance en el campo de la IA, ya que demuestra que los sistemas pueden realizar tareas especializadas tan bien o mejor que los expertos humanos.
Desarrollado en SRI a finales de la década de 1960, Shakey es el primer robot móvil capaz de razonar sobre sus propias acciones, combinando percepción, planificación y resolución de problemas11. En un artículo de 1970 de la revista Life, Marvin Minsky predice que en un plazo de tres a ocho años, la IA alcanzaría la inteligencia general de un humano medio. Los logros de Shakey marcan un hito en la robótica y la IA, aunque el ambicioso calendario de Minsky resulta demasiado optimista.
Arthur Bryson y Yu-Chi Ho presentan la retropropagación, un método para optimizar sistemas dinámicos de varias etapas. Aunque originalmente se desarrolló para sistemas de control, este algoritmo se vuelve crucial a la hora de entrenar redes neuronales. La retropropagación no adquirió protagonismo hasta las décadas de 2000 y 2010, con los avances en la potencia computacional, que permitieron el auge del deep learning.
Marvin Minsky y Seymour Papert publican Perceptrons: An Introduction to Computational Geometry (Perceptrones: una introducción a la geometría computacional)12, en el que se analizan de manera crítica las limitaciones de las redes neuronales de una sola capa. A menudo se culpa a su trabajo de reducir el interés por las redes neuronales. En la edición de 1988, argumentan que el progreso ya se había estancado debido a la falta de comprensión teórica a pesar de los numerosos experimentos con perceptrones a mediados de la década de 1960.
Terry Winograd crea SHRDLU, un innovador programa de comprensión del lenguaje natural13. SHRDLU es capaz de interactuar con los usuarios en un lenguaje sencillo para manipular objetos en un mundo virtual de bloques, lo que demuestra el potencial de los ordenadores para comprender y responder a instrucciones complejas. Se trata de un logro temprano en el procesamiento del lenguaje natural, aunque su éxito se limita a entornos específicos y muy estructurados. Las capacidades de SHRDLU ponen de manifiesto tanto la promesa como los retos de lograr una comprensión más amplia del lenguaje por parte de la IA.
Desarrollado en la Universidad de Stanford, MYCIN es uno de los primeros sistemas expertos creados para ayudar a los médicos a diagnosticar infecciones bacterianas y recomendar tratamientos con antibióticos14. MYCIN utiliza un enfoque basado en reglas para simular el proceso de toma de decisiones de expertos humanos y crea una plataforma para el desarrollo de sistemas de IA médica. Sin embargo, debido a preocupaciones éticas y legales, nunca se ha llegado a implementar en la práctica clínica.
James Lighthill presenta un informe crítico al British Science Research Council sobre el progreso de la investigación en materia de IA, en el que concluye que esta no ha cumplido sus promesas iniciales15. Sostiene que el campo no ha producido avances significativos, lo que ha llevado a una drástica reducción de la financiación por parte del gobierno para la IA en el Reino Unido. Este informe contribuyó al inicio del primer invierno de la IA16, un periodo de disminución del interés y la inversión en la investigación de este campo.
WABOT-217, un robot humanoide desarrollado en la Universidad de Waseda (Japón), se construye a partir de 1980 y se completa hacia 1984. Sucedió a WABOT-1, construido en 1973. Mientras que WABOT-1 se centraba en la movilidad y la comunicación básicas, WABOT-2 es más especializado, diseñado específicamente como un robot músico. Puede leer partituras musicales con sus "ojos" cámara, conversar con humanos, tocar música en un órgano electrónico e incluso acompañar a un cantante humano. Este proyecto representa un paso significativo hacia el desarrollo de robots humanoides y una IA capaces de realizar tareas complejas similares a las humanas, como la expresión artística.
Japón lanza el Proyecto de Sistemas Informáticos de Quinta Generación (FGCS) con el objetivo de desarrollar ordenadores capaces de manejar el razonamiento lógico y la resolución de problemas, y de impulsar la investigación en IA. Este ambicioso proyecto tiene como objetivo construir máquinas capaces de realizar tareas como el procesamiento del lenguaje natural y los sistemas expertos. Aunque se interrumpió en 1992, el proyecto FGCS y sus hallazgos contribuyeron en gran medida al desarrollo del campo de la programación lógica concurrente.
En la reunión anual de la Asociación para el Avance de la Inteligencia Artificial (AAAI), Roger Schank y Marvin Minsky advierten sobre un inminente "invierno de la IA", y pronostican que las expectativas infladas en torno a la IA pronto conducirán a un colapso de la inversión y la investigación, similar al la reducción de la financiación a mediados de la década de 1970. Su predicción se hizo realidad en tres años, ya que el interés por la IA disminuyó debido a las promesas incumplidas, lo que provocó una disminución de la financiación y una ralentización del progreso. Este periodo se conoció como el segundo invierno de la IA.
La advertencia de Schank y Minsky resalta la naturaleza cíclica del revuelo generado por la IA, en el que los brotes de optimismo van seguidos de desilusión cuando la tecnología no cumple las expectativas de los inversores y del público.
David Rumelhart, Geoffrey Hinton y Ronald Williams publican el artículo seminal "Learning representations by back-propagating errors" (Aprendizaje de representaciones mediante errores de retropropagación), en el que describían el algoritmo de retropropagación18. Este método permite a las redes neuronales ajustar sus ponderaciones internas mediante la "propagación hacia atrás" del error a través de la red, lo que mejora la capacidad de las redes multicapa para aprender patrones complejos. El algoritmo de retropropagación se convierte en la base del deep learning moderno, despierta un renovado interés por las redes neuronales y supera algunas limitaciones destacadas en investigaciones anteriores sobre IA. Este descubrimiento se basa en el trabajo de 1969 de Arthur Bryson y Yu-Chi Ho al aplicar el algoritmo de retropropagación específicamente a las redes neuronales, con lo que se superaban las limitaciones anteriores en el entrenamiento de redes multicapa.
Este avance hace que las redes neuronales sean viables para aplicaciones prácticas y abre la puerta para la revolución del deep learning de las décadas de 2000 y 2010.
Durante su discurso de apertura de Educom, el CEO de Apple, John Sculley, presenta el vídeo Knowledge Navigator, que imagina un futuro en el que los agentes digitales inteligentes ayudan a los usuarios a acceder a grandes cantidades de información a través de sistemas en red19. Este concepto visionario representa a un profesor interactuando con un asistente activado por voz que puede recuperar datos, responder preguntas y mostrar información de lo que ahora reconocemos como Internet. El vídeo anticipaba muchos elementos de las tecnologías modernas, como los asistentes de IA, las bases de datos de conocimientos en red y nuestro mundo digital interconectado.
Judea Pearl publica Probabilistic Reasoning in Intelligent Systems (Razonamiento probabilístico en sistemas inteligentes), que revoluciona la forma en que la IA procesa la información en condiciones de incertidumbre20. Este trabajo presenta las redes bayesianas, un formalismo para representar modelos de probabilidad complejos y los algoritmos para realizar inferencias dentro de ellos. Los métodos de Pearl permitieron que los sistemas de IA tomaran decisiones razonadas en entornos inciertos, lo que influyó en campos mucho más allá de la IA, como la ingeniería y las ciencias naturales. Sus contribuciones se reconocen con su premio Turing 2011, que cita su papel en la creación de la "base representativa y computacional" del razonamiento probabilístico moderno en la IA21.
Rollo Carpenter desarrolló Jabberwacky22, uno de los primeros chatbots diseñado para simular conversaciones similares a las humanas que resultan interesantes, entretenidas y divertidas. A diferencia de los sistemas basados en reglas, Jabberwacky aprende de las interacciones humanas para generar un diálogo más natural, con lo que allana el camino para posteriores modelos de IA conversacional. Este chatbot es uno de los primeros intentos de crear una IA que imite la conversación humana espontánea y cotidiana a través del aprendizaje continuo de sus interacciones con los usuarios.
Investigadores del Centro de Investigación T.J. Watson de IBM publican "A Statistical Approach to Language Translation" (Un enfoque estadístico de la traducción lingüística), lo que marca un cambio fundamental de los métodos basados en reglas a los probabilísticos en la traducción automática23. Este enfoque, ejemplificado en el proyecto Candide24 de IBM, utiliza 2,2 millones de pares de frases entre inglés y francés, procedentes principalmente de las actas del Parlamento canadiense. Esta nueva metodología hace hincapié en aprender a partir de los patrones estadísticos de los datos en lugar de intentar abarcar o "entender" los idiomas, lo que refleja la tendencia más amplia hacia el machine learning que se basa en el análisis de ejemplos conocidos. Este modelo probabilístico allanó el camino para muchos avances futuros en el procesamiento del lenguaje natural y la traducción automática.
Marvin Minsky y Seymour Papert publican una edición ampliada de su libro de 1969 Perceptrons (Perceptrones), una crítica fundamental de las primeras redes neuronales. En el nuevo prólogo, titulado "A View from 1988" (Una visión de 1988), reflexionan sobre el lento progreso en el campo de la IA, y señalan que muchos investigadores siguen repitiendo errores del pasado debido a la falta de familiaridad con los retos anteriores12. Destacan la necesidad de una comprensión teórica más profunda, de la que carecen las investigaciones anteriores sobre redes neuronales. Subrayan sus críticas originales a la vez que reconocen los enfoques emergentes que más tarde conducirían a los avances modernos del deep learning.
Yann LeCun y un equipo de investigadores de AT&T Bell Labs logran un gran avance al aplicar con éxito el algoritmo de retropropagación a una red neuronal multicapa para reconocer imágenes de códigos postales escritas a mano24. Se trata de una de las primeras aplicaciones prácticas del deep learning mediante el uso de redes neuronales convolucionales. A pesar del hardware limitado de la época, se tarda unos tres días en entrenar la red, una mejora significativa con respecto a los intentos anteriores. El éxito del sistema en el reconocimiento de dígitos escritos a mano, una tarea clave para la automatización de los servicios postales, demuestra el potencial de las redes neuronales para las tareas de reconocimiento de imágenes y sienta las bases para el crecimiento explosivo del deep learning en las décadas siguientes.
El autor de ciencia ficción y matemático Vernor Vinge publica el ensayo "The Coming Technological Singularity" (La próxima singularidad tecnológica), en el que predice que se creará una inteligencia sobrehumana en los próximos 30 años, transformando fundamentalmente la civilización humana25. Vinge argumenta que los avances tecnológicos, particularmente en IA, conducirán a una explosión de inteligencia (máquinas que superen la inteligencia humana) y al final de la era humana tal como la conocemos. Su ensayo es fundamental para popularizar el concepto de "singularidad tecnológica", un momento en el que la IA superaría el control humano, lo que suscita el debate en las comunidades de la IA, la ética y el futurismo.
Esta predicción sigue influyendo en los debates sobre las posibles repercusiones de la IA y la superinteligencia, en particular los riesgos existenciales y las consideraciones éticas de crear máquinas con una inteligencia muy superior a la capacidad humana.
Richard Wallace desarrolla el chatbot A.L.I.C.E.26 (acrónimo de Artificial Linguistic Internet Computer Entity, entidad informática lingüística artificial de Internet), a partir de las bases establecidas por el programa ELIZA de Joseph Weizenbaum. A diferencia de ELIZA, que se basaba en respuestas guionizadas para simular una conversación, A.L.I.C.E. aprovechó la recién emergente World Wide Web para recopilar y procesar enormes cantidades de datos en lenguaje natural, lo que le permitió entablar conversaciones más complejas y fluidas. A.L.I.C.E. utiliza una técnica de concordancia de patrones denominada AIML (Artificial Intelligence Markup Language) para analizar y generar respuestas, lo que la hace más adaptable y escalable que sus predecesoras. El trabajo de Wallace sienta las bases para nuevos avances en la IA conversacional, e influye en los modernos asistentes virtuales y chatbots.
Sepp Hochreiter y Jürgen Schmidhuber presentan la memoria larga a corto plazo (LSTM), un tipo de red neuronal recurrente (RNN) diseñada para superar las limitaciones de las RNN tradicionales, en particular su incapacidad para capturar de forma eficaz dependencias a largo plazo en los datos. Las redes LSTM se utilizan ampliamente en aplicaciones como el reconocimiento de escritura a mano, el reconocimiento de voz, el procesamiento del lenguaje natural y la predicción de series temporales.
Deep Blue de IBM hace historia al derrotar al actual campeón mundial de ajedrez Garry Kasparov en una partida de seis juegos27. Esta es la primera vez que un programa informático de ajedrez vence a un campeón mundial bajo los controles de tiempo estándar de un torneo de ajedrez. La victoria de Deep Blue demostró que los ordenadores pueden superar a los humanos en juegos de elevado carácter estratégico, considerados durante mucho tiempo un sello distintivo de la inteligencia humana. La capacidad de la máquina para calcular millones de movimientos por segundo, combinada con los avances en la teoría de juegos y la heurística, le permiten superar a Kasparov, y consolidar su lugar en la historia de la IA.
El evento también suscitó debates sobre la futura relación entre la cognición humana y la IA, lo que influyó en la investigación posterior de la IA en otros campos, como el procesamiento del lenguaje natural y los sistemas autónomos.
Dave Hampton y Caleb Chung crean Furby, la primera mascota robótica doméstica de gran éxito28. Furby es capaz de responder al tacto, el sonido y la luz y "aprender" el lenguaje con el tiempo, empezando con su idioma, el furbish, pero "hablando" gradualmente más inglés a medida que interactúa con los usuarios. Su capacidad para imitar el aprendizaje y relacionarse con los usuarios lo convierte en un precursor de robots sociales más sofisticados que combinan la robótica con el entretenimiento por primera vez en un producto de consumo.
Yann LeCun, Yoshua Bengio y sus colaboradores publican artículos influyentes sobre la aplicación de las redes neuronales al reconocimiento de escritura a mano29. Su trabajo se centra en el uso de redes neuronales convolucionales para optimizar el algoritmo de retropropagación y hacerlo más eficaz a la hora de entrenar redes profundas. Al refinar el proceso de retropropagación y demostrar el poder de las CNN para el reconocimiento de imágenes y patrones, la investigación de LeCun y Bengio sentó las bases para las técnicas modernas de deep learning utilizadas en una amplia gama de aplicaciones de IA en la actualidad.
Cynthia Breazeal del MIT desarrolla Kismet, un robot diseñado para interactuar con los seres humanos a través de señales emocionales y sociales30. Kismet está equipado con cámaras, micrófonos y rasgos faciales expresivos, lo que le permite percibir y responder a emociones humanas como la felicidad, la tristeza y la sorpresa. Este avance supone un paso más en la robótica social, que estudia cómo los robots pueden interactuar con los humanos de manera más natural.
Geoffrey Hinton publica "Learning Multiple Layers of Representation" (Aprendizaje de múltiples capas de representación), que resume los principales avances en deep learning y describe cómo se pueden entrenar las redes neuronales multicapa de forma más eficaz31. El trabajo de Hinton se centra en entrenar redes con conexiones graduadas para generar datos sensoriales en lugar de simplemente clasificarlos. Este enfoque representa un cambio de las redes neuronales a lo que ahora llamamos deep learning, que permite a las máquinas aprender representaciones jerárquicas complejas de datos.
Fei-Fei Li y su equipo de la Universidad de Princeton inician el proyecto ImageNet, que consiste en la creación de una de las bases de datos más grandes y completas de imágenes anotadas32. ImageNet está diseñado para respaldar el desarrollo de software de reconocimiento visual de objetos al proporcionar millones de imágenes etiquetadas en miles de categorías. La escala y la calidad del conjunto de datos permiten avances en la investigación de la visión artificial, particularmente en el entrenamiento de modelos de deep learning para reconocer y clasificar objetos en imágenes.
Rajat Raina, Anand Madhavan y Andrew Ng publican "Large-scale Deep Unsupervised Learning using Graphics Processors" (Deep learning no supervisado a gran escala mediante procesadores gráficos), donde argumentan que las unidades de procesamiento gráfico (GPU) pueden superar con creces a las CPU multinúcleo tradicionales para tareas de deep learning33. Demuestran que la potencia computacional superior de las GPU es capaz de revolucionar la aplicabilidad de los métodos de deep learning no supervisado, lo que permite a los investigadores entrenar modelos más extensos y complejos de manera más eficiente. Este trabajo es fundamental para acelerar la adopción de las GPU en el deep learning, lo que conduce a los avances en la década de 2010 que impulsan las aplicaciones modernas de IA en campos como la visión artificial y el procesamiento del lenguaje natural.
Los informáticos del Laboratorio de Información Inteligente de la Universidad Northwestern desarrollan Stats Monkey, un programa capaz de generar automáticamente noticias deportivas sin intervención humana34. Mediante el uso de las estadísticas de los partidos, Stats Monkey puede elaborar narraciones coherentes sobre los partidos de béisbol, con resúmenes, información sobre el rendimiento de los jugadores y análisis.
Watson de IBM, un ordenador avanzado de respuesta a preguntas en lenguaje natural, aparece en los titulares al competir en el concurso Jeopardy! contra dos de los campeones de mayor éxito del programa, Ken Jennings y Brad Rutter, y derrotarlos35. La capacidad de Watson para procesar e interpretar el lenguaje natural y su amplia base de conocimientos le permiten responder a preguntas complejas de forma rápida y precisa. Esta victoria pone de relieve los avances en la capacidad de la IA para comprender e interactuar con el lenguaje humano a un nivel sofisticado.
Apple lanza Siri, un asistente virtual integrado en el sistema operativo iOS. Siri cuenta con una interfaz de usuario de lenguaje natural que permite a los usuarios interactuar con sus dispositivos a través de comandos de voz. Siri puede realizar tareas como enviar mensajes, configurar recordatorios, proporcionar recomendaciones y responder preguntas utilizando el machine learning para adaptarse a las preferencias y patrones de voz de cada usuario. Este sistema de reconocimiento de voz personalizado y adaptativo ofrece a los usuarios una experiencia individualizada y marca un salto en la usabilidad y accesibilidad de los asistentes con IA para los consumidores cotidianos.
Jeff Dean y Andrew Ng realizan un experimento con una enorme red neuronal con 10 millones de imágenes sin etiquetar procedentes de vídeos de YouTube36. Durante el experimento, la red neuronal, sin etiquetado previo, aprende a reconocer los patrones en los datos y, "para nuestra diversión", una neurona se vuelve especialmente receptiva a las imágenes de gatos. Este descubrimiento es una demostración del aprendizaje no supervisado, ya que muestra cómo las redes neuronales profundas pueden aprender características de forma autónoma a partir de grandes cantidades de datos.
Investigadores de la Universidad de Toronto, dirigidos por Geoffrey Hinton, diseñan una red neuronal que logra un resultado rompedor en el ImageNet Large Scale Visual Recognition Challenge37. Su CNN, conocida como AlexNet, logra una tasa de error del 16 %, una mejora sustancial respecto al mejor resultado del año anterior del 25 %. Este logro marca un punto de inflexión para el deep learning en visión artificial, ya que demuestra que las CNN pueden superar a los métodos tradicionales de clasificación de imágenes cuando se entrenan en grandes conjuntos de datos.
AlphaGo de Google DeepMind derrota a Lee Sedol, uno de los mejores jugadores de Go del mundo. Go, un complejo juego de mesa con más movimientos posibles que átomos en el universo, se había considerado durante mucho tiempo un reto para la IA38. La victoria por 4-1 de AlphaGo sobre Sedol es un momento revolucionario en la IA, que demuestra el poder de las técnicas de deep learning para gestionar tareas estratégicas muy complejas que antes habían estado fuera del alcance de las capacidades de la IA.
Hanson robótica presentó a Sophia, un robot humanoide muy avanzado.39 Sophia es capaz de reconocer rostros, establecer contacto visual y mantener conversaciones mediante una combinación de reconocimiento de imágenes y procesamiento del lenguaje natural.
Investigadores del laboratorio de Investigación en Inteligencia Artificial de Facebook (FAIR) entrenan a dos chatbots para que negocien entre sí. Aunque los chatbots están programados para comunicarse en inglés, durante sus conversaciones empezaron a desviarse del lenguaje humano estructurado y a crear su propia taquigrafía para comunicarse con mayor eficacia.40 Esta evolución es inesperada, ya que los bots optimizan su comunicación sin necesidad de intervención humana. El experimento se detiene para mantener a los bots dentro de un lenguaje comprensible para los humanos, pero el suceso pone de relieve el potencial de los sistemas de IA para evolucionar de forma autónoma e impredecible.
OpenAI presenta GPT-3, un modelo de lenguaje con 175 000 millones de parámetros, lo que lo convierte en uno de los modelos de IA más grandes y sofisticados hasta la fecha. GPT-3 demuestra su capacidad para generar textos similares a los humanos, entablar conversaciones, escribir código, traducir idiomas y generar textos creativos a partir de instrucciones en lenguaje natural. Como uno de los primeros ejemplos de modelo de lenguaje de gran tamaño (LLM), el enorme tamaño y escala de GPT le permitió realizar una amplia variedad de tareas lingüísticas sin apenas entrenamiento específico. Este ejemplo demostró el potencial de la IA para comprender y producir un lenguaje muy coherente.
AlphaFold 2 de DeepMind supone un gran avance en el ámbito de la biología, ya que predice con precisión las estructuras tridimensionales de las proteínas a partir de sus secuencias de aminoácidos. Este logro resuelve un problema que ha dejado perplejos a los científicos durante décadas: entender cómo las proteínas se pliegan en sus formas tridimensionales únicas. La gran precisión de AlphaFold 2 en la predicción de estructuras proteicas tiene implicaciones para la investigación de enfermedades y el desarrollo de fármacos, ya que ofrece nuevas vías para comprender los mecanismos moleculares que subyacen a las enfermedades y diseñar nuevas terapias con mayor eficacia.
MUM (Multitask Unified Model), desarrollado por Google, es un potente modelo de IA diseñado para mejorar la experiencia de búsqueda mediante la comprensión y generación de lenguaje en 75 idiomas. MUM puede realizar varias tareas a la vez, analizando texto, imágenes y vídeos de forma simultánea, lo que le permite abordar consultas de búsqueda más complejas y matizadas41. A diferencia de los modelos tradicionales, MUM puede manejar entradas multimodales y proporcionar respuestas completas y contextualizadas a preguntas sofisticadas que implican múltiples fuentes de información.
Tesla lanza el Full Self-Driving (FSD) Beta, un sistema avanzado de asistencia al conductor destinado a lograr una conducción totalmente autónoma. El FSD Beta aprovecha el deep learning y las redes neuronales para navegar por escenarios de conducción complejos, como calles urbanas en tiempo real, autopistas e intersecciones. Permite a los vehículos Tesla dirigir, acelerar y frenar de forma autónoma en condiciones específicas sin necesidad de supervisión del conductor. El FSD Beta de Tesla supone un paso adelante hacia el objetivo de la empresa de conseguir vehículos totalmente autónomos, aunque los retos normativos y los problemas de seguridad siguen obstaculizando el camino hacia la implementación generalizada de la tecnología de conducción autónoma.
OpenAI lanza DALL-E, seguido de DALL-E 2 y DALL-E 3, modelos de IA generativa capaces de generar imágenes muy detalladas a partir de descripciones textuales. Estos modelos utilizan el deep learning avanzado y la arquitectura del transformador para crear imágenes complejas, realistas y artísticas a partir de las entradas del usuario. DALL-E 2 y 3 amplían el uso de la IA en la creación de contenidos visuales, lo que permite a los usuarios convertir ideas en imágenes sin necesidad de contar con habilidades tradicionales de diseño gráfico.
Febrero
Google lanza Gemini 1.5 en beta limitada, un modelo de lenguaje capaz de manejar longitudes de contexto de hasta 1 millón de tokens.42 El modelo es capaz procesar y comprender grandes cantidades de información en una sola instrucción, e incrementar así su capacidad para mantener el contexto en conversaciones y tareas complejas sobre textos extensos. Gemini 1.5 representa un salto notable en el procesamiento del lenguaje natural al ofrecer mayores capacidades de memoria y comprensión contextual sobre entradas largas.
OpenAI anuncia públicamente Sora, un modelo de texto a vídeo capaz de generar vídeos de hasta un minuto de duración a partir de descripciones textuales.43 Esta innovación amplía el uso de contenidos generados por IA más allá de las imágenes estáticas, lo que permite a los usuarios crear videoclips dinámicos y detallados a partir de instrucciones. Se espera que Sora abra nuevas posibilidades en la creación de contenidos de vídeo.
StabilityAI anuncia Stable Diffusion 3, su último modelo de conversión de texto en imagen. Al igual que Sora, Stable Diffusion 3 utiliza una arquitectura similar para generar contenidos detallados y creativos a partir de instrucciones de texto.44
Mayo
Google DeepMind presenta una nueva extensión de AlphaFold que ayuda a identificar el cáncer y las enfermedades genéticas, y que ofrece una potente herramienta para el diagnóstico genético y la medicina personalizada.45
IBM presenta la familia Granite de modelos de IA generativa como parte de su cartera de productos watsonx. Con un rango de 3000 a 34 000 millones de parámetros, los modelos Granite están diseñados para tareas como la generación de código, la previsión de series temporales y el procesamiento de documentos. Además de ser de código abierto y estar disponibles bajo licencia Apache 2.0, estos modelos son ligeros, rentables y personalizables, lo que los hace ideales para una amplia gama de aplicaciones empresariales.
Junio
Apple anuncia Apple Intelligence, una integración de ChatGPT en los nuevos iPhones y Siri.46 Esta integración permite a Siri realizar tareas más complejas, mantener conversaciones más naturales y comprender y ejecutar mejor órdenes matizadas.
Septiembre
NotebookLM presenta DeepDive, una nueva IA multimodal capaz de transformar los materiales de origen en atractivas presentaciones de audio estructuradas como un podcast47. La capacidad de DeepDive para analizar y resumir información de distintos formatos, como páginas web, texto, audio y vídeo, abre nuevas oportunidades para crear contenidos personalizados y automatizados en diversas plataformas. Esta capacidad lo convierte en una herramienta versátil para la producción de medios y la educación.
Las tendencias actuales de la IA apuntan a nuevas evoluciones de la IA generativa que opera sobre modelos fundacionales más pequeños y eficientes y al auge de la IA agentiva, en la que modelos de IA específicos trabajan juntos para completar más rápidamente las peticiones de los usuarios. En el futuro, los vehículos autónomos circularán por las carreteras, la IA multimodal creará audio, vídeo, texto e imágenes en una única plataforma y los asistentes de IA ayudarán a los usuarios a navegar por su vida personal y profesional.
Empiece ahora
Escuche ahora
Regístrese para descargarlo
Más información