La historia de IA

El pináculo de un rascacielos que atraviesa las nubes

La historia de la inteligencia artificial

Los humanos han soñado con crear máquinas pensantes desde la antigüedad. El folclore y los intentos históricos de crear dispositivos programables reflejan esta antigua ambición, y abunda la ficción sobre las posibilidades de las máquinas inteligentes en la que se imaginan sus beneficios y peligros. No es de extrañar que cuando OpenAI publicó la primera versión de GPT (Generative Pretrained Transformer), obtuviera rápidamente una gran atención, lo que supuso un paso importante hacia la materialización de este antiguo sueño.

GPT-3 fue un momento histórico en IA debido a su tamaño sin precedentes, con 175 mil millones de parámetros, lo que le permitió realizar una amplia gama de tareas de lenguaje natural sin grandes ajustes. Este modelo se entrenó con big data, lo que le permitió generar texto similar al humano y participar en conversaciones. También tenía la capacidad de realizar un aprendizaje few-shot, lo que mejoró significativamente su versatilidad y demostró su utilidad en aplicaciones comerciales de IA, como chatbots y asistentes virtuales.

Hoy en día, la IA se está integrando cada vez más en muchos aspectos de la vida diaria, desde las redes sociales hasta los procesos de trabajo, y a medida que la tecnología mejore, su influencia seguirá creciendo. Para entender las direcciones que puede tomar la tecnología, es útil entender cómo llegamos hasta aquí. Esta es una historia de los principales desarrollos en IA:

Antes del siglo XX

1726

La novela fantástica de Jonathan Swift “Los viajes de Gulliver” presenta la idea de El motor, un gran artilugio mecánico empleado para ayudar a los académicos a generar nuevas ideas, oraciones y libros.  

Los eruditos hacen voltear las manivelas de la máquina, que gira bloques de madera con inscripciones de palabras. Se dice que la máquina crea nuevas ideas y tratados filosóficos combinando palabras en diferentes disposiciones:

“Todo el mundo sabía cuán laborioso es el método usual para llegar a las artes y a las ciencias; mientras que con su artificio la persona más ignorante, a un precio razonable y con un poco de trabajo corporal, podría escribir libros de filosofía, poesía, política, leyes, matemáticas y teología, sin la menor ayuda del genio o del estudio”.

- Los viajes de Gulliver, de Jonathan Swift (1726)

La sátira de Swift anticipa el concepto de generación algorítmica de textos, que ahora es una realidad con la IA moderna. Los modelos de IA pueden producir textos coherentes combinando palabras e ideas basadas en algoritmos subyacentes, de forma similar a lo que pretende hacer el Motor ficticio de Swift.

1900–1950

1914

El ingeniero español Leonardo Torres y Quevedo demuestra la primera máquina de ajedrez, El Ajedrecista en la Exposición Universal de París. Empleaba electroimanes y estaba totalmente automatizado. El Ajedrecista jugó automáticamente un simple final de ajedrez de rey y torre contra rey. La máquina no requería intervención humana una vez configurada: realizaba de forma autónoma movimientos legales de ajedrez y si el oponente humano hacía un movimiento ilegal, la máquina señalaba el error. Si la máquina se colocaba en una posición ganadora, podía dar jaque mate al oponente humano de manera confiable.

1921

Una obra llamada "Rossum's Universal Robots" (R.U.R) se estrena en Londres. La obra de Karel Čapek es la primera vez que se usa la palabra "robot" en inglés. En checo, la palabra "robota" se asocia con el trabajo obligatorio o forzado realizado por campesinos en un sistema feudal. El término "robot" ganó rápidamente reconocimiento internacional después del éxito de la obra y se convirtió en el término estándar para seres mecánicos o artificiales creados para realizar tareas. Aunque los robots de Čapek son orgánicos, la palabra llegó a asociarse con máquinas mecánicas humanoides diseñadas para realizar trabajos monótonos y no calificados.

1939

John Vincent Atanasoff, profesor de física y matemáticas en el Iowa State College, y su estudiante de posgrado Clifford Berry, crean el Atanasoff-Berry Computer (ABC) con una beca de 650 dólares en la Universidad Estatal de Iowa. La computadora ABC es considerada una de las primeras computadoras electrónicas digitales y un hito en el campo de la informática estadounidense.

Si bien el ABC nunca está completamente operativo ni se usa ampliamente, introdujo varios conceptos clave que se convertirían en fundamentales en el desarrollo de la computación moderna.

A diferencia de los dispositivos informáticos anteriores que se basaban en sistemas decimales, la ABC empleaba el binario (1 y 0) para representar los datos, lo que se convirtió en el estándar para las computadoras a partir de entonces. La ABC es también una de las primeras computadoras en usar circuitos electrónicos para el cálculo en lugar de sistemas mecánicos o electromecánicos, lo que permite cálculos más rápidos y confiables. La ABC separaba el almacenamiento de datos (memoria) de la unidad de procesamiento (operaciones lógicas), un principio que todavía se sigue en la arquitectura informática moderna. Utilizaba condensadores para almacenar datos y podía manejar hasta 30 ecuaciones simultáneas.

La ABC usaba alrededor de 300 tubos de vacío para sus operaciones lógicas, lo que la hacía mucho más rápida que las calculadoras mecánicas anteriores. Los tubos de vacío, aunque voluminosos y propensos a fallos, son un desarrollo clave en la informática electrónica. La ABC pesaba más de 700 libras y podía resolver hasta 29 ecuaciones lineales simultáneas.

1943

Warren S. McCulloch y Walter Pitts publican "A Logical Calculus of the Ideas Immanent in Nervous Activity" en el Bulletin of Mathematical Biophysics.1 Es una de las obras seminales en la historia de la neurociencia y de la IA. El artículo sienta las bases de la idea de que el cerebro puede entenderse como un sistema computacional e introduce el concepto de redes neuronales artificiales, ahora una tecnología clave en la IA moderna. Esta idea inspira sistemas informáticos que simulan funciones y procesos similares a los del cerebro, particularmente a través de redes neuronales y aprendizaje profundo.

1950

El artículo de referencia del matemático británico Alan Turing "Computing Machinery and Intelligence" se publica en Mind.2 Este artículo es un texto fundamental en la IA y aborda la pregunta: ¿Las máquinas pueden pensar?". El enfoque de Turing sentó las bases para futuros debates sobre la naturaleza de las máquinas pensantes y cómo se podría medir su inteligencia a través del "juego de imitación", ahora conocido como la prueba de Turing. Turing introdujo un experimento mental para evitar responder directamente la pregunta "¿Las máquinas pueden pensar?". En cambio, reformuló el problema en una forma más específica y operativa: ¿una máquina puede exhibir un comportamiento inteligente indistinguible del de un humano?

La prueba de Turing se convirtió en un concepto central de la IA, ya que sirve como una forma de medir la inteligencia de las máquinas al evaluar la capacidad de una máquina para imitar de forma convincente la conversación y el comportamiento humanos.

1950–1980

1951

Marvin Minsky y Dean Edmunds construyen la primera red neuronal artificial. La Stochastic Neural Analog Reinforcement Calculator (SNARC) es un primer intento de modelar los procesos de aprendizaje en el cerebro humano, específicamente a través del aprendizaje por refuerzo.

SNARC está diseñado para simular el comportamiento de una rata que transita por un laberinto. La idea es hacer que la máquina imite la forma en que los animales aprenden a través de recompensas y castigos, ajustando su comportamiento a lo largo del tiempo según la retroalimentación. Es una computadora analógica que emplea una red de 3000 tubos de vacío junto con pesos sinápticos para simular 40 unidades similares a neuronas.

1952

Allen Newell, matemático y científico informático, y Herbert A. Simon, politólogo, desarrollan programas influyentes, como Logic Theorist y General Problem Solver, que están entre los primeros en imitar las capacidades humanas de resolución de problemas mediante métodos computacionales.

1955

El término "inteligencia artificial" se acuñó por primera vez en una propuesta de taller titulada "A Proposal for the Dartmouth Summer Research Project on Artificial Intelligence",3 enviada por John McCarthy de Dartmouth College, Marvin Minsky de la Universidad de Harvard, Nathaniel Rochester de IBM y Claude Shannon de Bell Telephone Laboratories.

El taller, que tuvo lugar un año después, en julio y agosto de 1956, generalmente se considera la fecha de nacimiento oficial del creciente campo de la IA.

1957

Frank Rosenblatt, psicólogo e informático, desarrolla el perceptrón, una de las primeras redes neuronales artificiales que permite el reconocimiento de patrones basado en una red de aprendizaje informático de dos capas. El perceptrón introduce el concepto de un clasificador binario que puede aprender de los datos ajustando los pesos de sus entradas a través de algoritmos de aprendizaje. Aunque se limitó a resolver problemas linealmente separables, sentó las bases para futuros desarrollos de redes neuronales y machine learning.

1958

John McCarthy desarrolla el lenguaje de programación Lisp4, que significa LISt Processing. Lisp se desarrolló a partir del trabajo de McCarthy sobre la formalización de algoritmos y lógica matemática, particularmente influenciado por su deseo de crear un lenguaje de programación que pueda manejar información simbólica. Lisp pronto se convirtió en el lenguaje de programación más popular en la investigación de IA.

1959

Arthur Samuel es pionero en el concepto de machine learning mediante el desarrollo de un programa informático que mejora su rendimiento en fichas con el tiempo. Samuel demuestra que una computadora puede programarse para seguir reglas predefinidas y "aprender" de la experiencia, eventualmente jugando mejor que el programador. Su trabajo marca un paso importante hacia la enseñanza de máquinas para mejorar a través de la experiencia, acuñando el término "machine learning" en el proceso.

 

Oliver Selfridge publica su artículo "Pandemonium: A paradigma for learning".5 Su modelo de pandemonio proponía un sistema en el que varios "demonios" (unidades de procesamiento) trabajan juntos para reconocer patrones. Los demonios compiten para identificar características en los datos que no fueron preprogramados, simulando el aprendizaje no supervisado. El modelo de Selfridge es una contribución temprana al reconocimiento de patrones, que influye en los desarrollos futuros de la visión artificial y la IA.

 

John McCarthy introduce el concepto de Advice Taker en su artículo "Programs with Common Sense".6 Este programa tiene como objetivo resolver problemas mediante la manipulación de oraciones en lógica formal, sentando las bases para el razonamiento en IA. McCarthy imagina un sistema que pueda comprender instrucciones, razonar con conocimiento de sentido común y aprender de la experiencia, con el objetivo a largo plazo de desarrollar una IA que pueda adaptarse y aprender con la misma eficacia que los humanos. Este concepto ayuda a dar forma a las primeras investigaciones en representación del conocimiento y razonamiento automatizado.

1965

El filósofo Hubert Dreyfus publica "Alchemy and Artificial Intelligence",7 argumentando que la mente humana funciona de manera fundamentalmente diferente a las computadoras. Predice límites para el progreso de la IA debido a los desafíos de replicar la intuición y la comprensión humanas. Su crítica influye en los debates sobre los límites filosóficos y prácticos de la IA.

 

I.J. Good escribe "Speculations Concerning the First Ultraintelligent Machine",8 afirmando de manera muy acertada que una vez que se crea una máquina ultrainteligente, puede diseñar sistemas aún más inteligentes, lo que la convierte en el último invento de la humanidad, siempre que siga siendo controlable. Sus ideas presagian los debates modernos sobre la superinteligencia de la IA y sus riesgos.

 

Joseph Weizenbaum desarrolla ELIZA,9 un programa que imita la conversación humana respondiendo a la entrada escrita en lenguaje natural. Aunque Weizenbaum tiene la intención de mostrar la superficialidad de la comunicación entre humanos y computadoras, le sorprende la cantidad de usuarios que atribuyen emociones similares a las humanas al programa, lo que plantea preguntas éticas sobre la IA y la interacción humana.

 

Edward Feigenbaum, Bruce Buchanan, Joshua Lederberg y Carl Djerassi desarrollaron DENDRAL en la Universidad de Stanford.10 Es el primer sistema experto que automatiza el proceso de toma de decisiones de los químicos orgánicos mediante la simulación de la formación de hipótesis. El éxito de DENDRAL marca un avance en la IA, demostrando cómo los sistemas pueden realizar tareas especializadas tan bien como los expertos humanos o mejor.

1966

Desarrollado en SRI a finales de la década de 1960, Shakey es el primer robot móvil capaz de razonar sobre sus propias acciones, combinando percepción, planeación y resolución de problemas.11 En un artículo de la revista Life de 1970, Marvin Minsky predice que dentro de tres a ocho años, la IA alcanzaría la inteligencia general de un ser humano promedio. Los logros de Shakey marcan un hito en la robótica y la IA, aunque el ambicioso cronograma de Minsky resulta demasiado optimista.

1969

Arthur Bryson y Yu-Chi Ho presentan la retropropagación, un método para optimizar sistemas dinámicos de múltiples etapas. Aunque originalmente se desarrolló para sistemas de control, este algoritmo se vuelve crucial para entrenar redes neuronales multicapa. La retropropagación solo ganó protagonismo en las décadas de 2000 y 2010 con los avances en la potencia de cálculo, lo que permitió el surgimiento del aprendizaje profundo.

 

Marvin Minsky y Seymour Papert publican Perceptrons: An Introduction to Computational Geometry,12 que analizó críticamente las limitaciones de las redes neuronales de una sola capa. A menudo, se culpa a su trabajo de reducir el interés en las redes neuronales. En la edición de 1988, argumentan que el progreso ya se estancó debido a la falta de comprensión teórica a pesar de los numerosos experimentos con perceptrones a mediados de la década de 1960.

1970

Terry Winograd crea SHRDLU, un innovador programa de comprensión del lenguaje natural.13 SHRDLU puede interactuar con los usuarios en un lenguaje sencillo para manipular objetos en un mundo de bloques virtuales, lo que demuestra el potencial de las computadoras para comprender y responder instrucciones complejas. Es un logro temprano en el procesamiento de lenguaje natural, aunque su éxito se limita a entornos específicos y altamente estructurados. Las capacidades de SHRDLU destacan tanto la promesa como los desafíos de lograr una comprensión más amplia del lenguaje de IA.

1972

Desarrollado en la Universidad de Stanford, MYCIN es uno de los primeros sistemas expertos creados para ayudar a los médicos a diagnosticar infecciones bacterianas y recomendar tratamientos con antibióticos.14 MYCIN emplea un enfoque basado en reglas para simular el proceso de toma de decisiones de expertos humanos y crea una plataforma para el desarrollo de sistemas de IA médica. Sin embargo, debido a preocupaciones éticas y legales, nunca se implementa en la práctica clínica.

1973

James Lighthill presenta un informe crítico al British Science Research Council sobre el progreso de la investigación en IA, concluyendo que la IA no cumplió sus primeras promesas.15 Argumenta que el campo no produjo avances significativos, lo que llevó a una reducción sustancial del financiamiento del gobierno para la IA en el Reino Unido. Este informe contribuyó al inicio del primer invierno de la IA16, un período de disminución del interés y la inversión en la investigación de IA.

1980–2000

1980

WABOT-217, un robot humanoide desarrollado en la Universidad de Waseda en Japón, se construyó a partir de 1980 y se completó alrededor de 1984. Siguió al WABOT-1, que fue construido en 1973. Mientras que WABOT-1 se centró en la movilidad y la comunicación básicas, WABOT-2 es más especializado, diseñado específicamente como un robot músico. Puede leer partituras musicales con los "ojos" de su cámara, conversar con humanos, tocar música en un órgano electrónico e incluso acompañar a un cantante humano. Este proyecto representa un paso significativo hacia el desarrollo de robots humanoides e IA capaces de realizar tareas complejas similares a las humanas, como la expresión artística.

1982

Japón lanzó el Fifth Generation Computer Systems Project (FGCS) con el objetivo de desarrollar computadoras que pudieran manejar el razonamiento lógico y la resolución de problemas, impulsando la investigación de la IA. Este ambicioso proyecto tenía como objetivo construir máquinas capaces de realizar tareas, como el procesamiento de lenguaje natural y sistemas de expertos. Aunque se detuvo en 1992, el proyecto FGCS y sus hallazgos contribuyeron en gran medida al desarrollo del campo de la programación lógica concurrente.

1984

En la reunión anual de la Association for the Advancement of Artificial Intelligence (AAAI), Roger Schank y Marvin Minsky advierten sobre un inminente "invierno de la IA", pues predicen que las expectativas excesivas en torno a la IA pronto llevarán a un colapso en la inversión y la investigación, similar a la reducción de fondos a mediados de la década de 1970. Su predicción se hizo realidad en tres años, ya que el interés por la IA disminuyó debido a las promesas incumplidas, lo que provocó una disminución del financiamiento y un progreso más lento. Este período se conoció como el segundo invierno de la IA.

La advertencia de Schank y Minsky destaca la naturaleza cíclica del revuelo de la IA, donde los estallidos de optimismo son seguidos por la desilusión cuando la tecnología no cumplió con las expectativas de los inversionistas y del público.

1986

David Rumelhart, Geoffrey Hinton y Ronald Williams publican el artículo seminal "Learning representations by back-propagating errors", en el que describieron el algoritmo de retropropagación.18 Este método permite que las redes neuronales ajusten sus pesos internos "propagando hacia atrás" el error a través de la red, mejorando la capacidad de las redes multicapa para aprender patrones complejos. El algoritmo de retropropagación se convierte en la base del aprendizaje profundo moderno, lo que despierta un interés renovado en las redes neuronales y supera algunas limitaciones destacadas en investigaciones anteriores sobre IA. Este descubrimiento se basa en el trabajo de 1969 de Arthur Bryson y Yu-Chi Ho aplicando el algoritmo de retropropagación específicamente a las redes neuronales, superando las limitaciones anteriores en el entrenamiento de redes multicapa.

Este avance hace que las redes neuronales sean viables para aplicaciones prácticas y abrió la puerta a la revolución del aprendizaje profundo de las décadas de 2000 y 2010.

1987

Durante su discurso de apertura en Educom, el director ejecutivo (CEO) de Apple, John Sculley, presenta el video Knowledge Navigator, que imagina un futuro en el que los agentes inteligentes digitales ayudan a los usuarios a acceder a grandes cantidades de información a través de sistemas en red.19 Este concepto visionario representa a un profesor que interactúa con un asistente experto activado por voz que puede recuperar datos, responder preguntas y mostrar información de lo que ahora reconocemos como Internet. El video previó muchos elementos de las tecnologías modernas, como los asistentes de IA, las bases de datos de conocimientos en red y nuestro mundo digital interconectado.

1988

Judea Pearl publica Probabilistic Reasoning in Intelligent Systems, que revoluciona la forma en que la IA procesa la información en condiciones de incertidumbre.20 Esta obra introduce las redes bayesianas, un formalismo para representar modelos probabilísticos complejos y los algoritmos para realizar inferencias en ellos. Los métodos de Pearl permitieron a los sistemas de IA tomar decisiones razonadas en entornos inciertos, influyendo en campos mucho más allá de la IA, como la ingeniería y las ciencias naturales. Sus contribuciones se reconocen con el Premio Turing 2011, que citaba su influencia en la creación de la "base representacional y computacional" para el razonamiento probabilístico moderno en la IA.21

 

Rollo Carpenter desarrolló Jabberwacky22, uno de los primeros chatbots diseñados para simular conversaciones similares a las humanas que son interesantes, entretenidas y divertidas. A diferencia de los sistemas basados en reglas, Jabberwacky aprende de las interacciones humanas para generar un diálogo más natural, sentando las bases para modelos de IA posteriores. Este chatbot es uno de los primeros intentos de crear IA que imite la conversación humana espontánea y cotidiana a través del aprendizaje continuo de sus interacciones con los usuarios.

 

Investigadores del centro de investigación Watson de IBM publican "A Statistical Approach to Language Translation", que marca un cambio fundamental de métodos basados en reglas a métodos probabilísticos en la traducción automática.23 Este enfoque, ejemplificado por el proyecto Candide de IBM24, emplea 2.2 millones de pares de oraciones en inglés y francés, principalmente procedentes de las actas del Parlamento canadiense. Esta nueva metodología enfatiza el aprendizaje de patrones estadísticos en los datos en lugar de intentar comprender o "entender" los idiomas, lo que refleja la tendencia más amplia hacia el machine learning que se basa en el análisis de ejemplos conocidos. Este modelo probabilístico sentó las bases para muchos avances futuros en el procesamiento de lenguaje natural y la traducción automática.

 

Marvin Minsky y Seymour Papert lanzan una edición ampliada de su libro de 1969 Perceptrons, una crítica seminal de las primeras redes neuronales. En el nuevo prólogo, titulado "A View from 1988", reflexionaron sobre el lento avance en el campo de la IA, señalando que muchos investigadores continuaron repitiendo errores del pasado debido a la falta de familiaridad con desafíos anteriores.12 Destacan la necesidad de una comprensión teórica más profunda, que falta en investigaciones anteriores sobre redes neuronales. Recalcan sus críticas originales al tiempo que reconocen los enfoques emergentes que luego conducirían a avances modernos en el aprendizaje profundo.

1989

Yann LeCun y un equipo de investigadores de AT&T Bell Labs logran un gran avance al aplicar con éxito el algoritmo de retropropagación a una red neuronal multicapa para reconocer imágenes de código postal escritas a mano.24 Esta es una de las primeras aplicaciones prácticas del aprendizaje profundo que utiliza redes neuronales convolucionales. A pesar del hardware limitado de la época, se necesitan alrededor de tres días para entrenar a la red, una mejora significativa con respecto a intentos anteriores. El éxito del sistema en el reconocimiento de dígitos manuscritos, una tarea clave para la automatización de los servicios postales, demuestra el potencial de las redes neuronales para tareas de reconocimiento de imágenes y sentó las bases para el crecimiento explosivo del aprendizaje profundo en las décadas siguientes.

1993

El autor de ciencia ficción y matemático Vernor Vinge publica el ensayo "The Coming Technological Singularity", en el que predice que se creará una inteligencia superhumana en los próximos 30 años, transformando fundamentalmente la civilización humana.25 Vinge argumenta que los avances tecnológicos, particularmente en IA, conducirán a una explosión de inteligencia, máquinas que superarán la inteligencia humana, y al fin de la era humana tal como la conocemos. Su ensayo es fundamental para popularizar el concepto de "singularidad tecnológica", un momento en el que la IA superaría el control humano, lo que provocó un debate en las comunidades de IA, ética y futurismo.

Esta predicción continúa influyendo en los debates sobre los impactos potenciales de la IA y la superinteligencia, particularmente los riesgos existenciales y las consideraciones éticas de crear máquinas con inteligencia mucho más allá de las capacidades humanas.

1995

Richard Wallace desarrolla el chatbot A.L.I.C.E.26 (Artificial Linguistic Internet Computer Entity), con base en lo establecido por el programa ELIZA de Joseph Weizenbaum. A diferencia de ELIZA, que se basaba en respuestas con guiones para simular conversaciones, A.L.I.C.E. aprovechó la nueva World Wide Web para recopilar y procesar grandes cantidades de datos en lenguaje natural, lo que le permitió entablar conversaciones más complejas y fluidas. A.L.I.C.E. emplea una técnica de coincidencia de patrones llamada AIML (Artificial Intelligence Markup Language) para analizar y generar respuestas, lo que la hace más adaptable y escalable que sus predecesoras. El trabajo de Wallace sienta las bases para nuevos avances en la IA conversacional, influyendo en los asistentes virtuales y chatbots modernos.

1997

Sepp Hochreiter y Jürgen Schmidhuber presentan Long Short-Term Memory (LSTM), un tipo de red neuronal recurrente (RNN) diseñada para superar las limitaciones de las RNN tradicionales, en particular su incapacidad para capturar dependencias a largo plazo en los datos de manera efectiva. Las redes LSTM se usan ampliamente en aplicaciones, como el reconocimiento de escritura a mano, el reconocimiento de voz, el procesamiento de lenguaje natural y el forecasting de series temporales.

 

Deep Blue de IBM hace historia al derrotar al actual campeón mundial de ajedrez Garry Kasparov en un encuentro de seis partidos.27 Esta es la primera vez que un programa informático de ajedrez vence a un campeón del mundo bajo controles de tiempo estándar de torneos de ajedrez. La victoria de Deep Blue demostró que las computadoras pueden superar a los humanos en juegos altamente estratégicos, considerados durante mucho tiempo un sello distintivo de la inteligencia humana. La capacidad de la máquina para calcular millones de movimientos por segundo, combinada con los avances en la teoría de juegos y la heurística, le permite superar a Kasparov, consolidando el lugar de Deep Blue en la historia de la IA.

El evento también generó debates sobre la futura relación entre la cognición humana y la IA, lo que influyó en la investigación posterior de la IA en otros campos, como el procesamiento de lenguaje natural y los sistemas autónomos.

1998

Dave Hampton y Caleb Chung crean Furby, la primera mascota robótica doméstica de gran éxito.28 Furby puede responder al tacto, el sonido y la luz y "aprender" el idioma con el tiempo, comenzando con su idioma, Furbish, pero gradualmente "hablando" más inglés a medida que interactúa con los usuarios. Su capacidad para imitar el aprendizaje e interactuar con los usuarios lo convierte en un precursor de robots sociales más sofisticados, combinando la robótica con el entretenimiento por primera vez en un producto de consumo.

 

Yann LeCun, Yoshua Bengio y sus colaboradores publican artículos influyentes sobre la aplicación de redes neuronales al reconocimiento de escritura a mano.29 Su trabajo se centra en el uso de redes neuronales convolucionales para optimizar el algoritmo de retropropagación, haciéndolo más eficaz para entrenar redes profundas. Al refinar el proceso de retropropagación y demostrar el poder de las CNN para el reconocimiento de imágenes y patrones, la investigación de LeCun y Bengio sentó las bases para las técnicas modernas de aprendizaje profundo utilizadas en una amplia gama de aplicaciones de IA en la actualidad.

2000-2020

2000

Cynthia Breazeal del MIT desarrolla Kismet, un robot diseñado para interactuar con seres humanos a través de señales emocionales y sociales.30 Kismet está equipado con cámaras, micrófonos y rasgos faciales expresivos, lo que le permite percibir y responder a emociones humanas, como la felicidad, la tristeza y la sorpresa. Este desarrollo marca un avance en la robótica social, explorando cómo los robots pueden interactuar con los humanos de forma más natural.

2006

Geoffrey Hinton publica "Learning Multiple Layers of Representation", que resume los avances clave en el aprendizaje profundo y describe cómo las redes neuronales multicapa se pueden entrenar de manera más efectiva.31 El trabajo de Hinton se centra en entrenar redes con conexiones graduadas para generar datos sensoriales en lugar de simplemente clasificarlos. Este enfoque representa un cambio de las redes neuronales tradicionales a lo que ahora llamamos aprendizaje profundo, lo que permite a las máquinas aprender representaciones jerárquicas complejas de datos.

2007

Fei-Fei Li y su equipo de la Universidad de Princeton inician el proyecto ImageNet, creando una de las bases de datos más grandes y completas de imágenes anotadas.32 ImageNet está diseñado para apoyar el desarrollo de software de reconocimiento visual de objetos al proporcionar millones de imágenes etiquetadas en miles de categorías. La escala y la calidad del conjunto de datos permiten avances en la investigación de visión artificial, particularmente en el entrenamiento de modelos de aprendizaje profundo para reconocer y clasificar objetos en imágenes.

2009

Rajat Raina, Anand Madhavan y Andrew Ng publican "Large-scale Deep Unsupervised Learning using Graphics Processors", argumentando que las unidades de procesamiento de gráficos (GPU) pueden superar con creces a las CPU multinúcleo tradicionales para tareas de aprendizaje profundo.33 Demuestran que la potencia computacional superior de las GPU puede revolucionar la aplicabilidad de los métodos de aprendizaje profundo no supervisado, lo que permite a los investigadores entrenar modelos más extensos y complejos de manera más eficiente. Este trabajo es fundamental para acelerar la adopción de GPU en el aprendizaje profundo, lo que llevó a los avances en la década de 2010 que impulsan las aplicaciones modernas de IA en campos, como la visión artificial y el procesamiento de lenguaje natural.

 

Los informáticos del Intelligent Information Laboratory de la Universidad de Northwestern desarrollan Stats Monkey, un programa capaz de generar automáticamente noticias deportivas sin intervención humana.34 Mediante las estadísticas de los partidos, Stats Monkey puede elaborar narrativas coherentes sobre los partidos de béisbol, con resúmenes, rendimientos de los jugadores y análisis.

2011

Watson de IBM, una computadora avanzada que responde preguntas en lenguaje natural, aparece en los titulares, ya que compite en el programa de juegos Jeopardy! contra dos de los campeones más exitosos del programa, Ken Jennings y Brad Rutter, y los derrota.35 La capacidad de Watson para procesar e interpretar el lenguaje natural y su amplia base de conocimientos le permiten responder preguntas complejas de forma rápida y precisa. Esta victoria destaca los avances en la capacidad de la IA para comprender e interactuar con el lenguaje humano a un nivel sofisticado.

 

Apple lanza Siri, un asistente virtual integrado en el sistema operativo iOS. Siri cuenta con una interfaz de usuario de lenguaje natural que permite a los usuarios interactuar con sus dispositivos a través de comandos de voz. Siri puede realizar tareas, como enviar mensajes, configurar recordatorios, proporcionar recomendaciones y responder preguntas mediante machine learning para adaptarse a las preferencias y patrones de voz de cada usuario. Este sistema de reconocimiento de voz personalizado y adaptativo brinda a los usuarios una experiencia individualizada y marca un salto en la usabilidad y accesibilidad de los asistentes impulsados por IA para los consumidores cotidianos.

2012

Jeff Dean y Andrew Ng realizan un experimento mediante una red neuronal masiva con 10 millones de imágenes sin etiquetar obtenidas de videos de YouTube.36 Durante el experimento, la red neuronal, sin etiquetado previo, aprende a reconocer patrones en los datos y "para nuestra diversión", una neurona se vuelve particularmente sensible a las imágenes de gatos. Este descubrimiento es una demostración del aprendizaje no supervisado, que muestra cómo las redes neuronales profundas pueden aprender características de forma autónoma a partir de grandes cantidades de datos.

 

Investigadores de la Universidad de Toronto, dirigidos por Geoffrey Hinton, diseñan una red neuronal convolucional que logra un resultado innovador en el ImageNet Large Scale Visual Recognition Challenge.37 Su CNN, conocida como AlexNet, logra una tasa de error del 16 %, una mejora sustancial con respecto al mejor resultado del año anterior del 25 %. Este logro marca un punto de inflexión para el aprendizaje profundo en visión artificial, demostrando que las CNN pueden superar a los métodos tradicionales de clasificación de imágenes cuando se entrenan con grandes conjuntos de datos.

2016

AlphaGo de Google DeepMind derrotó a Lee Sedol, uno de los mejores jugadores de Go del mundo. Go, un complejo juego de mesa con más movimientos posibles que átomos en el universo, se consideró durante mucho tiempo un desafío para la IA.38 La victoria de AlphaGo por 4 a 1 sobre Sedol es un momento innovador en la IA, que muestra el poder de las técnicas de aprendizaje profundo para manejar tareas estratégicas altamente complejas que antes estaban más allá de las capacidades de la IA.

Hanson Robotics presentó a Sophia, un robot humanoide muy avanzado.39 Sophia puede reconocer rostros, hacer contacto visual y mantener conversaciones mediante una combinación de reconocimiento de imágenes y procesamiento de lenguaje natural.

2017

Los investigadores del Facebook Artificial Intelligence Research (FAIR) entrenan a dos chatbots para negociar entre sí. Si bien los chatbots están programados para comunicarse en inglés, durante sus conversaciones comenzaron a desviarse del lenguaje humano estructurado y a crear su propio lenguaje abreviado para comunicarse de manera más eficiente.40 Este desarrollo es inesperado, ya que los bots optimizan su comunicación sin intervención humana. El experimento se detiene para mantener a los bots dentro de un lenguaje comprensible para los humanos, pero el hecho destaca el potencial de los sistemas de IA para evolucionar de forma autónoma e impredecible.

2020

OpenAI presenta GPT-3, un modelo de lenguaje con 175 mil millones de parámetros, lo que lo convierte en uno de los modelos de IA más grandes y sofisticados hasta la fecha. GPT-3 demuestra la capacidad de generar texto similar al humano, participar en conversaciones, escribir código, traducir idiomas y generar escritura creativa basada en instrucciones de lenguaje natural. Como uno de los primeros ejemplos de un modelo de lenguaje extenso (LLM), el tamaño y la escala masivos de GPT le permitieron realizar una amplia variedad de tareas lingüísticas con poco o nulo entrenamiento específico de la tarea. Este ejemplo demostró el potencial de la IA para comprender y producir un lenguaje altamente coherente.

 

AlphaFold 2 de DeepMind hace un gran avance en biología al predecir con precisión las estructuras 3D de las proteínas a partir de sus secuencias de aminoácidos. Este logro resuelve un problema que dejó perplejos a los científicos durante décadas: comprender cómo las proteínas se pliegan en sus formas tridimensionales únicas. La alta precisión de AlphaFold 2 en la predicción de la estructura de las proteínas tiene participaciones para la investigación de enfermedades y el desarrollo de fármacos, ya que ofrece nuevas formas de comprender los mecanismos moleculares detrás de las enfermedades y diseñar nuevas terapias de manera más eficiente.

2021 - Presente

2021

MUM (Multitask Unified Model), desarrollado por Google, es un potente modelo de IA diseñado para mejorar la experiencia de búsqueda al comprender y generar lenguaje en75 idiomas. MUM puede realizar múltiples tareas, analizando texto, imágenes y videos simultáneamente, lo que le permite abordar consultas de búsqueda más complejas y matizadas.41 A diferencia de los modelos tradicionales, MUM puede manejar entradas multimodales y proporcionar respuestas completas y enriquecidas en contexto a preguntas sofisticadas que involucran múltiples fuentes de información.

 

Tesla lanza Full Self-Driving (FSD) Beta, un sistema avanzado de asistencia al conductor destinado a lograr una conducción totalmente autónoma. FSD Beta aprovecha el aprendizaje profundo y las redes neuronales para navegar escenarios de conducción complejos, como calles de ciudades en tiempo real, autopistas e intersecciones. Permite que los vehículos Tesla manejen, aceleren y frenen de forma autónoma en condiciones específicas, al tiempo que requieren la supervisión del conductor. FSD Beta de Tesla marca un paso hacia el objetivo de la empresa de vehículos totalmente autónomos, aunque los desafíos normativos y las preocupaciones de seguridad siguen en el camino hacia el logro del despliegue generalizado de la tecnología de conducción autónoma.

2021-2023

OpenAI lanza DALL-E, seguido de DALL-E 2 y DALL-E 3, modelos de IA generativa capaces de generar imágenes muy detalladas a partir de descripciones textuales. Estos modelos emplean aprendizaje profundo avanzado y arquitectura transformadora para crear imágenes complejas, realistas y artísticas basadas en la entrada del usuario. DALL-E 2 y 3 amplían el uso de la IA en la creación de contenido visual, lo que permite a los usuarios convertir ideas en imágenes sin las habilidades tradicionales de diseño gráfico.

2024

Febrero

Google lanza Gemini 1.5 en versión beta limitada, un modelo lingüístico avanzado capaz de manejar longitudes de contexto de hasta 1 millón de tokens.42 El modelo puede procesar y comprender grandes cantidades de información en una sola instrucción, mejorando su capacidad para mantener el contexto en conversaciones y tareas complejas sobre textos extensos. Gemini 1.5 representa un salto notable en el procesamiento de lenguaje natural, ya que ofrece mayores capacidades de memoria y comprensión contextual sobre entradas largas.

 

OpenAI anuncia públicamente Sora, un modelo de texto a video capaz de generar videos de hasta un minuto a partir de descripciones textuales.43 Esta innovación amplía el uso de contenido generado por IA más allá de las imágenes estáticas, lo que permite a los usuarios crear videoclips dinámicos y detallados basados en instrucciones. Se espera que Sora abra nuevas posibilidades en la creación de contenido de video.

 

StabilityAI anuncia Stable Diffusion 3, su último modelo de texto a imagen. Al igual que Sora, Stable Diffusion 3 emplea una arquitectura similar para generar contenido detallado y creativo a partir de instrucciones de texto.44

 

Mayo

Google DeepMind presenta una nueva extensión de AlphaFold que ayuda a identificar el cáncer y las enfermedades genéticas, ofreciendo una poderosa herramienta para el diagnóstico genético y la medicina personalizada.45

 

IBM presenta la familia Granite™ de modelos generativos de IA como parte de la cartera de productos de IA de watsonx. Con un rango de 3 a 34 mil millones de parámetros, los modelos de Granite están diseñados para tareas, como la generación de código, el forecasting de series temporales y el procesamiento de documentos. Estos modelos, de código abierto y disponibles bajo la licencia Apache 2.0, son ligeros, rentables y personalizables, lo que los hace ideales para una amplia gama de aplicaciones empresariales.

 

Junio

Apple anuncia Apple Intelligence, una integración de ChatGPT en los nuevos iPhones y Siri.46 Esta integración permite a Siri realizar tareas más complejas, mantener conversaciones más naturales y comprender y ejecutar mejor comandos matizados.

 

Septiembre

NotebookLM presenta DeepDive, una nueva IA multimodal capaz de transformar los materiales de origen en atractivas presentaciones de audio estructuradas como un podcast.47 La capacidad de DeepDive para analizar y resumir información de diferentes formatos, como sitios web, texto, audio y video, abre nuevas oportunidades para crear contenido personalizado y automatizado en varias plataformas. Esta capacidad la convierte en una herramienta versátil para la producción de medios y la educación.

 

Las tendencias actuales de la IA apuntan a nuevas evoluciones de la IA generativa que operan en modelos fundacionales más pequeños y eficientes y al auge de la IA agéntica, en la que modelos específicos de la IA trabajan juntos para completar las solicitudes de los usuarios más rápido. En el futuro, los vehículos autónomos circularán por las carreteras, la IA multimodal creará audio, video, texto e imágenes en una sola plataforma y los asistentes de la IA ayudarán a los usuarios a navegar por sus vidas personales y carreras.

Notas de pie de página
  1. A logical calculus of the ideas immanent in nervous activity, springer.com, diciembre de 1943
  2. Computing machinery and intelligence, Mind, octubre de 1950
  3. A proposal for the Dartmouth summer research project on artificial intelligence, Stanford.edu, 31 de agosto de 1955
  4. Lisp (progamming language), wikipedia.org
  5. Pandemonium: un paradigma para el aprendizaje, aitopics.org
  6. Programs with common sense, stanford.edu
  7. Alchemy and artifical intelligence, rand.org, diciembre de 1965
  8. Speculations concerning the first ultraintelligent machine, sciencedirect.com
  9. ELIZA, wikipedia.org
  10. Dendral, wikipedia.org
  11. Shakey the robot, sri.com
  12. Perceptrons: an introduction to computational geometry, MIT.edu
  13. SHRDLU, stanford.edu
  14. MYCIN: a knowledge-based program for infectious disease diagnosis, science.direct.com
  15. Artificial Intelligence: a general survey, chilton-computing.org.uk, julio de 1972
  16. AI winter, wikipedia.org
  17. WABOT, humanoid.waseda.ac.jp
  18. Learning representations by back-propagating errors, nature.com, 9 de octubre de 1986
  19. Knowledge navigator, youtube.com, 29 de abril de 2008
  20. Probabilistic reasoning in intelligent systems: networks of plausible inference, sciencedirect.com, 1988
  21. Judea Pearl Turing Award, amturing.amc.org
  22. Jabberwacky, wikipedia.org
  23. A statistical approach to language translation, acm.org, 22 de agosto de 1988
  24. Candide: a statistical machine translation system, aclanthology.org
  25. The coming technological singularity: how to survive in the post-human era, edoras.sdsu.edu, 1993
  26. A.L.I.C.E. (Artificial Linguistic Internet Computer Entity), wikipedia.org
  27. Deep blue (chess computer), wikipedia.org
  28. Furby, wikipedia.org
  29. Gradient-based learning applied to document recognition, Stanford.edu, Noviembre de 1998
  30. Kismet, mit.edu
  31. Learning multiple layers of representation, toronto.edu
  32. ImageNet, wikipedia.org
  33. Large-scale deep unsupervised learning using graphic processors, stanford.edu
  34. The robots are coming! Oh, they’re here, nytimes.com, 19 de octubre de 2009
  35. Watson IBM invitational, jeopardy.com, 22 de junio de 2015
  36. Using large-scale brain simulations for machine learning and A.I., blog.google, 26 de junio de 2012
  37. ImageNet large scale visual recognition challenge 2012, image-net.org
  38. AlphaGo, wikipedia.org
  39. We talked to Sophia, youtube.com, 28 de diciembre de 2017
  40. Facebook’s artificial intelligence robots shut down after they start talking to each other in their own language, independent.co.uk, 31 de julio de 2017
  41. How will Google MUM affect your search ranking in 2024?, learn.g2.com. 7 de agosto de 2023
  42. Our next-generation model: Gemini 1.5, blog.google, 15 de febrero de 2024
  43. Sora, openai.com
  44. Stable diffusion 3, stability.ai, 22 de febrero de 2024
  45. AlphaFold 3 predicts the structure and interactions of all of life’s molecules, blog.google, 8 de mayo de 2024
  46. Apple intelligence, apple.com, 10 de junio de 2024
  47. NotebookLM now lets you listen to a conversation about your sources, blog.google. 11 de septiembre de 2024

Boletín de noticias Think

 

Los últimos insights sobre IA y tecnología de Think

Regístrese hoy

Recursos

Academia de IA de IBM
Educación en IA
Mezcla de expertos
Podcast
El futuro de la IA es abierto
Blog
Dé el siguiente paso

Entrene, valide, ajuste y despliegue IA generativa, modelos fundacionales y capacidades de machine learning con IBM watsonx.ai, un estudio empresarial de próxima generación para constructores de IA. Cree aplicaciones de IA en menos tiempo y con menos datos.

Explore watsonx.ai Reserve una demostración en vivo