A história da IA

A parte mais alta de um arranha-céu despontando acima das nuvens

Autores

Tim Mucci

IBM Writer

Gather

A história da inteligência artificial

Os humanos sonham em criar máquinas pensantes desde os tempos antigos. O Folclore e as tentativas históricas de construir dispositivos programáveis refletem essa ambição de longa data, e a ficção está repleta das possibilidades das máquinas inteligentes, imaginando seus benefícios e perigos. Não é de admirar que, quando a OpenAI lançou a primeira versão do GPT (Generative Pretraining Transformer), ele tenha atraído atenção generalizada com rapidez, marcando um passo considerável na realização desse sonho antigo.

O GPT-3 foi um momento marcante na IA devido ao seu tamanho sem precedentes, com 175 bilhões de parâmetros, o que lhe permitiu executar uma ampla gama de tarefas de linguagem natural sem grandes ajustes finos. Esse modelo foi treinado utilizando big data, possibilitando a geração de texto semelhante ao humano e a participação em conversas. Ele também tinha a capacidade de realizar aprendizado few-shot, melhorando consideravelmente sua versatilidade e utilidade demonstrada em aplicativos comerciais de IA, como chatbot e assistente virtual.

Atualmente, a IA está cada vez mais integrada a muitos aspectos da vida diária, desde as redes sociais até os processos de trabalho. E, à medida que a tecnologia melhora, sua influência continuará crescendo. Para entender os caminhos que a tecnologia pode seguir, é útil compreender como chegamos até aqui. Aqui está um histórico dos principais desenvolvimentos da IA:

Antes do século XX

1726

Jonathan Swift, em seu fantástico romance “As Viagens de Gulliver”, introduz a ideia de The Engine, um grande aparato mecânico utilizado para ajudar acadêmicos a gerar novas ideias, frases e livros.  

Acadêmicos operam alavancas em uma máquina que movimenta blocos de madeira marcados com palavras. A máquina é conhecida por criar novas ideias e tratados filosóficos através da reorganização das palavras.

"Todos sabem como o método usual de alcançar as artes e ciências é trabalhoso; enquanto que, com sua invenção, a pessoa mais ignorante, a um custo razoável e com um pouco de trabalho físico, pode escrever livros sobre filosofia, poesia, política, leis, matemática e teologia, sem o menor auxílio de talento ou estudo."

- As Viagens de Gulliver de Jonathan Swift (1726)

A sátira de Swift antecipa o conceito de geração algorítmica de texto, que hoje é uma realidade com a IA moderna. Modelos de IA podem produzir textos coerentes combinando palavras e ideias com base em algoritmos subjacentes, de forma semelhante ao que o fictício Engine de Swift foi concebido.

1900–1950

1914

O engenheiro espanhol Leonardo Torres y Quevedo demonstra a primeira máquina de jogar xadrez, El Ajedrecista, na Exposição Universal de Paris. Ele usava eletroímãs e era totalmente automático. El Ajedrecista jogou automaticamente um final de xadrez simples de rei e torre contra rei. A máquina não exigia intervenção humana depois de configurada - ela fazia movimentos de xadrez legais de forma autônoma e, se o oponente humano fizesse um movimento ilegal, a máquina sinalizaria o erro. Se a máquina fosse colocada em uma posição vencedora, ela seria capaz de dar xeque-mate no oponente humano de forma confiável.

1921

Uma peça chamada "Rossum's Universal Robots" (R.U.R) estreia em Londres. A peça de Karel Čapek é a primeira vez que a palavra "robô" é usada em inglês. Em tcheco, o termo "robota" está associado a trabalhos compulsórios realizados por camponeses em sistemas feudais. O termo "robô" logo ganhou reconhecimento internacional após o sucesso da peça e tornou-se o termo padrão para seres mecânicos ou artificiais criados para executar tarefas. Embora os robôs de Čapek sejam orgânicos, o termo passou a ser associado a máquinas humanoides mecânicas projetadas para realizar trabalhos monótonos e não qualificados.

1939

O professor de física e matemática John Vincent Atanasoff, do Iowa State College, e seu estudante de pós-graduação Clifford Berry criam o Atanasoff-Berry Computer (ABC) com um subsídio de USD 650 na Iowa State University. O computador ABC é considerado um dos primeiros computadores eletrônicos digitais e um marco no campo da ciência da computação americana.

Embora o ABC nunca tenha sido totalmente funcional ou amplamente utilizado, introduziu vários conceitos-chave que se tornariam fundamentais no desenvolvimento da computação moderna.

Diferentemente dos dispositivos de computação anteriores que utilizavam sistemas decimais, o ABC utilizava o sistema binário (1 e 0) para representar dados, o que se tornou o padrão para computadores posteriormente. O ABC também foi um dos primeiros computadores a utilizar circuitos eletrônicos para cálculos, em vez de sistemas mecânicos ou eletromecânicos, possibilitando cálculos mais rápidos e confiáveis. O ABC separava o armazenamento de dados (memória) da unidade de processamento (operações lógicas), um princípio ainda seguido na arquitetura de computadores moderna. Utilizava capacitores para armazenar dados e era capaz de lidar com até 30 equações simultâneas.

O ABC empregava cerca de 300 válvulas eletrônicas a vácuo em suas operações lógicas, o que o tornava muito mais rápido do que as calculadoras mecânicas anteriores. As válvulas de vácuo, embora volumosas e propensas a falhas, foram um desenvolvimento fundamental na computação eletrônica. O ABC pesava mais de 300 quilos e resolvia até 29 equações lineares simultâneas.

1943

Warren S. McCulloch e Walter Pitts publicam A Logical Calculus of the Ideas Immanent in Nervous Activity (Um cálculo lógico das ideias imanentes à atividade nervosa) no Bulletin of Mathematical Biophysics.1 É um dos trabalhos seminais na história da neurociência e da IA. O artigo estabelece a base da ideia de que o cérebro pode ser entendido como um sistema computacional e introduz o conceito de redes neurais artificiais, atualmente uma tecnologia fundamental da IA moderna. Essa ideia inspira sistemas de computador que simulam funções e processos semelhantes ao cérebro, particularmente por meio de redes neurais e deep learning.

1950

O artigo de referência do matemático britânico Alan Turing " Computing Machinery and Intelligence " foi publicado na Mind.2 O artigo é um texto fundamental em IA e lida com a questão "As máquinas pensam?" A abordagem de Turing estabeleceu a base das futuras discussões sobre a natureza das máquinas pensantes e como sua inteligência pode ser medida por meio do "jogo de imitação", conhecido hoje como o Teste de Turing. Turing introduziu um experimento mental para evitar responder diretamente à pergunta "As máquinas pensam?" Em vez disso, ele reformulou o problema em uma forma operacional mais específica: uma máquina pode apresentar um comportamento inteligente indistinguível do de um humano?

O Teste de Turing tornou-se um conceito central na IA, servindo como uma forma de medir a inteligência de máquinas, avaliando sua capacidade de imitar de maneira convincente a conversa e o comportamento humanos.

1950–1980

1951

Marvin Minsky e Dean Edmunds constroem a primeira rede neural artificial. A Calculadora de Reforço Analógico Neural Estocástico (SNARC) é uma tentativa inicial de modelar os processos de aprendizado no cérebro humano, especificamente por meio do aprendizado por reforço.

O SNARC foi projetado para simular o comportamento de um rato navegando em um labirinto. A ideia é que a máquina imite o modo como os animais aprendem por meio de recompensas e punições, ajustando seu comportamento ao longo do tempo com base no feedback. É um computador analógico que utiliza uma rede de três mil válvulas eletrônicas a vácuo com pesos sinápticos para simular 40 unidades semelhantes a neurônios.

1952

Allen Newell, matemático e cientista da computação, e Herbert A. Simon, cientista político, desenvolveram programas influentes como o Logic Theorist e o General Problem Solver, que estão entre os primeiros a simular habilidades humanas de resolução de problemas utilizando métodos computacionais.

1955

O termo "inteligência artificial" é cunhado pela primeira vez em uma proposta de workshop intitulada "A Proposal for the Dartmouth Summer Research Project on Artificial Intelligence,"3 submetida por John McCarthy, do Dartmouth College, Marvin Minsky, da Universidade de Harvard, Nathaniel Rochester, da IBM, e Claude Shannon, dos Laboratórios Bell.

O workshop, realizado um ano depois, em julho e agosto de 1956, é geralmente considerado a data oficial de nascimento do campo emergente da IA.

1957

Frank Rosenblatt, psicólogo e cientista da computação, desenvolve o Perceptron, uma rede neural inicial que permite o reconhecimento de padrões com base em uma rede de aprendizado de computadores de duas camadas. O Perceptron apresenta o conceito de um classificador binário que pode aprender com os dados ajustando os pesos de suas inputs por meio de algoritmos de aprendizado. Embora limitado à resolução de problemas linearmente separáveis, lançou as bases para futuros desenvolvimentos de redes neurais e aprendizado de máquina.

1958

John McCarthy desenvolve a linguagem de programação Lisp4, que significa LISt Processing. O Lisp foi desenvolvido a partir do trabalho de McCarthy na formalização de algoritmos e lógica matemática, particularmente influenciado por sua vontade de criar uma linguagem de programação capaz de manipular informações simbólicas. O Lisp logo se torna a linguagem de programação mais popular usada na pesquisa de IA.

1959

Arthur Samuel foi pioneiro no conceito de aprendizado de máquina ao desenvolver um programa de computador que melhora seu desempenho no jogo de damas ao longo do tempo. Samuel demonstra que um computador pode ser programado para seguir regras predefinidas e "aprender" com a experiência, finalmente jogando melhor do que o programador. Seu trabalho marca um grande passo para ensinar máquinas a melhorar por meio da experiência, cunhando o termo "aprendizado de máquina" no processo.

 

Oliver Selfridge publica seu artigo "Pandemonium: A paradigma for learning."5 Seu modelo de pandemonium propôs um sistema no qual vários "demons" (unidades de processamento) trabalham juntos para reconhecer padrões. Os demons competem para identificar recursos nos dados que não foram programados previamente, simulando aprendizado não supervisionado. O modelo de Selfridge é uma contribuição inicial para o reconhecimento de padrões, influenciando desenvolvimentos futuros em visão de máquina e IA.

 

John McCarthy apresenta o conceito de Advice Taker em seu artigo "Programs with Common Sense".6 Este programa visa resolver problemas manipulando frases na lógica formal, estabelecendo as bases para o raciocínio em IA. McCarthy imagina um sistema que possa entender instruções, raciocinar com conhecimento de bom senso e aprender com a experiência, com o objetivo de longo prazo de desenvolver uma IA que possa se adaptar e aprender com a mesma eficácia que os humanos. Esse conceito ajuda a moldar pesquisas iniciais em representação de conhecimento e raciocínio automático.

1965

O filósofo Hubert Dreyfus publica "Alchemy and Artificial Intelligence,"7 argumentando que a mente humana opera de forma fundamentalmente diferente dos computadores. Ele prevê limites para o progresso da IA devido aos desafios de replicar a intuição e a compreensão humanas. Sua crítica é influente ao provocar debates sobre os limites filosóficos e práticos da IA.

 

I.J. Good escreve " Speculations Concerning the First Ultrainteligent Machine, "8, afirmando que, uma vez criada, uma máquina ultrainteligente pode projetar sistemas ainda mais inteligentes, tornando-a a última invenção da humanidade, desde que permaneça controlável. Suas ideias prenunciam as discussões modernas sobre a superinteligência da IA e seus riscos.

 

Joseph Weizenbaum desenvolve o ELIZA,9 um programa que imita a conversa humana, respondendo a entradas em linguagem natural. Embora Weizenbaum tenha a intenção de mostrar a superficialidade da comunicação entre humanos e computadores, ficou surpreso com a quantidade de usuários que atribuíram emoções semelhantes às humanas ao programa, levantando questões éticas sobre IA e interação humana.

 

Edward Fegenbaum, Bruce Buchanan, Joshua Lederberg e Carl Djerassi desenvolveram o DENDRAL na Universidade de Stanford.10 É o primeiro sistema especialista a automatizar o processo de tomada de decisão de químicos orgânicos simulando a formação de hipóteses. O sucesso da DENDRAL marca um avanço na IA, demonstrando como os sistemas podem executar tarefas especializadas tão ou melhor do que especialistas humanos.

1966

Desenvolvido na SRI no fim dos anos 1960, Shakey é o primeiro robô móvel capaz de raciocinar sobre suas próprias ações, combinando percepção, planejamento e solução de problemas.11 Em um artigo da revista Life de 1970, Marvin Minsky prevê que dentro de três a oito anos, a IA alcançaria a inteligência geral de um ser humano comum. As conquistas de Shakey marcam um marco em robótica e IA, embora o cronograma ambicioso de Minsky se mostre excessivamente otimista.

1969

Arthur Bryson e Yu-Chi Ho apresentam a retropropagação, método de otimização de sistemas dinâmicos em vários estágios. Embora originalmente desenvolvido para sistemas de controle, esse algoritmo torna-se crucial no treinamento de redes neurais. A retropropagação só ganhou destaque nas décadas de 2000 e 2010 com os avanços no computing power, possibilitando o surgimento do deep learning.

 

Marvin Minsky e Seymour Papert publicam Perceptrons: Introdução à Geometria Computacional,12 que analisou criticamente as limitações das redes neurais de camada única. Seu trabalho é frequentemente responsabilizado pela redução do interesse em redes neurais. Na edição de 1988, argumentam que o progresso já havia estagnado devido à falta de entendimento teórico, apesar dos inúmeros experimentos com perceptrons em meados da década de 1960.

1970

Terry Winograd cria o SHRDLU, um programa inovador de natural language understanding.13 O SHRDLU pode interagir com os usuários em inglês simples para manipular objetos em um mundo de blocos virtual, demonstrando o potencial dos computadores para entender e responder a instruções complexas. É uma conquista inicial no processamento de linguagem natural, embora seu sucesso seja limitado a ambientes específicos e altamente estruturados. Os recursos do SHRDLU destacam tanto a promessa quanto as dificuldades de se alcançar uma compreensão mais ampla da linguagem de IA.

1972

Desenvolvido na Universidade de Stanford, o MYCIN é um dos primeiros sistemas especialistas criados para ajudar médicos no diagnóstico de infecções bacterianas e para recomendar tratamentos com antibióticos.14 O MYCIN utiliza uma abordagem baseada em regras para simular o processo de tomada de decisão de especialistas humanos e cria uma plataforma para o desenvolvimento de sistemas médicos de IA. No entanto, devido a questões éticas e legais, nunca foi implementado na prática clínica.

1973

James Lighthill apresenta um relatório crítico ao British Science Research Council sobre o progresso da pesquisa em IA, concluindo que a IA não conseguiu cumprir suas promessas iniciais.15 Ele argumenta que o campo não produziu avanços significativos, levando a uma redução drástica do financiamento do governo para a IA no Reino Unido. O relatório contribuiu para o início do primeiro inverno da IA16, um período de menor interesse e investimento em pesquisa de IA.

1980—2000

1980

WABOT-217, robô humanoide desenvolvido na Universidade Waseda, no Japão, foi construído a partir de 1980 e concluído por volta de 1984. Sucedeu o WABOT-1, construído em 1973. Enquanto o WABOT-1 concentrava-se na mobilidade e na comunicação básicas, o WABOT-2 era mais especializado, projetado especificamente como um robô músico. Lia partituras musicais com seus "olhos" de câmera, conversava com humanos, tocava música em um órgão eletrônico e até acompanhava um cantor humano. Esse projeto representa um passo significativo em direção ao desenvolvimento de robôs humanoides e IA capazes de executar tarefas complexas semelhantes às humanas, como expressão artística.

1982

O Japão lança o projeto de sistemas de computadores de quinta geração (FGCS) com o objetivo de desenvolver computadores capazes de realizar raciocínio lógico e resolução de problemas, impulsionando a pesquisa em IA. Este projeto ambicioso visava construir máquinas capazes de executar tarefas como processamento de linguagem natural e sistemas especialistas. Embora tenha sido encerrado em 1992, o projeto FGCS e suas descobertas contribuíram significativamente para o desenvolvimento do campo de programação lógica concorrente.

1984

Na reunião anual da Association for the Advancement of Artificial Intelligence (AAAI), Roger Schank e Marvin Minsky alertam sobre um iminente "inverno da IA", prevendo que as expectativas infladas em torno da IA logo levariam a um colapso no investimento e na pesquisa, semelhante à redução de financiamento em meados da década de 1970. Sua previsão se concretizou em três anos, quando o interesse pela IA diminuiu devido a promessas não cumpridas, resultando em financiamento reduzido e uma desaceleração no progresso. Este período ficou conhecido como o segundo inverno da IA.

O alerta de Schank e Minsky destaca a natureza cíclica do entusiasmo pela IA, onde períodos de otimismo são seguidos por desilusão quando a tecnologia não consegue atender às expectativas de investidores e do público.

1986

David Rumelhart, Geoffrey Hinton e Ronald Williams publicam o artigo seminal "Aprendizado de representações por meio da retropropagação de erros", no qual descrevem o algoritmo de retropropagação.18 Esse método permite que redes neurais ajustem seus pesos internos "retropropagando" o erro pela rede, melhorando a capacidade das redes multicamadas no aprendizado de padrões complexos. O algoritmo de retropropagação torna-se a base do aprendizado profundo moderno, despertando novo interesse em redes neurais e superando algumas limitações destacadas em pesquisas anteriores de IA. Essa descoberta baseia-se no trabalho de 1969 de Arthur Bryson e Yu-Chi Ho, aplicando o algoritmo de retropropagação especificamente às redes neurais, superando as limitações anteriores no treinamento de redes multicamadas.

Essa inovação torna as redes neurais artificiais viáveis para aplicações práticas e abriu caminho para a revolução do deep learning dos anos 2000 e 2010.

1987

Durante seu discurso principal no Educom, o CEO da Apple, John Sculley, apresenta o vídeo Knowledge Navigator, que imagina um futuro onde agentes digitais inteligentes ajudam os usuários a acessar vastas quantidades de informações por meio de sistemas em rede.19 Este conceito visionário mostra um professor interagindo com um assistente inteligente ativado por voz, capaz de recuperar dados, responder perguntas e exibir informações da internet. O vídeo previu muitos elementos de tecnologias modernas, como assistentes de IA, bancos de dados de conhecimento em rede e nosso mundo digital interconectado.

1988

Judea Pero publica Raciocínio Probabilístico em Sistemas Inteligentes, revolucionando a forma como a IA processa informações sob incerteza.20 Esse trabalho apresenta as redes bayesianas, formalismo para representar modelos de probabilidade complexos e os algoritmos para realizar inferência dentro deles. Os métodos de Pearl permitiram que os sistemas de IA tomassem decisões fundamentadas em ambientes incertos, influenciando campos muito além da IA, incluindo engenharia e ciências naturais. Suas contribuições são reconhecidas com o Prêmio Turing de 2011, que citou seu papel na criação da "base representacional e computacional" para o raciocínio probabilístico moderno em IA.21

 

Rollo Carpenter desenvolveu o Jabberwacky22, um chatbot inicial projetado para simular conversas semelhantes às humanas que fossem interessantes, divertidas e bem-humoradas. Ao contrário dos sistemas baseados em regras, o Jabberwacky aprende com as interações humanas para gerar um diálogo mais natural, abrindo caminho para modelos de IA conversacional posteriores. Esse chatbot é uma das primeiras tentativas de criar IA que imita a conversa humana espontânea e cotidiana por meio do aprendizado contínuo de suas interações com os usuários.

 

Pesquisadores do IBM T.J. Watson Research Center publicam "Uma abordagem estatística para tradução de idiomas", marcando uma mudança fundamental de métodos baseados em regras para métodos probabilísticos na tradução automática.23 Essa abordagem, exemplificada pelo projeto Candide da IBM24, utiliza 2,2 milhões de pares de frases inglês-francês, provenientes principalmente dos procedimentos do Parlamento canadense. Essa nova metodologia enfatiza o aprendizado de padrões estatísticos em dados, em vez de tentar compreender ou "entender" as linguagens, refletindo a tendência mais ampla de aprendizado de máquina que depende da análise de exemplos conhecidos. Esse modelo probabilístico abriu caminho para muitos avanços futuros no processamento de linguagem natural e tradução automática.

 

Marvin Minsky e Seymour Papert lançam uma edição ampliada de seu livro Perceptrons, de 1969, uma crítica seminal das primeiras redes neurais. No novo prólogo, intitulado "A View from 1988," refletiram sobre o lento progresso no campo da IA, observando que muitos pesquisadores continuaram a repetir erros do passado devido à falta de familiaridade com os desafios anteriores.12 Destacaram a necessidade de uma compreensão teórica mais profunda que falta nas pesquisas anteriores sobre redes neurais. Destacam suas críticas originais e, ao mesmo tempo, reconhecem as abordagens emergentes que mais tarde levariam aos avanços modernos do deep learning.

1989

Yann LeCun e uma equipe de pesquisadores da AT&T Bell Labs conquistam um avanço aplicando com sucesso o algoritmo de backpropagation a uma rede neural de múltiplas camadas para reconhecer códigos postais escritos à mão.24 É uma das primeiras aplicações práticas de deep learning utilizando redes neurais convolucionais. Apesar do hardware limitado da época, são necessários cerca de três dias para treinar a rede, o que representa uma melhoria significativa em relação às tentativas anteriores. O sucesso do sistema no reconhecimento de dígitos escritos à mão, tarefa chave para automatizar os serviços postais, demonstra o potencial das redes neurais em tarefas de reconhecimento de imagens e lançou as bases do crescimento explosivo do deep learning nas décadas seguintes.

1993

O autor de ficção científica e matemático Vernor Vinge publica o ensaio "The Coming Technological Singularity ", no qual prevê que a inteligência sobre-humana será criada nos próximos 30 anos, transformando fundamentalmente a civilização humana.25 Vinge argumenta que os avanços tecnológicos, particularmente em IA, levarão a uma explosão de inteligência com máquinas superando a inteligência humana e levado ao fim da era humana como a conhecemos. Seu ensaio é fundamental para popularizar o conceito de "singularidade tecnológica", um momento em que a IA ultrapassaria o controle humano, gerando debates nas comunidades de IA, ética e futurismo.

Essa previsão continua influenciando discussões sobre os possíveis impactos da IA e da superinteligência, particularmente sobre os riscos existenciais e as considerações éticas de se criarem máquinas com inteligência muito além da capacidade humana.

1995

Richard Wallace desenvolve o chatbot A.L.I.C.E.26 (Artificial Linguistic Internet Computer Entity), com base no programa ELIZA de Joseph Weizenbaum. Ao contrário do ELIZA, que dependia de respostas com script para simular a conversa, o A.L.I.C.E. Aproveite a recém-criada World Wide Web para coletar e processar grandes quantidades de dados de linguagem natural, possibilitando que se envolvam em conversas mais complexas e fluidas. A.L.I.C.E. utiliza uma técnica de correspondência de padrões chamada AIML (Artificial Intelligence Markup Language) para analisar e gerar respostas, tornando-a mais adaptável e escalável do que suas antecessoras. O trabalho de Wallace prepara o terreno para novos avanços na IA conversacional, influenciando assistentes virtuais modernos e chatbots.

1997

Sepp Hochreiter e Jürgen Schmidhuber apresentam a Long Short-Term Memory (LSTM), um tipo de rede neural recorrente (RNN) projetada para superar as limitações das redes neurais tradicionais, particularmente sua incapacidade de capturar de forma eficaz dependências de longo prazo nos dados. As redes LSTM são amplamente utilizadas em aplicações como reconhecimento de escrita, reconhecimento de voz, processamento de linguagem natural e forecasting.

 

O Deep Blue da IBM fez história ao derrotar o então campeão mundial de xadrez Garry Kasparov em uma partida de seis jogos.27 Foi a primeira vez que um programa de jogo de xadrez por computador vence um campeão mundial sob controles de tempo de torneio de xadrez padrão. A vitória do Deep Blue demonstrou que os computadores podem superar humanos em jogos altamente estratégicos, há muito tempo considerados uma característica da inteligência humana. A capacidade da máquina de calcular milhões de jogadas por segundo, combinada com avanços na teoria dos jogos e heurística, permitiu que superasse Kasparov, definindo o lugar do Deep Blue na história da IA.

O evento também gerou debates sobre a relação futura entre a cognição humana e a IA, influenciando pesquisas subsequentes em outros campos, como processamento de linguagem natural e sistemas autônomos.

1998

Dave Hampton e Caleb Chung criam Furby, o primeiro animal de estimação robótico amplamente bem-sucedido.28 O Furby respondia ao toque, ao som e à luz e "aprendia" a linguagem com o passar do tempo, começando com sua linguagem, o Furbish, mas gradualmente "falando" mais inglês à medida que interagia com os usuários. Sua capacidade de imitar o aprendizado e se envolver com os usuários o torna um precursor de robôs sociais mais sofisticados, misturando robótica com entretenimento pela primeira vez em um produto de consumo.

 

Yann LeCun, Yoshua Bengio e seus colaboradores publicam artigos influentes sobre a aplicação de redes neurais ao reconhecimento de caligrafia.29 O trabalho deles concentra-se no uso de redes neurais convolucionais para otimizar o algoritmo de retropropagação, tornando-o mais eficaz para treinar redes profundas. Refinando o processo de retropropagação e demonstrando o poder das CNNs para reconhecimento de imagens e padrões, a pesquisa de LeCun e Bengio preparou o cenário para técnicas modernas de deep learning utilizadas em uma ampla gama de aplicações de IA hoje.

2000–2020

2000

Cynthia Breazeal, do MIT, desenvolveu o Kismet, um robô projetado para interagir com seres humanos por meio de sinais emocionais e sociais.30 O Kismet é equipado com câmeras, microfones e características faciais expressivas, o que lhe permite perceber e responder às emoções humanas, como felicidade, tristeza e surpresa. Esse desenvolvimento marca um avanço na robótica social, explorando como os robôs podem interagir com humanos de forma mais natural.

2006

Geoffrey Hinton publica "Learning Multiple Layers of Representation" (Aprendizado de Múltiplas Camadas de Representação), que resume os principais avanços no deep learning e descreve como as redes neurais podem ser treinadas de forma mais eficaz.31 O trabalho de Hinton concentra-se no treinamento de redes com conexões graduadas para gerar dados sensoriais, em vez de simplesmente classificá-los. Essa abordagem representa uma mudança das redes neurais tradicionais para o que hoje chamamos de deep learning, possibilitando que as máquinas aprendam representações hierárquicas complexas de dados.

2007

Fei-Fei Li e sua equipe na Universidade de Princeton iniciam o projeto ImageNet, criando um dos maiores e mais abrangentes bancos de dados de imagens anotadas.32O ImageNet foi projetado para apoiar o desenvolvimento de software de reconhecimento de objetos visuais, gerando milhões de imagens rotuladas em milhares de categorias. A escala e a qualidade do conjunto de dados possibilitam avanços na pesquisa em visão computacional, particularmente no treinamento de modelos de deep learning para reconhecer e classificar objetos em imagens.

2009

Rajat Raina, Anand Madhavan e Andrew Ng publicam "Large-scale Deep Unsupervised Learning using Graphics Processors," argumentando que as unidades de processamento gráfico (GPUs) podem superar em muito as CPUs tradicionais de vários núcleos para tarefas de deep learning.33 Eles demonstram que o poder computacional superior das GPUs pode revolucionar a aplicabilidade dos métodos de deep learning não supervisionada, possibilitando que os pesquisadores treinem modelos mais extensos e complexos com mais eficiência. Esse trabalho é fundamental para acelerar a adoção de GPUs na deep learning, levando aos avanços na década de 2010 que alimentam os aplicativos modernos de IA em campos como Computer Vision e processamento de linguagem natural.

 

Cientistas da computação do Intelligent Information Laboratory da Northwestern University desenvolveram o Stats Monkey, programa capaz de gerar notícias esportivas automaticamente, sem intervenção humana.34 Ele utiliza estatísticas de jogos para criar narrativas coerentes sobre jogos de beisebol, incluindo resumos, desempenhos de jogadores e análises.

2011

O Watson da IBM, computador avançado para responder perguntas com linguagem natural, ganha as manchetes após competir no show de jogos Jeopardy! contra dois dos campeões mais bem-sucedidos do show, Ken Jennings e Brad Rutter, e derrotando-os.35 A capacidade do Watson de processar e interpretar a linguagem natural e sua vasta base de conhecimento possibilitam que ele responda a perguntas complexas com rapidez e precisão. Essa vitória destaca os avanços na capacidade da IA de entender e interagir com a linguagem humana em um nível sofisticado.

 

A Apple lança Siri, assistente virtual integrado ao sistema operacional iOS. A Siri apresenta uma interface de usuário em linguagem natural que permite aos usuários interagir com seus dispositivos por meio de comandos de voz. A Siri executa tarefas como enviar mensagens, definir lembretes, apresentar recomendações e responder a perguntas utilizando o aprendizado de máquina para se adaptar às preferências e aos padrões de voz de cada usuário. Esse sistema de reconhecimento de voz personalizado e adaptável oferece aos usuários uma experiência individualizada e marca um salto na usabilidade e acessibilidade de assistentes impulsionado por IA para consumidores comuns.

2012

Jeff Dean e Andrew Ng realizam um experimento utilizando uma rede neural maciça com 10 milhões de imagens não rotuladas provenientes de vídeos do YouTube.36 Durante o experimento, a rede, sem rotulagem prévia, aprende a reconhecer padrões nos dados e "para nossa diversão," um neurônio torna-se particularmente sensível a imagens de gatos. Essa descoberta é uma demonstração de aprendizado não supervisionado, demonstrando como as redes neurais podem aprender de forma autônoma os recursos de grandes quantidades de dados.

 

Pesquisadores da Universidade de Toronto, liderados por Geoffrey Hinton, projetam uma rede neural convolucional que alcança resultados inovadores no Desafio de Reconhecimento Visual de Grande Escala ImageNet.37 Sua CNN, conhecida como AlexNet, atinge uma taxa de erro de 16%, melhoria substancial em relação ao melhor resultado do ano anterior de 25%. Essa conquista marca um ponto de virada para o deep learning na visão computacional, provando que as CNNs podem superar os métodos tradicionais de classificação de imagens quando treinadas em grandes conjuntos de dados.

2016

O AlphaGo do Google DeepMind venceu Lee Sedol, um dos melhores jogadores de Go do mundo. Go, um jogo de tabuleiro complexo com mais movimentos possíveis do que átomos no universo, há muito era considerado um desafio para a IA.38 A vitória do AlphaGo por 4 a 1 sobre Sedol é um momento inovador na IA, mostrando o poder das técnicas de deep learning para lidar com tarefas estratégicas altamente complexas que antes estavam além das recursos da IA.

A Hanson Robotics apresentou Sophia, robô humanoide altamente avançado.39 Sophia reconhece rostos, faz contato visual e mantém conversas utilizando uma combinação de reconhecimento de imagens e processamento de linguagem natural.

2017

Pesquisadores do laboratório Artificial Facebook Intelligence Research (FAIR) treinam dois chatbots para negociar entre si. Embora os chatbots sejam programados para se comunicarem em inglês, durante suas conversas, começaram a divergir da linguagem humana estruturada e a criar sua própria linguagem abreviada para se comunicarem de forma mais eficiente.40 Esse desenvolvimento foi inesperado, pois os bots otimizaram sua comunicação sem intervenção humana. O experimento foi interrompido para manter os bots em uma linguagem compreensível aos humanos, mas a ocorrência destaca o potencial dos sistemas de IA de evoluir de forma autônoma e imprevisível.

2020

A OpenAI apresenta o GPT-3, um modelo de linguagem com 175 bilhões de parâmetros, tornando-o um dos maiores e mais sofisticados modelos de IA até hoje. O GPT-3 demonstra a capacidade de gerar texto semelhante ao humano, participar de conversas, escrever código de programação, traduzir idiomas e gerar escrita criativa com base em prompts de linguagem natural. Como um dos primeiros exemplos de um grande modelo de linguagem (LLM), o enorme tamanho e escala do GPT permitiram que executasse uma ampla variedade de tarefas de linguagem com pouco ou nenhum treinamento específico para a tarefa. Esse exemplo demonstrou o potencial da IA para entender e produzir linguagem altamente coerente.

 

O AlphaFold 2, da DeepMind, alcança um avanço na biologia prevendo com precisão as estruturas tridimensionais de proteínas a partir de suas sequências de aminoácidos. Essa conquista resolve um problema que desafiava cientistas há décadas: entender como as proteínas se dobram em suas formas tridimensionais únicas. A alta precisão do AlphaFold 2 na previsão da estrutura de proteínas tem implicações para a pesquisa de doenças e o desenvolvimento de medicamentos, oferecendo novas maneiras de entender os mecanismos moleculares por trás de doenças e de projetar terapêuticos inovadores de forma mais eficiente.

2021 - Presente

2021

O MUM (Multitask Unified Model), desenvolvido pelo Google, é um modelo de IA projetado para aprimorar a experiência compreendendo e gerando linguagem em75 idiomas. O MUM pode ser multitarefa, analisando texto, imagens e vídeos simultaneamente, o que lhe permite lidar com consultas de pesquisa mais complexas e diferenciadas.41 Diferentemente dos modelos tradicionais, o MUM pode lidar com inputs multimodais e apresentar respostas abrangentes e ricas em contexto para perguntas sofisticadas que envolvem várias fontes de informação.

 

A Tesla lança o Full Self-Driving (FSD) Beta, sistema avançado de assistência ao motorista voltado para alcançar a condução totalmente autônoma. O FSD Beta utiliza deep learning e redes neurais para navegar em cenários de direção complexos, como ruas urbanas em tempo real, rodovias e interseções. Ele permite que os veículos da Tesla dirijam, acelerem e freiem de forma autônoma sob condições específicas, embora exija supervisão do motorista. O FSD Beta marca um passo em direção ao objetivo da Tesla de veículos totalmente autônomos, embora desafios regulatórios e preocupações de segurança ainda sejam obstáculos para alcançar a ampla implementação dessa tecnologia.

2021–2023

A OpenAI lança o DALL-E, seguido pelo DALL-E 2 e DALL-E 3, modelos de IA capazes de gerar imagens altamente detalhadas a partir de descrições textuais. Esses modelos utilizam deep learning avançado e arquitetura de transformação para criar imagens complexas, realistas e artísticas com base no input do usuário. DALL-E 2 e 3 expandem o uso da IA na criação de conteúdo visual, possibilitando que os usuários transformem ideias em imagens sem as habilidades tradicionais de design gráfico.

2024

Fevereiro

Google lança o Gemini 1.5 em beta limitado, modelo de linguagem avançado capaz de lidar com comprimentos de contexto de até 1 milhão de tokens.42 O modelo pode processar e entender grandes quantidades de informações em um único prompt, melhorando sua capacidade de manter o contexto em conversas e tarefas complexas sobre texto estendido. O Gemini 1.5 representa um salto notável no processamento de linguagem natural, disponibilizando recursos aprimorados de memória e compreensão contextual em relação a inputs longos.

 

A OpenAI anuncia publicamente Sora, modelo de texto para vídeo capaz de gerar vídeos de até um minuto de duração a partir de descrições textuais.43 Essa inovação expande o uso de conteúdo gerado por IA para além das imagens estáticas, possibilitando que os usuários criem videoclipes dinâmicos e detalhados com base nos prompts. Espera-se que Sora abra novas possibilidades na criação de conteúdo de vídeo.

 

A StabilityAI anuncia o Stable Diffusion 3, seu mais recente modelo de conversão de texto em imagem. Como o Sora, o Stable Diffusion 3 utiliza uma arquitetura semelhante para gerar conteúdo detalhado e criativo a partir de prompts de texto.44

 

Maio

O Google DeepMind revela uma nova extensão do AlphaFold que ajuda a identificar câncer e doenças genéticas, oferecendo uma ferramenta poderosa para diagnóstico genético e medicina personalizada.45

 

A IBM apresenta a família Granite, modelos de IA generativa como parte do seu portfólio de produtos de IA watsonx. Com uma gama de 3 a 34 bilhões de parâmetros, os modelos Granite são projetados para tarefas como geração de código, forecasting e processamento de documentos. Com código aberto e disponíveis sob a licença Apache 2.0, esses modelos são leves, econômicos e personalizáveis, tornando-os ideais para uma ampla gama de aplicações de negócios.

 

Junho

A Apple anuncia o Apple Intelligence, integração do ChatGPT aos novos iPhones e Siri.46 Essa integração permite que a Siri realize tarefas mais complexas, mantenha conversas mais naturais e compreenda e execute comandos com mais nuances.

 

Setembro

A NotebookLM apresenta o DeepDive, nova IA multimodal capaz de transformar materiais de origem em apresentações de áudio envolventes estruturadas como um podcast.47 A capacidade do DeepDive de analisar e resumir informações de diversos formatos, incluindo páginas da web, texto, áudio e vídeo, abre novas oportunidades para a criação de conteúdo personalizado e automático em várias plataformas. Esse recurso faz dele uma ferramenta versátil para produção de mídia e Educação.

 

As tendências atuais de IA apontam para novas evoluções da IA generativa operando em modelos básicos menores e mais eficientes e para o surgimento da IA agêntica, em que modelos específicos de IA trabalham juntos para concluir as solicitações dos usuários com mais rapidez. No futuro, veículos autônomos cruzarão as rodovias, a IA multimodal criará áudio, vídeo, texto e imagens em uma única plataforma e os assistentes de IA ajudarão os usuários a navegar em suas vidas pessoais e carreiras.

Notas de rodapé
  1. A lógica calculada das ideias imanentes na atividade nervosa, springer.com, Dezembro de 1943
  2. Computing machinery and intelligence, Mind, outubro de 1950
  3. A proposal for the Dartmouth summer research project on artificial intelligence, Stanford.edu, 31 de agosto de 1955
  4. Lisp (linguagem de programação), wikipedia.org
  5. Pandemonium: a paradigm for learning, aitopics.org
  6. Programs with common sense, stanford.edu
  7. Alchemy and artifical intelligence, rand.org, Dezembro de 1965
  8. Speculations concerning the first ultraintelligent machine, sciencedirect.com
  9. ELIZA, wikipedia.org
  10. Dendral, wikipedia.org
  11. Shakey the robot, sri.com
  12. Perceptrons: an introduction to computational geometry, MIT.edu
  13. SHRDLU, stanford.edu
  14. MYCIN: a knowledge-based program for infectious disease diagnosis, science.direct.com
  15. Artificial Intelligence: a general survey, chilton-computing.org.uk, julho de 1972
  16. AI winter, wikipedia.org
  17. WABOT, humanoid.waseda.ac.jp
  18. Learning representations by back-propagating errors, nature.com, 9 de outubro de 1986
  19. Knowledge navigator, youtube.com, 29 de abril de 2008
  20. Probabilistic reasoning in intelligent systems: networks of plausible inference, sciencedirect.com, 1988
  21. Judea Pearl Turing Award, amturing.amc.org
  22. Jabberwacky, wikipedia.org
  23. A statistical approach to language translation, acm.org, 22 de agosto de 1988
  24. Candide: a statistical machine translation system, aclanthology.org
  25. The coming technological singularity: how to survive in the post-human era, edoras.sdsu.edu, 1993
  26. A.L.I.C.E. (Artificial Linguistic Internet Computer Entity), wikipedia.org
  27. Deep blue (computador de xadrez), wikipedia.org
  28. Furby, wikipedia.org
  29. Gradient-based learning applied to document recognition, Stanford.edu, Novembro de 1998
  30. Kismet, mit.edu
  31. Learning multiple layers of representation, toronto.edu
  32. ImageNet, wikipedia.org
  33. Aprendizagem profunda em grande escala não supervisionada utilizando processadores gráficos, stanford.edu
  34. The robots are coming! Oh, they're here, nytimes.com, 19 de outubro de 2009
  35. Watson IBM invitational, jeopardy.com, 22 de junho de 2015
  36. Using large-scale brain simulations for machine learning and A.I., blog.google, 26 de junho de 2012
  37. ImageNet large scale visual recognition challenge 2012, image-net.org
  38. AlphaGo, wikipedia.org
  39. We talked to Sophia, youtube.com, 28 de dezembro de 2017
  40. Facebook's artificial intelligence robots shut down after they start talking to each other in their own language, independent.co.uk, 31 de julho de 2017
  41. How will Google MUM affect your search ranking in 2024?, learn.g2.com. 7 de Agosto de 2023
  42. Our next-generation model: Gemini 1.5, blog.google, 15 February 2024
  43. Sora, openai.com
  44. Stable diffusion 3, stability.ai, 22 de fevereiro de 2024
  45. AlphaFold 3 predicts the structure and interactions of all of life’s molecules, blog.google, 8 de maio de 2024
  46. Apple intelligence, apple.com, 10 de junho de 2024
  47. NotebookLM now lets you listen to a conversation about your sources, blog.google. 11 de setembro de 2024

Boletim informativo do Think

 

Os mais recentes insights sobre IA e tecnologia do Think

Inscreva-se hoje mesmo

Recursos

IBM AI Academy
Educação em IA
Mistura de especialistas
Podcast
Como aprimorar os resultados do Watson Visual Recognition usando o pré-processamento
Blog
O futuro da IA está aberto
Blog
Dê o próximo passo

Treine, valide, ajuste e implemente modelos de base de IA generativa e recursos de aprendizado de máquina com o IBM watsonx.ai, estúdio empresarial de última geração para construtores de IA. Crie aplicações de IA em uma fração do tempo e com uma fração dos dados.

Explore o watsonx.ai Agende uma demonstração em tempo real