Xeque-mate da IA
Como a AlphaZero, do Google, dominou três jogos de tabuleiro aprendendo a jogar por conta própria
Quando se fala em desenvolvimento de inteligência artificial (IA), logo pensamos em fazer uso de machine learning para, a partir de uma base de dados, ensinar a máquina a identificar padrões e executar novas tarefas – já falamos aqui no Simple sobre IAs empregadas na produção de textos e de música, por exemplo.
O que dizer, porém, de IAs projetadas para aprender uma tarefa do zero, sem conhecimentos humanos acumulados para orientá-las? É o caso da IA AlphaZero, do Google, que nos últimos anos espantou o mundo ao se tornar o melhor jogador de três jogos de tabuleiro ancestrais: Go, Xadrez e Shogi (um tipo de Xadrez japonês).
A máquina do Google, criada em 2016, foi alimentada apenas com as regras, sem dados sobre como mestres humanos ou mesmo outras máquinas praticam os jogos para orientá-la em sua jornada de conhecimento – metodologia conhecida como aprendizagem por reforço, baseada em tentativa e erro.
Ou seja, a AlphaZero não recebeu o peixe e nem foi ensinada pescá-lo: em vez disso, foi deixada para aprender a pescar por conta própria. Por contraintuitivo que pareça, a velocidade de aprendizagem foi assombrosa: no Xadrez, a AlphaZero demorou 4 horas para superar a aclamada IA de código aberto Stockfish. No Shogi, foram só 2 horas para bater a maioral Elmo.
No Go, o jogo foi um pouco mais duro: a primeira vitória sobre sua antecessora AlphaGo – IA que aprende à moda antiga – veio só depois de 30 horas. Nos três primeiros dias operando, a AlphaZero fez 4,9 milhões de partidas contra si mesma e adquiriu habilidade suficiente para vencer todas versões da AlphaGo. Em 40 dias, a AlphaZero deu o próximo salto e já tinha repertório similar aos melhores jogadores humanos, um conhecimento acumulado em milhares de anos.
Os resultados mexeram com lendas dos tabuleiros, como o sul-coreano Lee Sedol no Go e o russo Garry Kasparov, do Xadrez. Kasparov, considerado por muitos como o maior de todos os tempos na modalidade, declarou que "as implicações vão muito além do meu amado tabuleiro de Xadrez... Essas máquinas especializadas e autodidatas tem uma performance incrível e podemos aprender com o conhecimento que elas produzem".
Apesar da repercussão, Demis Hassabis, cofundador da Deepmind, desenvolvedora do AlphaGo – e que veio a ser adquirida pelo Google – não demonstrou espanto. Em entrevista ao jornal britânico The Telegraph, Hassabis justificou o poder de aprendizagem da AlphaZero declarando que ele "não está limitado pelo conhecimento humano". E na mesma reportagem, ele vai além, dizendo que "se técnicas similares forem aplicadas para outros problemas, como dobrar proteínas, diminuir o consumo de energia ou descobrir novos materiais, os avanços teriam potencial para alavancar o conhecimento humano e impactar positivamente as nossas vidas".