BERT x T5 x GPT-3 e o que achamos de cada modelo

Uma série de lançamentos de modelos de linguagem vem criando um cenário bastante promissor para a NLP. Neste texto, comparamos alguns dos mais recentes: BERT x T5 x GPT-3. Confira!

Os modelos de Processamento de Linguagem Natural (NLP) se mostram mais poderosos a cada lançamento. Novos paradigmas nasceram com a chegada de Transformer em 2017, depois vieram com BERT em 2018, GPT-2 e T5 em 2019 e, mais recente, com GPT-3 em 2020.

Embora a internet pire com os dígitos acoplados aos parâmetros dos novos modelos, sabemos que há mais elementos a serem considerados além dos números, especialmente na questão de aperfeiçoamento dos modelos; no final, é isso que acaba levando a performance a outro patamar. 

Neste texto, o intuito do Simple é fazer uma revisão dos últimos lançamentos e dar o nosso veredito sobre o que achamos de alguns dos modelos de linguagem mais recentes: BERT x T5 x GPT-3. Confira!


BERT: o poder da bidirecionalidade 

A comunidade de IA e NLP foi introduzida ao BERT em outubro de 2018 por meio do paper BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding. O BERT é um poderoso modelo pré-treinado com uso de artigos da Wikipedia. É importante destacar que ele só existe porque antes tivemos o Transformer, responsável por elevar a compreensão de textos a outro patamar graças à possibilidade de processar palavras levando em conta uma sequência de termos.

O BERT é um modelo bidirecional capaz de realizar conexões de contexto analisando a sequência inteira, permitindo que as informações de todos os lados sejam usadas para entendimento. Por exemplo, na frase “I accessed the bank account”, o BERT representaria a palavra “bank” usando “I accessed the” e “account”; já nos contextos unidirecionais, só seria analisado apenas “I accessed the”, e não “account”. Essa forma de interpretação poderia acarretar em erros já que o termo “bank” tem mais de um significado.

A vantagem da bidirecionalidade é conseguir mais contexto de uma palavra do que nos casos unidirecionais, que conseguem levam em conta apenas a palavra anterior ou a palavra posterior. 

O BERT realiza bem uma ampla variedade de tarefas. Exatamente por isso teve resultados surpreendentes nos benchmarks, quebrando recordes de desempenho. No SQuAD v1.1, o BERT alcançou 93,2% na nota F1, que mede a precisão. No GLUE, o alcance foi de 7,6%, melhorando o estado da arte.

Uma das aplicações reais do modelo BERT está na melhoria dos resultados do buscador do Google. Segundo informações da companhia, o modelo pode ajudar a entender melhor uma em cada 10 pesquisas realizadas na ferramenta, em inglês. Para consultas mais conversacionais, em que cada palavra e preposições importam, o buscador será capaz de entender o contexto das palavras na busca, fazendo com que as pessoas possam realizar pesquisas de forma mais natural, melhorando a intenção por trás.

Em uma avaliação geral, ainda há algumas limitações em BERT, como a incapacidade de entender o que uma palavra significa dentro de um contexto - mas essa acaba sendo uma limitação de outros modelos também. Entretanto, as limitações não impedem BERT de se destacar de outras linguagens. A facilidade e rapidez que permite no momento do ajuste fino é um grande trunfo do modelo. Além disso, outro mérito do BERT está na sua capacidade de gerar outros poderosos frutos em NLP. É só lembrar de RoBERTa, o modelo aprimorado realizado pelo Facebook AI, e XLNet, ambos antecessores que performam até melhor que BERT.

 

T5: boas respostas de acordo com o contexto

 

Em outubro de 2019, no paper intitulado Exploring the Limits of Transfer Learning with a Unified Text-toText Transformer, pesquisadores do Google introduziram o T5 (cujo nome completo é Text-To-Text Transfer Transformer), um modelo de rede neural com 11 bilhões de parâmetros que converte tarefas de linguagem em um formato texto para texto. Após ajuste fino, este modelo alcançou estado da arte em mais de 20 tarefas, em benchmarks como GLUE, SuperGLUE, SQuAD e CNN/Daily Mail.

O modelo T5 foi treinado a partir de um conjunto de dados não rotulados chamado Colossal Clean Crawled Corpus (C4). O C4 foi desenvolvido porque, para alcançar a precisão que o projeto exigia, era necessário trabalhar com um conjunto de dados diverso, massivo e de alta qualidade para a modelagem da linguagem.

Até o desenvolvimento do C4, não havia nenhum conjunto de dados que preenchesse os requisitos dos pesquisadores. A Wikipedia, embora tenha conteúdo de qualidade, não cumpria com os critérios por causa do volume e pela falta de uniformidade no estilo dos textos. Outra opção era Common Crawl, que no caso tinha um volume grande e diverso, mas com baixa qualidade.      

A decisão foi desenvolver um dataset a partir do Common Crawl – especialmente por seu volume de dados. Para isso, os pesquisadores realizaram uma versão limpa do Common Crawl ao remover conteúdo ofensivo e descartar sentenças incompletas. Basicamente criar um dataset limpo como a Wikipedia, mas muito maior que ela.

Em alguns dos seus usos, o modelo T5 é capaz de gerar uma resposta válida para uma pergunta dentro de um contexto específico. Para isso, o modelo é alimentado com informações sobre determinado tópico de forma que consiga encontrar a resposta exata dentro daquele universo. No teste que garantiu excelente avaliação no SQuAD, os pesquisadores alimentaram o modelo com um artigo da Wikipédia sobre o Furacão Connie e a pergunta "Em que data ocorreu o Furacão Connie"?. Em seguida, o modelo tinha de encontrar a data "3 de agosto de 1955" no artigo.

Em outro experimento, o modelo T5 foi treinado com o dataset TriviaQA para responder às perguntas em um ambiente fechado, ou seja, sem possibilidade de usar conhecimento externo. O T5 só poderia responder com conhecimentos armazenados em seus parâmetros durante o pré-treino não supervisionado. Produzindo respostas em menos de um segundo, a taxa de acerto pelo T5 neste desafio foi de 50,1%. A própria equipe responsável pelo T5 desafiou o modelo e acabou perdendo o jogo – você pode brincar com o T5 aqui.

Diferentemente dos modelos GPT-2 e GPT-3, que são treinados para prever qual a próxima palavra a partir de um input, a geração de texto do T5 acontece através do método de preenchimento do espaço vazio.

Para preencher o espaço em branco de uma determinada frase, os pesquisadores deveriam especificar o número de palavras desejada para que o T5 cumprisse a tarefa. Por exemplo, o input poderia ser: eu gosto de pizza de __3__ e suco de uva, cabendo ao modelo sugerir os outputs.

O grande diferencial do T5 é ter alcançado uma pontuação quase humana no benchmark de compreensão da linguagem natural SuperGLUE. Esta avaliação foi criada para ser complicada aos modelos de aprendizagem de máquinas, exatamente por isso é um grande mérito do T5 ter superado o desafio. No entanto, há que se ter em mente que o tamanho do T5 pode ser um obstáculo, já que torna mais difícil usá-lo em determinados GPUs.

 

GPT-3: o incrível gerador de textos

 

Criado pelo laboratório OpenAI, o GPT-3 é um modelo de 175 bilhões de parâmetros – 100 vezes maior que sua versão anterior, o GPT-2 –, considerado um modelo gerador de texto. O público foi apresentado ao GPT-3 por meio do paper Language Models are Few-Shot Learners, que traz explicações bastante claras deste modelo não supervisionado. 

O GPT-3 foi treinado com um dataset bastante massivo, com discussões do Reddit, corpus do Wikipedia e textos científicos. Por causa deste treinamento intenso, o GPT-3 consegue executar tarefas sem ajuste fino. Isso quer dizer que basta dar um comando ao GPT-3 que em segundos ele apresentará a solicitação. Algumas dessas tarefas são traduções, resposta a perguntas padronizadas, geração de novos textos segundo um estilo, etc.    

Por não precisar de ajuste fino, uma série de exemplos usando o GPT-3 apareceu por aí. Um dos mais famosos foi a série de conversas que Kirk Ouimet realizou com o modelo sobre os mais diferentes assuntos. O conteúdo foi publicado na conta de Medium de Ouimet. 

Outro exemplo surgiu recentemente, quando o jornal britânico The Guardian publicou um artigo escrito pelo GPT-3. Para isso, primeiro foi dada a instrução "Escreva um breve artigo em torno de 500 palavras. Mantenha a linguagem simples e concisa. Foque no porquê os humanos não têm que temer da IA". O GPT-3 gerou oito ensaios que, depois, foram compilados e editados neste artigo.

Apesar dos super exemplos em torno das tarefas realizadas pelo GPT-3, é importante lembrar que, na hora de testar o modelo nos benchmarks mais famosos, o resultado não foi tão surpreendente assim. No SuperGLUE, o GPT-3 atingiu um resultado quase estado da arte em conjuntos de dados de compreensão de leitura COPA e ReCoRD, mas fica aquém nas análises de palavra no contexto WiC e RACE. Também houveram casos em que o modelo gerou conteúdos preconceituosos e enviesados, e ainda pecou muito no entendimento de contextos.

Apesar disso, o GPT-3 não deixa de ser um avanço gigantesco. Ele foi treinado com o maior dataset até o momento. É importante lembrar que ele possibilita o desenvolvimento de qualquer coisa sem ajuste fino – algo que não acontece em nenhum outro modelo. Ou seja, a simples existência dele é, sim, bastante impressionante.

Como entusiastas de NLP, vemos com bons olhos o desenvolvimento de novos modelos e o aprimoramento deles, o que pode gerar um impacto positivo na criação de melhores assistentes virtuais em um futuro próximo. 

E você, o que acha desses novos modelos de linguagem? Compartilhe sua opinião com a gente!



Fontes:

 

Open Sourcing BERT: State-of-the-Art Pre-training for Natural Language Processing - https://ai.googleblog.com/2018/11/open-sourcing-bert-state-of-art-pre.html

Exploring Transfer Learning with T5: the Text-To-Text Transfer Transformer - https://ai.googleblog.com/2020/02/exploring-transfer-learning-with-t5.html

Understanding searches better than ever before - https://blog.google/products/search/search-language-understanding-bert/

BERT is changing the NLP landscape - https://www.kdnuggets.com/2019/09/bert-changing-nlp-landscape.html


A review of BERT based models - https://towardsdatascience.com/a-review-of-bert-based-models-4ffdc0f15d58 


GPT-3, explained: This new language AI is uncanny, funny — and a big deal - https://www.vox.com/future-perfect/21355768/gpt-3-ai-openai-turing-test-language

Google T5 Explores the Limits of Transfer Learning - https://medium.com/syncedreview/google-t5-explores-the-limits-of-transfer-learning-a87afbf2615b


Redação Nama

Um de nossos colaboradores diretos da Nama escreveu esse post com todo o carinho :)