O que é self supervised learning no contexto de IA?

Neste post vamos falar um pouquinho sobre um termo muito presente nos estudos de Inteligência Artificial. O self supervised learning ou aprendizado supervisionado é um tipo de aprendizado de máquina em que um modelo é treinado usando dados rotulados. Isso significa que os dados de treinamento incluem exemplos de entrada e saída desejada. Por exemplo, em um problema de classificação, os dados de treinamento podem incluir imagens de gatos e cães, juntamente com rótulos que indicam se cada imagem é de um gato ou de um cão. Isso no nível mais elementar da proposta de self supervised learning.

O modelo de aprendizado supervisionado aprende a mapear as entradas para as saídas desejadas. Uma vez treinado, o modelo pode ser usado para fazer previsões sobre novos dados. Por exemplo, o modelo de classificação pode ser usado para classificar novas imagens de gatos e cães.

O aprendizado supervisionado é um dos tipos mais comuns de aprendizado de máquina e é usado em uma ampla variedade de aplicações, como reconhecimento de fala, visão computacional e processamento de linguagem natural. Muitas das IAs que usamos hoje utilizam esse método. Mas é preciso entender algo essencial: como funciona o self supervised learning?

O processo de aprendizado supervisionado envolve as seguintes etapas:

  1. Os dados de treinamento são coletados e rotulados.
  2. Um modelo de aprendizado supervisionado é escolhido.
  3. O modelo é treinado usando os dados de treinamento.
  4. O modelo é avaliado usando dados de teste.
  5. O modelo é usado para fazer previsões sobre novos dados.

Alguns exemplos que podemos trazer para este texto são:

  • Classificação: um tipo de aprendizado supervisionado em que o modelo é treinado para classificar dados em categorias. Por exemplo, um modelo de classificação pode ser usado para classificar e-mails em spam ou não spam.
  • Regressão: um aprendizado supervisionado em que o modelo é treinado para prever um valor numérico. Por exemplo, um modelo de regressão pode ser usado para prever o preço de uma casa com base em seus recursos.
  • Detecção de anomalias: um self supervised learning em que o modelo é treinado para identificar dados que são atípicos. Por exemplo, um modelo de detecção de anomalias pode ser usado para identificar transações fraudulentas em cartões de crédito.

As vantagens naturais que os sistemas de self supervised learning são muitas, mas podemos destacar a alta precisão, a versatilidade e interpretabilidade – que significa que é possível entender como o modelo está fazendo suas previsões.

Mas, nem tudo são flores quando tratamos desse tema. Há desvantagens também. O aprendizado supervisionado requer grandes quantidades de dados rotulados, o que pode ser difícil e demorado de obter; sendo que estes modelos podem ser sensíveis a ruído nos dados de treinamento, o que pode levar a previsões imprecisas. Fora o fato de que tais sistemas não podem lidar com dados não rotulados.

No entanto, é um tema que vale a pena ser pesquisado e entendido mais a fundo. Para tanto, segue uma excelente sugestão de leitura:

MARCUS, Gary; DAVIS Ernest. Rebooting AI: building artificial intelligence we can trust. New York: Pantheon Books 2019.