Falar sobre inteligência artificial é falar sobre termos como "aprendizado de máquina" e "aprendizado de máquina". Com o advento do ChatGPT, o Google respondeu com o Bard, uma inteligência artificial baseada no modelo de linguagem experimental LaMDA e com o objetivo de ser integrada à própria pesquisa do Google.
Em meio à luta para liderar esses modelos de aprendizagem, o próprio Google mostrou um dos possíveis freios para eles: a "desaprendizagem automática". Com o objetivo de nos lembrar que tudo relacionado à IA requer cautela, anunciou um concurso no qual os desenvolvedores serão convidados a fazer exatamente o oposto do que temos visto nos últimos meses: fazer com que os modelos de IA desaprendam o que já sabem.
É no mínimo curioso que uma das empresas com papel central no desenvolvimento de IA faça a seguinte proposta: desenvolver algoritmos de treinamento capazes de eliminar a influência dos subconjuntos por meio dos quais aprendeu. O Google explica que o desaprendizado de máquina é um termo emergente no próprio campo do aprendizado de máquina. Seu objetivo não é fazer com que uma IA esqueça tudo o que sabe, mas remover a influência de determinados conjuntos de aprendizagem para dar a opção de retificar os modelos atuais.
Isso, de acordo com o Google, teria implicações para melhorar a privacidade, mitigar riscos potenciais em modelos e aliviar conjuntos de dados gigantescos. Mais especificamente, o desaprendizado automático pode excluir informações imprecisas ou desatualizadas de modelos treinados, remover dados manipulados ou corrigir erros inerentes ao conjunto de dados do qual o modelo se baseia.
O Google ressalta que a implementação de estratégias de desaprendizagem automática é particularmente complexa: é necessário esquecer os dados do modelo e, ao mesmo tempo, manter a utilidade do modelo. Além disso, devido à falta de literatura sobre o assunto, o desafio de avaliar a eficácia dessas estratégias não é menor. Para impulsionar esse tipo de estratégia, a empresa anuncia o primeiro 'Machine Unlearning Challenge', um evento que faz parte das várias competições do evento NeurIPS 2023. Esse desafio está sendo realizado pela Kaggle, uma subsidiária do Google formada por uma comunidade de big data com foco em aprendizado de máquina. O kit inicial já está disponível no GitHub, e a competição tem um desafio curioso.
Partimos de um cenário em que um modelo foi treinado para prever a idade em imagens com dados faciais. Após o treinamento, um determinado subconjunto das imagens deve ser esquecido para preservar a privacidade das pessoas envolvidas (nesse caso, são modelos sintéticos). Essa não é uma tarefa fácil: há limites para os tempos de execução dos algoritmos apresentados (eles devem ser mais rápidos do que o próprio modelo levaria para aprender as tarefas). Da mesma forma, a qualidade do esquecimento será medida e a utilidade do modelo será respeitada. O desafio é de especial interesse como um prelúdio para futuros modelos capazes de corrigir o aprendizado errôneo ou incorreto em modelos de IA. Somos capazes de ensinar máquinas e programas com conjuntos de dados gigantescos: agora é hora de aprender a reverter o processo.