Uma projeção do Epoch AI, um instituto de pesquisa virtual, aponta que as inteligências artificiais (IAs) podem permanecer sem bases de dados para treinamento em 2029. Isso ocorreria porque, segundo os cientistas, o tamanho do conjunto de dados necessários para treinar uma IA se igualará ao volume de texto público online — limitando, portanto, o treinamento de novos modelos e de modelos mais complexos.
Outro fator complicador é que os veículos de mídia, uma vez que jornais e site de notícias, estão restringindo cada vez mais o uso do teor gerado por eles e impedindo, entre outras coisas, que o material possa ser usado para cevar e treinar a IA.
Um cláusula publicado na revista Nature na quarta-feira (11) debate o tema e aponta que as principais empresar do ramo já estão elencando soluções para o esgotamento eminente. Conforme perfeito por Nicola Jones, a tendência é de que a saída seja somar o potenciais dos bancos de dados privados com os textos públicos.
Segundo o cláusula, uma saída por ser o uso de mensagens trocadas no WhatsApp e transcrições de vídeos de YouTube, do qual entrada é guardado às empresas donas desses produtos. Outra solução parece ser o uso de conjuntos mais restritos que parecem estar sempre em expansão, uma vez que os dados astronômicos. Uma terceira saída seria fabricar dados artificialmente, o que esbarraria num problema de precisão.
“O problema com dados sintéticos é que loops recursivos podem solidificar falsidades, ampliar conceitos errôneos e, em universal, degradar a qualidade do tirocínio”, afirma Jones, citando um estudo de 2023.
ChatGPT, Gemini e Copilot: veja uma vez que usar perceptibilidade sintético no trabalho