Estudo permite aprimorar programas de machine learning para predição de propriedades de materiais

Os programas computacionais de aprendizado de máquina (machine learning) se destacam de todos os outros por terem a capacidade de aprender a partir da experiência, ou seja, a partir da interação com um conjunto de dados. Quanto maior a experiência, melhor é o desempenho desses programas ou modelos na tarefa para a qual foram criados. Contudo, erros acontecem e poder detectá-los e resolvê-los é essencial.

Uma equipe de pesquisadores do Centro de Inovação em Novas Energias (CINE) – um Centro de Pesquisa em Engenharia (CPE) constituído por FAPESP e Shell – realizou um estudo sistemático dos erros cometidos por um modelo de aprendizado de máquina que tinha sido criado para predizer propriedades físico-químicas de um grupo de materiais. O trabalho, publicado no Journal of Chemical Information and Modeling, aumentou o entendimento dos erros e propôs soluções para tornar modelos desse tipo mais precisos.

Nova tecnologia mapeia milhões de espécies da Amazônia

Primeira colheitadeira automatizada para extração de açaí é desenvolvida por startup de Roraima

“Os resultados apresentados podem tornar o uso de métodos de aprendizado de máquina na ciência de materiais mais assertivo e menos custoso”, diz Luis Cesar de Azevedo, um dos autores do artigo que reporta o estudo, que teve apoio da FAPESP.

De fato, existe um interesse crescente no uso de ferramentas de aprendizado de máquina com o objetivo de encontrar materiais ou moléculas que tenham as propriedades desejadas e, portanto, possam cumprir com eficiência determinadas funções em dispositivos ou sistemas. No programa de Ciência Computacional de Materiais e Química (CMSC) do CINE, trabalhos sobre aprendizado de máquina vêm sendo realizados com o objetivo de enfrentar a necessidade de desenvolver ou encontrar materiais eficientes para a geração e o armazenamento de energia.

Para explorar o conjunto praticamente infinito de moléculas possíveis, métodos experimentais, nos quais é necessário sintetizar e caracterizar cada molécula, são impensáveis. Por outro lado, métodos computacionais tradicionais, apesar de serem menos custosos e demorados, tampouco são viáveis em alguns casos. Para ter uma ideia, enquanto simular uma única molécula por um método convencional como a Teoria do Funcional da Densidade pode levar alguns dias, analisar dezenas de milhares de compostos usando um programa de aprendizado de máquina pode tomar poucos segundos.

Para isso, é necessário desenvolver um algoritmo (um conjunto de instruções computacionais) e utilizar uma base de dados previamente obtida pela comunidade científica por meio de métodos experimentais ou teóricos. O algoritmo deve, então, fazer seu treinamento, interagindo com os dados e reconhecendo padrões. O resultado dessa experiência é um modelo que será capaz de predizer as propriedades de materiais e moléculas que não constavam na base de dados inicial.

“Apesar de existirem modelos com uma alta acurácia média em alguns domínios, esses modelos podem cometer erros discrepantes [outliers] para algumas moléculas”, explica Azevedo, que é membro do CMSC no CINE. “Este trabalho demonstrou que uma visão detalhada do erro, decompondo-o em erros sistemáticos [viés] e aleatórios [variância], pode mostrar características específicas do desempenho de predição.”

O trabalho também identificou que a maioria dessas imprecisões acontece com moléculas planares (aquelas que possuem ângulos mais abertos e maior distância entre seus átomos).

Felizmente, o artigo mostrou que é possível reduzir os erros utilizando uma combinação de modelos de aprendizado de máquina (ensemble) para predizer as propriedades dos materiais. Além disso, segundo os autores, ao preparar o treinamento do algoritmo é necessário realizar uma seleção mais criteriosa dos dados e dos descritores (os valores computacionais usados para descrever as moléculas do banco de dados).

O estudo foi realizado no âmbito da pesquisa de mestrado em ciência da computação que Azevedo está realizando na Universidade Federal do ABC (UFABC), com a orientação do professor Ronaldo Prati. O trabalho contou com a colaboração de outros membros do CINE: os professores Juarez L. F. Da Silva (IQSC-USP) e Marcos Quiles (Unifesp), e o doutorando Gabriel A. Pinheiro (Unifesp).

O artigo Systematic Investigation of Error Distribution in Machine Learning Algorithms Applied to the Quantum-Chemistry QM9 Data Set Using the Bias and Variance Decomposition pode ser lido em: https://pubs.acs.org/doi/10.1021/acs.jcim.1c00503.

Fonte: Agência FAPESP

Estudo permite aprimorar programas de machine learning para predição de propriedades de materiais

Nova tecnologia mapeia milhões de espécies da Amazônia

Primeira colheitadeira automatizada para extração de açaí é desenvolvida por startup de Roraima

Mais Notícias

Neurociência explica por que cães molhados se sacodem para secar, Vi na Rede Social,

Pesquisadores desenvolvem bioplástico inovador que se biodegrada até 15 vezes mais rápido que papel

Especialistas afirmam que um solo saudável combate a insegurança alimentar e reduz efeitos do clima”

Vaporização do plástico pode revolucionar processo de reciclagem do material

Estudante de 17 anos desenvolve máquina que remove poluição de microplásticos do solo

Microcrustáceo recém-descoberto pode “medir” contaminação de águas amazônicas

Milhares de novas espécies de plantas são encontradas em 33 lugares poucos conhecidos pela ciência

Estudo da NASA aponta quais cidades do Brasil serão engolidas com aumento acelerado do nível do mar

Camada de gelo na Antártida pode colapsar em breve, alertam cientistas

Queimada iniciada em pasto atinge Estação Ecológica de Murici, em Alagoas

Troca de gestão na APA de Massambaba tem motivação política, afirmam ambientalistas

Novo Código de Mineração propõe aprovação automática de milhares de processos parados na ANM

Mais Acessados

Inpe recebe currículos para o Programa Queimadas com salários que chegam a R$ 10,4 mil

A surpreendente descoberta de pirâmides na Amazônia

Amazônia: os 15 animais mais exóticos da floresta

32 frutas da Amazônia que você provavelmente não conhecia (ou que não sabia que eram da Amazônia)

ICMBio abre vagas em 11 cursos gratuitos online com temas diversos

Posts recentes

Comentários

Pesquisar

Mais lidas

Antes tida como erva daninha, agora “super planta” pode ser importante solução para culturas na seca

Indústria de Semicondutores em Manaus: Inovação, Compensação e Sustentabilidade

O que está acontecendo e o que causou os incêndios no Pantanal? Marina Silva se pronuncia

A Lei de Informática, acertos e benefícios para a economia da Amazônia

Aos candidatos à Câmara e Prefeitura Municipal de Manaus 2025-2029

Estudo permite aprimorar programas de machine learning para predição de propriedades de materiais

Leia também

Mais Notícias

Mais Acessados

Posts recentes

Comentários

Pesquisar

Mais lidas