Serviços O conteúdo desse portal pode ser acessível em Libras usando o VLibras

Pesquisadores do Cidacs desenvolvem algoritmo inédito para integração de big data no Brasil

Ciência e Tecnologia Escrito por Raíza Tourinho  em 3 de Abril de 2018

A experiência de desenvolvimento do Atylmo, o primeiro algoritmo brasileiro exclusivamente voltado para a integração de grandes volumes de dados, foi publicada na edição de março do renomado periódico científico “IEEE Journal of Biomedical and Health Informatics”. O Atylmo foi criado para superar lacuna dos algoritmos atualmente disponíveis para integração de dados (Data Linkage) que possuem uma performance insatisfatória em bases de dados maiores, como as trabalhadas no Cidacs, que envolvem milhões de registros.

O algoritmo foi desenvolvido por pesquisadores da Universidade Federal da Bahia vinculados ao Cidacs (Fiocruz Bahia) quando começou o desafio metodológico de construção da primeira plataforma do Centro, a Coorte de 100 milhões de brasileiros, em 2013. “Além do volume de dados, a complexidade do nosso cenário advém da ausência de atributos-chaves comuns em todas as bases de dados envolvidas. Isto impõe o uso de uma abordagem probabilística que, por sua vez, requer um alto nível de acurácia”, explicam os autores.

Melhor coeficiente de um dos linkages realizados pelo Atylmo

Já na sua segunda versão, os números obtidos pela ferramenta impressionam: a acurácia do linkage varia de 93% a 97% de combinações verdadeiras. Ou seja, a cada 1000 registros que são integrados de diferentes bases de dados (sistemas de informação de saúde e registros de bases de políticas de proteção social, por exemplo) mais de 900 são vinculados corretamente.

Além dos integrantes do Cidacs, o estudo “On the Accuracy and Scalability of Probabilistic Data Linkage Over the Brazilian 114 Million Cohort” é assinado por pesquisadores vinculados à Universidade Federal da Bahia e University College London, sob a liderança de Marcos Ennes Barreto, pesquisador associado às três instituições.

Dados vinculados são gerados a partir do processo de Record Linkage (vinculação de registros, em tradução livre), uma metodologia que calcula a similaridade de dados de forma determinística (quando há uma identificação única, como nos cadastros sociais que utilização o Número de Identificação Social) ou probabilística (por meio de informações variadas, como nome, data de nascimento e nome da mãe). Isso significa que uma nova base de dados foi criada a partir de duas ou mais bases de dados, após uma fase de pré-processamento, através da aplicação de um algoritmo de pareamento, em que informações sobre os mesmos indivíduos são integradas.

 

Saiba mais:

“Challenge in administrative data linkage for research”

“Probabilistic Integration of Large Brazilian Socioeconomic and Clinical Databases”

Pesquisador(es): Mauricio Lima Barreto, Marcos Ennes Barreto, Robespierre Pita, Sandra Reis, Samila Sena, Rosemeire Fiaccone, Leila Amorim.

Download
NewsletterNovidades Cidacs