Serviços O conteúdo desse portal pode ser acessível em Libras usando o VLibras

Plataforma de dados

No Cidacs, criou-se uma plataforma de dados para uso em pesquisa em saúde. Esta plataforma habilita o recebimento, armazenamento, processamento, preservação e disponibilização de grandes volumes de dados (big data). Esta inovação propicia agilidade na produção científica, cujas evidências podem ser obtidas mais rapidamente, com baixos custos. Essa agilidade tem o potencial de impactar de forma decisiva na orientação de intervenções em saúde e em políticas públicas sociais, melhorando as condições de vida da população brasileira. Nesta plataforma, dados administrativos governamentais são processados e vinculados resultando em bases prontas para responder a questões científicas de saúde. Isto significa em aplicar procedimentos de limpeza, padronização e harmonização aos dados, integrando-os de forma longitudinal para acompanhamento dos indivíduos ao longo do tempo.

A Plataforma de Dados compreende a infraestrutura computacional necessária para consumir, gerir e processar os dados no Cidacs. Ela oferece serviços de produção, curadoria e acesso aos dados. A produção de dados envolve o armazenamento, a preparação, a transformação, a vinculação das bases e extração de datasets, usando uma infraestrutura de computação distribuída (cluster). A curadoria é responsável pela aprovação dos projetos de pesquisa, pelo recebimento das bases originais e por catalogar e arquivar os datasets usando metadados. O acesso aos datasets disponibilizados é feito localmente no Cidacs ou através de acesso remoto ao ambiente de análises. A plataforma de dados emprega alto nível de segurança na produção de dados para garantir a confiabilidade, integridade e disponibilidades dos dados, além de garantir a privacidade e o uso ético dos dados.

Produção de dados

As bases de dados do Cidacs são construídas a partir de dados administrativos de vários sistemas sociais e de saúde do governo do Brasil. Cada base de dados governamental que é entregue ao Cidacs passa por diferentes procedimentos até estar habilitada para o uso em pesquisa científica. Para que esses dados sejam utilizados em estudos científicos, é necessário que haja um tratamento, por meio de procedimentos de limpeza, padronização e harmonização. Assim, cada base de dados é estudada em sua especificidade, de modo que o tratamento e, posteriormente, a integração das diferentes bases, possibilitem que os dados respondam às questões científicas dos pesquisadores.

Os procedimentos de produção de datasets são realizados em dados identificados, e, portanto, são realizados dentro de uma Sala Segura, que assegura a privacidade da informação. Os processos iniciais consistem em trabalhos de manipulação com técnicas de ETL (extração – tratamento – carga) e de avaliação da qualidade dos dados e descritivas no âmbito das demandas dos projetos de pesquisa.

Dentre os processos realizados com os dados, há a vinculação (ou integração) dos dados (data linkage), processo fundamental para possibilitar estudos que permitam entender e responder a questões científicas complexas com maior detalhe e precisão. Dados vinculados são gerados a partir do processo de Record Linkage (vinculação de registros) entre duas bases de dados, em que informações sobre os mesmos indivíduos são integradas. Aplica-se um algoritmo que calcula a similaridade entre os dados identificadores do indivíduo, seja de forma determinística (quando há uma identificação única, como nos cadastros sociais que utilizam o Número de Identificação Social), ou de forma probabilística (por meio de informações variadas, como nome, data de nascimento e nome da mãe)

No Cidacs criamos algoritmos avançados para a vinculação de grandes volumes de dados com alto grau de acurácia, como o Atylmo. Uma vez vinculados os dados, são realizadas avaliações de qualidade utilizando métodos estatísticos apropriados. Todas as vinculações são acordadas no âmbito da Curadoria e no Comitê Científico e executadas pelo Núcleo de Produção de Dados, com o apoio técnico da Segurança e Tecnologia da Informação.

Cada base possui especificidades próprias e tem potencial distinto de responder às questões científicas dos pesquisadores, de modo que diversos algoritmos de linkage e validação são testados a fim de encontrar o mais adequado para tratar os dados de acordo com a finalidade proposta.

Curadoria

Uma das fases do processo de curadoria é o recebimento das bases de dados originais, a qual se dá dentro de um alto nível de segurança da informação. As bases de dados têm os dados criptografados para garantir sigilo das informações e são transportadas em disco externo especializado, que implementa criptografia nativa com código de acesso em teclado próprio, de conhecimento somente do portador. As bases são então entregues ao responsável pela Curadoria Digital do Centro, que gera um termo de recebimento e guarda o disco em cofre com proteção contra arrombamento, incêndio e inundação, dentro de ambiente seguro e monitorado no Cidacs denominado de “Sala Segura”.

Outra fase da Curadoria é a disponibilização de datasets aos pesquisadores. A curadoria garante que os datasets requisitados para pesquisa são validados e anonimizados. A Anonimização é o processo pelo qual os dados sensíveis são alterados de maneira que o indivíduo não possa ser identificado direta ou indiretamente. O Cidacs emprega técnicas de de-identificação como supressão, que retira variáveis que possam identificar diretamente um indivíduo, e generalização, que agrupa indivíduos a partir de características comuns. Os datasets anonimizados são catalogados com metadados e preservados pela Curadoria.

Acesso

O acesso aos datasets anonimizados são autorizados aos pesquisadores vinculados aos projetos no Cidacs por duas formas: presencialmente, por meio de acesso aos servidores no centro; ou remotamente por VPN (Virtual Private Network, Rede Virtual Privada). Todas as bases geradas no Cidacs têm o acesso controlado, só permitido mediante assinatura do termo de responsabilidade e aplicação de boas práticas de segurança pelos pesquisadoresA identificação de indivíduos na base é feita através de códigos aleatórios distintos dos originais, prevenindo a re-identificação dos dados. O Cidacs acredita que a geração de conhecimento deve ser livre e está estudando as melhores formas de aplicar a Abertura dos Dados (Open Data) nos datasets produzidos no Centro.

Segurança

A segurança física dos dados é garantida através de uma Sala Segura, que é um ambiente desconectado das demais áreas do Cidacs e sem acesso à internet, com monitoramento por circuito fechado de TV, controle de acesso duplo em todas as portas (cartão e biometria), estrutura de paredes reforçada com portas corta-fogo, eclusa com intertravamento (somente permite a abertura de uma porta com o fechamento das demais), e sistema de antipassback (bloqueia a saída de usuários que não registraram a entrada). O número de usuários com acesso a Sala Segura é restrito, sendo que todos eles recebem orientações e sensibilização em Segurança da Informação, além de assinar termos de responsabilidade e sigilo. A Sala Segura é conectada por meio de uma fibra óptica exclusiva e criptografada ao cluster computacional do Cidacs.

Um produto: a Coorte de 100 milhões de brasileiros

Um exemplo dos produtos desenvolvidos nesta plataforma é a Coorte de 100M de brasileiros, utilizada atualmente em 20 projetos do Cidacs. Esta Coorte é constituída por 114 milhões de indivíduos pertencentes a famílias de baixa renda (que recebem renda per capita de menos de 3 salários mínimos) que são elegíveis para programas sociais do governo federal, representando cerca de 55% da população brasileira. Para esta população existem informações socioeconômicas, demográficas, de moradia, saneamento, remuneração e trabalho, despesas, escolaridade, composição familiar, nascimentos e mortalidade.
Esta população foi obtida a partir do Cadastro Único, instrumento do governo federal que cadastra e caracteriza as famílias de baixa renda. Considerou-se como critério de inclusão na Coorte, a data de cadastro do indivíduo. A extração foi obtida por meio do nome do indivíduo, nome da mãe, data de nascimento, número de identificação social (NIS) e a data de cadastro das famílias no Cadastro Único. Assim, foram identificados 114.001.661 de indivíduos e 40.542.929 de famílias. Para constituir as informações longitudinais foram extraídos os dados atualizados entre o período de 2006-2015. As atualizações cadastrais ocorrem para os beneficiários de programas sociais e para os indivíduos com alteração na composição familiar.
À esta população foram vinculados os dados das famílias beneficiárias do Programa Bolsa Família (PBF) por meio do NIS. Os dados sobre os beneficiários do PBF foram extraídos das folhas de pagamento do programa (2004-2015) considerando os titulares. Dados do SINASC (2001-2015) e SIM (2000-2015) foram também vinculados a esta população. Adicionalmente, foram vinculados dados do programa Minha Casa Minha Vida, e Condicionalidades de Saúde.

 

 

Confira abaixo alguns dos datasets que integram nossa Plataforma de Dados

NewsletterNovidades Cidacs