Serviços   O conteúdo desse portal pode ser acessível em Libras usando o VLibras

Dataset disponibilizado

GCE em 23 de agosto de 2020

O CIDACS está participando da segunda chamada GCE Brasil em ciência de dados como um dos provedores de dados, disponibilizando registros dos indivíduos do Baseline da Coorte de 100M, vinculados ao SINASC (Sistema de Informações sobre Nascidos Vivos), SIM (Sistema de Informações sobre mortalidade) e/ou SISVAN-Antropometria (Sistema de Vigilância Alimentar e Nutricional).

O Baseline da Coorte 100M SINASC-SIM-SISVAN será uma base de dados (dataset) para pesquisa em saúde. Será um novo produto gerado pelo Cidacs através da vinculação (linkage) de dados de indivíduos do Cadastro Único (CadÚnico) com as bases do SINASC, SIM e SISVAN-Antropometria.

  • O CadÚnico é um cadastro nacional para identificação de indivíduos pertencentes à famílias de baixa renda para inclusão em programas sociais do governo federal;
  • O SINASC é o cadastro de registros de nascimento;
  • O SIM é o cadastro de registros de óbito;
  • SISVAN-Antro é o sistema para avaliação e monitoramento do estado nutricional da população brasileira.

 

O Baseline da Coorte 100M SINASC-SIM-SISVAN será constituído por indivíduos pertencentes a famílias de baixa renda (que possuem renda total mensal de até 3 salários mínimos ou renda per capita de meio salário mínimo), vinculados às bases de Saúde. Para esta população existem informações socioeconômicas, demográficas, de moradia, saneamento, remuneração e trabalho, despesas e escolaridade, além de informações de nascimentos: dados do recém-nascido, dados de gravidez e parto da mãe, dados de óbitos e dados antropométricos como peso e altura.

 

Plataforma

No Cidacs, criou-se uma plataforma de dados para uso em pesquisa em saúde. Esta plataforma habilita o recebimento, armazenamento, processamento, preservação e disponibilização de grandes volumes de dados (bigdata). Esta inovação propicia agilidade na produção científica, cujas evidencias podem ser obtidas mais rapidamente, com baixos custos. Essa agilidade tem o potencial de impactar de forma decisiva na orientação de intervenções em saúde e em politicas públicas sociais, melhorando as condições de vida da população brasileira. Nesta plataforma, dados administrativos governamentais são processados e vinculados resultando em bases prontas para responder a questões científicas de saúde. Isto significa em aplicar procedimentos de limpeza, padronização e harmonização aos dados, integrando-os de forma longitudinal para acompanhamento dos indivíduos ao longo do tempo.

 

Produção

O Baseline da Coorte de 100M foi construído a partir dos backups das bases do Cadastro Único para Programas Sociais do Governo Federal (Legislação Cadastro Único – Decreto nº 6.135, de 26 de junho de 2007).

Para essa construção foram necessárias etapas de preparação (que incluem limpeza e tratamento dos dados), padronização das variáveis do tipo data e categóricas e harmonização de variáveis. Além de duplicação de registros, análise e remoção de registros inválidos: registros que apresentavam campos vazios em todas variáveis de preenchimento obrigatório ou que possuíssem datas inválidas, impossibilitando a definição de uma data para entrada na coorte. Algumas variáveis de datas do CadÚnico, como data de cadastro da família, data de cadastro do membro ou data de atualização do membro foram utilizadas para definir uma data de entrada na coorte, ou seja, a data que informa a primeira vez que o indivíduo apareceu no CadÚnico. Assim, o Baseline da Coorte apresenta informações socioeconômicas, demográficas, de moradia, saneamento e escolaridade para o momento de entrada do indivíduo.

O Baseline da Coorte de 100M é composto por 114.008.317 indivíduos, cujo ano de entrada abrange o período de 2001 a 2015. Dados do SIM (2001-2015) e SINASC (2001-2015) foram vinculados de forma não-determinística a essa população, compondo as bases da primeira chamada.

O Baseline da Coorte de 100M será atualizado com novos anos do CadÚnico, de 2016 a 2018 e vinculados aos dados também atualizados do SIM (2016-2018) e SINASC (2016-2018). Além disso, será feita a vinculação entre do Baseline da Coorte de 100M com os dados do SISVAN-Antropometria (2008-2017), formando assim a base Baseline da Coorte 100M – SINASC – SIM – SISVAN.

Dessa forma, a população considerada será de indivíduos do Baseline da Coorte de 100M vinculados a pelo menos uma das bases de saúde (SIM, SINASC e SISVAN). Assim, além das variáveis relacionadas ao Baseline, será possível também ter informações relacionadas ao nascimento, gravidez, dados de óbitos e dados antropométricos.

 

Fontes de Dados

Uma descrição das fontes de dados que deram origem a coorte pode ser encontrada nos links abaixo

Cadastro Único (CadÚnico)

Registros de indivíduos que se candidatam a programas sociais, com informações sobre condições sócio-econômica e de domicílio.

SIM – Sistema de Informações de Mortalidade (2001-2015)

Informações atualizadas de óbitos obtidos a partir da Declaração de óbitos.

SINASC – Sistema de Informações de Nascidos Vivos (2001-2015)

Informações atualizadas de nascidos vivos obtidos a partir da Declaração de Apresentação.

SISVAN – Sistema de Vigilância Alimentar e Nutricional (2008-2017)

Informações para avaliar e monitorar o estado nutricional e alimentar da população brasileira.
Mais informações:

NewsletterNovidades Cidacs