Serviços O conteúdo desse portal pode ser acessível em Libras usando o VLibras

Perguntas e Respostas Frequentes - Grand Challenge Exploration

GCE em 3 de Abril de 2018

1. O que é a Coorte 100M SINASC-SIM?

A Coorte 100M SINASC-SIM é uma base de dados para pesquisa em saúde produzida pelo Cidacs. É uma base com dados longitudinais de indivíduos brasileiros, construída a partir de dados administrativos de sistemas sociais e de saúde.

2. Que dados estão disponíveis na Coorte 100M SINASC-SIM?

Uma descrição das variáveis da base de dados está disponível no dicionário de dados. As informações são relacionadas à moradia, trabalho, escolaridade, renda, saneamento, deficiências, situação da população em situação de rua, indígenas, quilombolas, composição familiar, benefícios do Bolsa Família, nascimentos e óbitos de indivíduos, entre outras. Os dados se referem aos anos de 2006 a 2015.

3. Qual é a qualidade dos dados da Coorte 100M SINASC-SIM?

Todas as bases originais recebidas no CIDACS foram pré-processadas, incluindo limpeza, padronização e harmonização dos dados.

4. Como poderei acessar a Coorte 100M SINASC-SIM caso seja selecionado no GCE?

O pesquisador deverá preencher um formulário de requisição de pesquisa, com detalhes do pesquisador e do projeto, um plano de dados e um parecer ético favorável. O pesquisador deverá aceitar as regras de privacidade e políticas de segurança de informação, e assinar um termo de responsabilidade de acesso aos dados. Após estes procedimentos, ele poderá acessar os dados localmente no Cidacs ou remotamente via VPN (Rede Particular Virtual/Virtual Private Network).

5. O que significa dados vinculados (Linkage)?

Dados vinculados são gerados a partir do processo de Record Linkage (vinculação de registros, em tradução livre) entre duas bases de dados, em que informações sobre os mesmos indivíduos são integradas. Aplica-se um algoritmo  que calcula a similaridade entre os dados identificadores do indivíduo, seja de forma determinística (quando há uma identificação única, como nos cadastros sociais que utilizam o Número de Identificação Social), ou de forma probabilística (por meio de informações variadas, como nome, data de nascimento e nome da mãe).

6. Onde posso obter informação sobre a qualidade do linkage?

O documento de metadados da base de dados contém as medidas de qualidade do linkage, incluindo sensibilidade, especificidade, acurácia e ponto de corte. Um dos métodos utilizados no linkage (AtyImo) está descrito em um artigo publicado (http://ieeexplore.ieee.org/document/8293793/).

7. O que é anonimização de dados?

A anonimização é um processo pelo qual os dados pessoais são alterados de maneira que o indivíduo não possa ser identificado direta ou indiretamente.

8. Os dados são individualizados ou agregados?

A Coorte 100M SINASC-SIM contém dados individualizados, desidentificados e anonimizados.

9. Eu posso solicitar outros datasets (base de dados) ao Cidacs, se for selecionado?

A única base disponibilizada para o GCE é a Coorte 100M SINASC-SIM. Recortes dessa Coorte com menos anos, variáveis ou registros podem ser solicitadas pelos pesquisadores selecionados.

10. Eu posso levar a Coorte 100M SINASC-SIM para casa ou para o trabalho, se for selecionado?

De acordo com as normas de privacidade e segurança de dados do CIDACS, não é permitida a saída de dados do ambiente de análises do Centro. Deste modo, a Coorte 100M SINASC-SIM só poderá ser acessada localmente no Cidacs ou remotamente através de VPN.

11. Qual é o tamanho da Coorte 100M SINASC-SIM?

A versão mais atual da Coorte 100M SINASC-SIM possui aproximadamente 114 milhões de registros, 400 variáveis e ocupa 2 terabytes (armazenamento em disco).

12. Qual é a configuração mínima de máquina para se conseguir analisar a Coorte 100M SINASC-SIM?

A configuração irá depender do tipo de processamento. Aconselha-se sempre abrir e processar partes menores da base. Testes anteriores com bases semelhantes (número grande de registros e variáveis) indicam que análises descritivas na base inteira exigem pelo menos 256 GB de memória RAM. Os modelos de análise de dados envolvendo pareamento (a exemplo do PSM – Propensity Score Matching) que não possuem a capacidade de processamento paralelo podem exigir até 1TB de memória RAM.

13. Que ferramentas estarão disponíveis para análise de dados?

O Cidacs oferece um ambiente de análises com máquinas virtuais com diversas configurações que podem ser alocadas de acordo com o plano de análise. As seguintes ferramentas estarão disponíveis: R, Python e STATA*.

14. É possível usar R ou Python para analisar os dados da coorte?

Testes anteriores com bases semelhantes (número grande de registros e variáveis) indicam que a coorte é muito grande para a maioria dos algoritmos de distribuições básicas livres de R e Python. Sugerimos repartir a base em partes menores.

15. É possível usar STATA para analisar os dados da coorte?*

O Cidacs vai disponibilizar o STATA versão 15, com capacidade de processamento paralelo (16, 24 ou 64 núcleos de CPU). Sugerimos repartir a base em partes menores.

16. Quais são os procedimentos de segurança de acesso aos dados?

Os pesquisadores selecionados devem se comprometer ao uso ético e seguro dos dados, que inclui utilizar os dados somente para a finalidade da pesquisa estabelecida, não distribuir os dados a terceiros, e minimizar os riscos de acesso aos dados por pessoas não autorizadas. Deverá também assinar o devido termo de responsabilidade.

17. A Coorte 100M SINASC-SIM contém todos os dados ou variáveis das bases originais (fontes de dados)?

Não, a Coorte 100M SINASC-SIM contém apenas um subconjunto das variáveis originais, que são de interesse para pesquisa em saúde. No entanto, variáveis derivadas das originais foram adicionadas.

18. Posso receber uma amostra dos dados?

O Cidacs não poderá disponibilizar uma amostra de dados. Porém, o dicionário de dados, assim como outras informações podem ser encontrados nos links disponibilizados.

19. Ao final do projeto, posso ter uma cópia da base de dados derivada da análise da pesquisa?

Não. A base de dados derivada da análise se tornará um novo produto do Cidacs, reconhecendo o direito dos co-criadores para primeira utilização. Após doze meses do término do projeto, ficará disponível para reúso levando em consideração aspectos éticos, regulatórios e de interesse público.

20. Posso permitir o reúso da base de dados derivada da análise da pesquisa, ao final do projeto?

Esses dados se tornarão um novo produto do Cidacs. Assim, você ou um novo pesquisador poderá reusar esse novo produto de dados através da submissão de um novo projeto de pesquisa ao Cidacs.

21. Quem será guardião da base de dados derivada da análise da pesquisa, ao final do projeto?

O Cidacs será o único guardião dos dados derivados da análise da pesquisa ao final do projeto. Os metadados desse novo produto deverão especificar a sua origem.

22. O Cidacs vai participar da seleção dos candidatos do GCE?

Não. O processo de seleção é feito pela Fundação Bill Melinda Gates, com apoio do CNPq, DECIT/MS e FAP’s.

23. O Cidacs vai participar dos projetos de pesquisa?

Não. O Cidacs vai apenas fornecer acesso à Coorte 100M SINASC-SIM.  

24. É possível fazer linkage da Coorte 100M SINASC-SIM com dados do pesquisador?

Não. Não é possível fazer o linkage porque o dataset disponibilizado, no ambiente de análises, é desidentificado e anonimizado.

25. Eu posso solicitar que o Cidacs faça o linkage dos meus dados de pesquisa com a Coorte 100M SINASC-SIM no ambiente seguro?

Não, não será possível realizar o linkage dos dados do pesquisador com a Coorte 100M SINASC-SIM no ambiente seguro. Caso o pesquisador possua seus próprios dados, ele poderá tentar fazer um merge de dados, utilizando variáveis comuns às duas basespor exemplo, município de residencia.

26. Como posso entrar em contato com o Cidacs para tirar dúvidas sobre a Coorte 100M SINASC-SIM?

Você pode entrar em contato com o Cidacs através do e-mail gcecidacs@fiocruz.br. Informações iniciais, incluindo este FAQ, estarão disponíveis aqui.

 

*Será disponibilizado apenas uma licença do software STATA, a ser utilizada de acordo com a demanda. Caso queiram, os possíveis interessados podem adquirir licenças individuais e solicitar a  instalação no ambiente virtual. 

NewsletterNovidades Cidacs