Innovation in health: the implementation of a data lake for the storage, systematization and availability of health data in Brazil

Authors

DOI:

https://doi.org/10.11606/issn.2178-2075.incid.2024.213345

Keywords:

database management system, secondary data analysis, database directory

Abstract

This article aims to present the problem related to the storage, systematization, and availability of health data in Brazil and an innovative solution: the implementation of a data lake with data from the health sector. The data lake was built from three steps: (1) planning and prioritizing the databases to be imported into the repository; (2) extraction, loading, and treatment of these bases, with the support of Apache Airflow and Dremio tools; and (3) application of use. The results show the platform’s ability to store a large volume of data (Big Data), as well as to provide intuitive navigation, facilitating the understanding and the handling of data by health analysts. Note also      that public managers and researchers recognize the tool’s contributions to their decisions and its potential for the development of other intelligence solutions for data analysis in the health area. The solution presented aims to contribute to the management and planning of health policies, allowing quick and broad access to diverse data that      support decision-making in the health area with more agility and security.

Downloads

Download data is not yet available.

Author Biographies

  • Daniel do Prado Pagotto, Universidade de Brasília

    Doutorando em Administração pelo PPGA-UnB, mestre em Administração com foco em Estratégia, Empreendedorismo e Inovação pela Universidade Federal de Goiás

  • Wanderson da Silva Marques, Secretaria de Estado da Saúde de Goiás

    Graduado em Sistemas de Informação pelo Instituto Federal de Educação, Ciência e Tecnologia de Goiás. Atualmente é coordenador de ciência de dados na Secretaria de Estado da Saúde de Goiás.

  • Denise Santos de Oliveira, Universidade Federal de Goiás

    Doutora em Administração pela Universidade de Brasília, Mestra e Graduada em Administração pela Universidade Federal de Goiás.

  • Vicente da Rocha Soares Ferreira, Universidade Federal de Goiás

    Doutor em administração pela Universidade de Brasília - UnB. Atualmente é professor dos cursos de graduação e pós-graduação em administração da FACE/UFG e Secretário de Planejamento, Avaliação e Informações Institucionais da UFG. 

  • Vinicius Nunes de Azevedo, Diagson Diagnósticos Ltda

    Graduado em administração de empresas e medicina. 

  • Cândido Vieira Borges Júnior, Universidade Federal de Goiás

    Ph.D. em administração pela HEC Montréal, Canadá, com Pós-Doutorado pela EAESP-FGV. Professor do Programa de Pós-Graduação em Administração da Faculdade de Administração, Ciências Contábeis e Ciências Econômicas (FACE/UFG).

References

ARAÚJO, V. S.; ZULLO, B. A.; TORRES, M. Big data, algoritmos e inteligência artificial na Administração Pública: reflexões para a sua utilização em um ambiente democrático. A&C-Revista de Direito Administrativo & Constitucional, Curitiba, v. 20, n. 80, p. 241-261, 2020. Disponível em: http://dx.doi.org/10.21056/aec.v20i80.1219. Acesso em: 10 out. 2023.

BASE DOS DADOS. Quem somos. 2022. Disponível em: https://basedosdados.org/quem-somos. Acesso em: 09 abr. 2022.

BATISTA, A. G.; SANTANA, V. S.; FERRITE, S. Registro de dados sobre acidentes de trabalho fatais em sistemas de informação no Brasil. Ciência & Saúde Coletiva, Rio de Janeiro, v. 24, p. 693-704, 2019. Disponível em: https://www.scielosp.org/article/csc/2019.v24n3/693-704/pt/. Acesso em: 09 abr. 2022.

BRASIL. Contratar plataforma de análise de dados para suporte a políticas públicas (GovData). 05 jan. 2023. Disponível em: https://www.gov.br/pt-br/servicos/contratar-plataforma-de-analise-de-dados-para-suporte-a-politicas-publicas-govdata. Acesso em: 10 de out. 2023.

BRASIL. MINISTÉRIO DA SAÚDE. Gabinete do Ministro. Portaria nº 1.434, de 28 de maio de 2020. Disponível em: https://www.in.gov.br/en/web/dou/-/portaria-n-1.434-de-28-de-maio-de-2020-259143327. Acesso em: 07 de abr. 2022.

BRASIL. MINISTÉRIO DA SAÚDE. Sistemas de informação em saúde. 2021. Disponível em: https://www.gov.br/saude/pt-br/composicao/svs/vigilancia-de-doencas-cronicas-nao-transmissiveis/sistemas-de-informacao-em-saude. Acesso em: 07 de abr. 2022.

COELHO NETO, G. C.; CHIORO, Arthur. Afinal, quantos sistemas de informação em saúde de base nacional existem no Brasil? Cadernos de Saúde Pública, Rio de Janeiro, v. 37, n. 7, jul. 2021, e00182119. Disponível em: https://www.scielosp.org/article/csp/2021.v37n7/e00182119/. Acesso em: 12 abr. 2022.

CORREIA, L. O. D. S.; PADILHA, B. M.; VASCONCELOS, S. M. L. Métodos para avaliar a completitude dos dados dos sistemas de informação em saúde do Brasil: uma revisão sistemática. Ciência & Saúde Coletiva, Rio de Janeiro, v. 19, p. 4467-4478, 2014. Disponível em: https://www.scielo.br/j/csc/a/HGyrfBHWLXMd3mz74HCcvpy/abstract/?lang=pt. Acesso em: 14 abr. 2022.

COUTINHO, L. R.; NEVES, H. P. O. D. E.; LOPES, L. C. Abordagens sobre computação na nuvem: uma breve revisão sobre segurança e privacidade aplicada a e-saúde no contexto do Programa Conecte SUS e Rede Nacional de Dados em Saúde (RNDS). Brazilian Journal of Development, Curitiba, v. 7, n. 4, p. 35152-35170, abr. 2021. Disponível em: https://www.brazilianjournals.com/index.php/BRJD/article/view/27732. Acesso em: 14 abr. 2022.

DASH, S. et al. Big data in healthcare: management, analysis and future prospects. Journal of Big Data, v. 6, n. 1, p. 1-25, jun. 2019. Disponível em: https://link.springer.com/article/10.1186/s40537-019-0217-0. Acesso em: 14 abr. 2022.

FERNANDES, A. M. R. et al. A relevância dos dashboards para a gestão da saúde na pandemia causada pelo COVID-19. Brazilian Journal of Development, Curitiba, v. 6, n. 6, p. 39263-39274, jun. 2020. Disponível em: https://ojs.brazilianjournals.com.br/ojs/index.php/BRJD/article/view/11931. Acesso em: 09 abr. 2022.

FERREIRA, J. E. D. S. M. et al. Sistemas de informação em saúde no apoio à gestão da atenção primária à saúde: revisão integrativa. Revista Eletrônica de Comunicação, Informação e Inovação em Saúde, Rio de Janeiro, v. 14, n. 4, p. 970-982, out./dez. 2020. Disponível em: https://www.arca.fiocruz.br/handle/icict/45028. Acesso em: 14 abr. 2022.

GAMACHE, R.; KHARRAZI, H.; WEINER, J. P. Public and population health informatics: the bridging of big data to benefit communities. Yearbook of medical informatics, v. 27, n. 1, p. 199-206, 2018. Disponível em: https://www.thieme-connect.com/products/ejournals/html/10.1055/s-0038-1667081. Acesso em: 09 abr. 2022.

HARENSLAK, B. P.; RUITER, J. Data pipelines with Apache airflow. New York: Simon and Schuster, 2021.

IFTIKHAR, A. et al. Role of dashboards in improving decision making in healthcare: Review of the literature. In: EUROPEAN CONFERENCE ON COGNITIVE ERGONOMICS – ECCE’19, 31. 2019, Belfast. Proceedings... Belfast: ACM, 2019. p. 215-219. Disponível em: https://dl.acm.org/doi/abs/10.1145/3335082.3335109. Acesso em: 12 abr. 2022.

KNAFLIC, C. N. Storytelling with data: a data visualization guide for business professionals. New Jersey: John Wiley & Sons, 2015. Disponível em: https://books.google.com.br/books?hl=pt-BR&lr=&id=retRCgAAQBAJ&oi=fnd&pg=PR9&dq=A+data+visualization+guide+for+business+professionals&ots=KpeLBnMy7_&sig=I9Ab4lTpts7IaZFvSUqJA4OIgHE#v=onepage&q=A%20data%20visualization%20guide%20for%20business%20professionals&f=false. Acesso em: 12 abr. 2022.

KROEZEN, M.; VAN HOEGAERDEN, M.; BATENBURG, R. The joint action on health workforce planning and forecasting: results of a european programme to improve health workforce policies. Health Policy, v. 122, n. 2, p. 87-93, fev. 2018. Disponível em:https://www.sciencedirect.com/science/article/pii/S016885101730341X. Acesso em: 12 abr. 2022.

MACHADO, M. H.; XIMENES NETO, F. R. G. Gestão da educação e do trabalho em saúde no SUS: trinta anos de avanços e desafios. Ciência & Saúde Coletiva, Rio de Janeiro, v. 23, n.6, p. 1971-1979, jun. 2018. Disponível em: https://www.scielosp.org/article/csc/2018.v23n6/1971-1979/. Acesso em: 12 abr. 2022.

MAINI, E.; VENKATESWARLU, B.; GUPTA, A. Data lake-an optimum solution for storage and analytics of Big Data in cardiovascular disease prediction system. International Journal of Computational Engineering & Management, v. 21, n. 6, p. 33-39, 2018. Disponível em: http://ijcem.org/papers112018/ijcem_112018_05.pdf. Acesso em: 20 abr. 2022.

MIGUEL, E. et al. Promoting transparency in social science research. Science, v. 343, n. 6166, p. 30-31, jan. 2014. Disponível em:https://www.science.org/doi/full/10.1126/science.1245317. Acesso em: 20 abr. 2022.

MOUTSELOS, K.; MAGLOGIANNIS, I. Evidence-based public health policy models development and evaluation using big data analytics and web technologies. Medical Archives, v. 74, n. 1, p. 47-53, fev. 2020. Disponível em: https://www.ncbi.nlm.nih.gov/pmc/articles/PMC7164729/. Acesso em: 24 abr. 2022.

NIJKAMP, P.; KOURTIT, K. Place-specific corona dashboards for health policy: design and application of a ‘Dutchboard’. Sustainability, v. 14, n. 2, p. 836, jan. 2022. Disponível em: https://www.mdpi.com/2071-1050/14/2/836. Acesso em: 09 abr. 2022.

PINTO, L. F.; FREITAS, M. P. S. D.; FIGUEIREDO, A. W. S. A. D. Sistemas nacionais de informação e levantamentos populacionais: algumas contribuições do Ministério da Saúde e do IBGE para a análise das capitais brasileiras nos últimos 30 anos. Ciência & Saúde Coletiva, Rio de Janeiro, v. 23, p. 1859-1870, jun. 2018. Disponível em:https://www.scielosp.org/article/csc/2018.v23n6/1859-1870/pt/. Acesso em: 25 abr. 2022.

ROKIS, K.; KIRIKOVA, M. Challenges of low-code/no-code software development: a literature review. In: INTERNATIONAL CONFERENCE ON BUSINESS INFORMATICS RESEARCH, 21., 2022, Rostock. Perspectives in business informatics research. Cham: Springer International, 2022. p. 3-17.

SALDANHA, R. D. F.; BASTOS, R. R.; BARCELLOS, C. Microdatasus: pacote para download e pré-processamento de microdados do Departamento de Informática do SUS (DATASUS). Cadernos de Saúde Pública, Rio de Janeiro, v. 35, n. 9, set. 2019. Disponível em: https://www.scielo.br/j/csp/a/gdJXqcrW5PPDHX8rwPDYL7F/. Acesso em: 24 abr. 2022.

SHORTREED, S. M. et al. Challenges and opportunities for using big health care data to advance medical science and public health. American Journal of Epidemiology, v. 188, n. 5, p. 851-861, maio 2019. Disponível em:https://academic.oup.com/aje/article/188/5/851/5381891?login=true. Acesso em: 24 abr. 2022.

SOBRAL, F.; PECI, A. Administração: teoria e prática no contexto brasileiro. 2. ed. São Paulo: Pearson, 2013.

VOHRA, D. Practical hadoop ecosystem: a definitive guide to hadoop-related frameworks and tools, Apache parquet, p. 325-335, set. 2016. Disponível em: https://link.springer.com/chapter/10.1007/978-1-4842-2199-0_8. Acesso em: 10 out. 2023.

Published

2024-07-18

Issue

Section

Articles

Funding data

How to Cite

PAGOTTO, Daniel do Prado; MARQUES, Wanderson da Silva; OLIVEIRA, Denise Santos de; FERREIRA, Vicente da Rocha Soares; NUNES DE AZEVEDO, Vinicius; BORGES JÚNIOR, Cândido Vieira. Innovation in health: the implementation of a data lake for the storage, systematization and availability of health data in Brazil. InCID: Revista de Ciência da Informação e Documentação, Ribeirão Preto, Brasil, v. 15, n. 1, p. e-213345, 2024. DOI: 10.11606/issn.2178-2075.incid.2024.213345. Disponível em: https://journals.usp.br/incid/article/view/213345.. Acesso em: 21 nov. 2024.