Innovation in health: the implementation of a data lake for the storage, systematization and availability of health data in Brazil
DOI:
https://doi.org/10.11606/issn.2178-2075.incid.2024.213345Keywords:
database management system, secondary data analysis, database directoryAbstract
This article aims to present the problem related to the storage, systematization, and availability of health data in Brazil and an innovative solution: the implementation of a data lake with data from the health sector. The data lake was built from three steps: (1) planning and prioritizing the databases to be imported into the repository; (2) extraction, loading, and treatment of these bases, with the support of Apache Airflow and Dremio tools; and (3) application of use. The results show the platform’s ability to store a large volume of data (Big Data), as well as to provide intuitive navigation, facilitating the understanding and the handling of data by health analysts. Note also that public managers and researchers recognize the tool’s contributions to their decisions and its potential for the development of other intelligence solutions for data analysis in the health area. The solution presented aims to contribute to the management and planning of health policies, allowing quick and broad access to diverse data that support decision-making in the health area with more agility and security.
Downloads
References
ARAÚJO, V. S.; ZULLO, B. A.; TORRES, M. Big data, algoritmos e inteligência artificial na Administração Pública: reflexões para a sua utilização em um ambiente democrático. A&C-Revista de Direito Administrativo & Constitucional, Curitiba, v. 20, n. 80, p. 241-261, 2020. Disponível em: http://dx.doi.org/10.21056/aec.v20i80.1219. Acesso em: 10 out. 2023.
BASE DOS DADOS. Quem somos. 2022. Disponível em: https://basedosdados.org/quem-somos. Acesso em: 09 abr. 2022.
BATISTA, A. G.; SANTANA, V. S.; FERRITE, S. Registro de dados sobre acidentes de trabalho fatais em sistemas de informação no Brasil. Ciência & Saúde Coletiva, Rio de Janeiro, v. 24, p. 693-704, 2019. Disponível em: https://www.scielosp.org/article/csc/2019.v24n3/693-704/pt/. Acesso em: 09 abr. 2022.
BRASIL. Contratar plataforma de análise de dados para suporte a políticas públicas (GovData). 05 jan. 2023. Disponível em: https://www.gov.br/pt-br/servicos/contratar-plataforma-de-analise-de-dados-para-suporte-a-politicas-publicas-govdata. Acesso em: 10 de out. 2023.
BRASIL. MINISTÉRIO DA SAÚDE. Gabinete do Ministro. Portaria nº 1.434, de 28 de maio de 2020. Disponível em: https://www.in.gov.br/en/web/dou/-/portaria-n-1.434-de-28-de-maio-de-2020-259143327. Acesso em: 07 de abr. 2022.
BRASIL. MINISTÉRIO DA SAÚDE. Sistemas de informação em saúde. 2021. Disponível em: https://www.gov.br/saude/pt-br/composicao/svs/vigilancia-de-doencas-cronicas-nao-transmissiveis/sistemas-de-informacao-em-saude. Acesso em: 07 de abr. 2022.
COELHO NETO, G. C.; CHIORO, Arthur. Afinal, quantos sistemas de informação em saúde de base nacional existem no Brasil? Cadernos de Saúde Pública, Rio de Janeiro, v. 37, n. 7, jul. 2021, e00182119. Disponível em: https://www.scielosp.org/article/csp/2021.v37n7/e00182119/. Acesso em: 12 abr. 2022.
CORREIA, L. O. D. S.; PADILHA, B. M.; VASCONCELOS, S. M. L. Métodos para avaliar a completitude dos dados dos sistemas de informação em saúde do Brasil: uma revisão sistemática. Ciência & Saúde Coletiva, Rio de Janeiro, v. 19, p. 4467-4478, 2014. Disponível em: https://www.scielo.br/j/csc/a/HGyrfBHWLXMd3mz74HCcvpy/abstract/?lang=pt. Acesso em: 14 abr. 2022.
COUTINHO, L. R.; NEVES, H. P. O. D. E.; LOPES, L. C. Abordagens sobre computação na nuvem: uma breve revisão sobre segurança e privacidade aplicada a e-saúde no contexto do Programa Conecte SUS e Rede Nacional de Dados em Saúde (RNDS). Brazilian Journal of Development, Curitiba, v. 7, n. 4, p. 35152-35170, abr. 2021. Disponível em: https://www.brazilianjournals.com/index.php/BRJD/article/view/27732. Acesso em: 14 abr. 2022.
DASH, S. et al. Big data in healthcare: management, analysis and future prospects. Journal of Big Data, v. 6, n. 1, p. 1-25, jun. 2019. Disponível em: https://link.springer.com/article/10.1186/s40537-019-0217-0. Acesso em: 14 abr. 2022.
FERNANDES, A. M. R. et al. A relevância dos dashboards para a gestão da saúde na pandemia causada pelo COVID-19. Brazilian Journal of Development, Curitiba, v. 6, n. 6, p. 39263-39274, jun. 2020. Disponível em: https://ojs.brazilianjournals.com.br/ojs/index.php/BRJD/article/view/11931. Acesso em: 09 abr. 2022.
FERREIRA, J. E. D. S. M. et al. Sistemas de informação em saúde no apoio à gestão da atenção primária à saúde: revisão integrativa. Revista Eletrônica de Comunicação, Informação e Inovação em Saúde, Rio de Janeiro, v. 14, n. 4, p. 970-982, out./dez. 2020. Disponível em: https://www.arca.fiocruz.br/handle/icict/45028. Acesso em: 14 abr. 2022.
GAMACHE, R.; KHARRAZI, H.; WEINER, J. P. Public and population health informatics: the bridging of big data to benefit communities. Yearbook of medical informatics, v. 27, n. 1, p. 199-206, 2018. Disponível em: https://www.thieme-connect.com/products/ejournals/html/10.1055/s-0038-1667081. Acesso em: 09 abr. 2022.
HARENSLAK, B. P.; RUITER, J. Data pipelines with Apache airflow. New York: Simon and Schuster, 2021.
IFTIKHAR, A. et al. Role of dashboards in improving decision making in healthcare: Review of the literature. In: EUROPEAN CONFERENCE ON COGNITIVE ERGONOMICS – ECCE’19, 31. 2019, Belfast. Proceedings... Belfast: ACM, 2019. p. 215-219. Disponível em: https://dl.acm.org/doi/abs/10.1145/3335082.3335109. Acesso em: 12 abr. 2022.
KNAFLIC, C. N. Storytelling with data: a data visualization guide for business professionals. New Jersey: John Wiley & Sons, 2015. Disponível em: https://books.google.com.br/books?hl=pt-BR&lr=&id=retRCgAAQBAJ&oi=fnd&pg=PR9&dq=A+data+visualization+guide+for+business+professionals&ots=KpeLBnMy7_&sig=I9Ab4lTpts7IaZFvSUqJA4OIgHE#v=onepage&q=A%20data%20visualization%20guide%20for%20business%20professionals&f=false. Acesso em: 12 abr. 2022.
KROEZEN, M.; VAN HOEGAERDEN, M.; BATENBURG, R. The joint action on health workforce planning and forecasting: results of a european programme to improve health workforce policies. Health Policy, v. 122, n. 2, p. 87-93, fev. 2018. Disponível em:https://www.sciencedirect.com/science/article/pii/S016885101730341X. Acesso em: 12 abr. 2022.
MACHADO, M. H.; XIMENES NETO, F. R. G. Gestão da educação e do trabalho em saúde no SUS: trinta anos de avanços e desafios. Ciência & Saúde Coletiva, Rio de Janeiro, v. 23, n.6, p. 1971-1979, jun. 2018. Disponível em: https://www.scielosp.org/article/csc/2018.v23n6/1971-1979/. Acesso em: 12 abr. 2022.
MAINI, E.; VENKATESWARLU, B.; GUPTA, A. Data lake-an optimum solution for storage and analytics of Big Data in cardiovascular disease prediction system. International Journal of Computational Engineering & Management, v. 21, n. 6, p. 33-39, 2018. Disponível em: http://ijcem.org/papers112018/ijcem_112018_05.pdf. Acesso em: 20 abr. 2022.
MIGUEL, E. et al. Promoting transparency in social science research. Science, v. 343, n. 6166, p. 30-31, jan. 2014. Disponível em:https://www.science.org/doi/full/10.1126/science.1245317. Acesso em: 20 abr. 2022.
MOUTSELOS, K.; MAGLOGIANNIS, I. Evidence-based public health policy models development and evaluation using big data analytics and web technologies. Medical Archives, v. 74, n. 1, p. 47-53, fev. 2020. Disponível em: https://www.ncbi.nlm.nih.gov/pmc/articles/PMC7164729/. Acesso em: 24 abr. 2022.
NIJKAMP, P.; KOURTIT, K. Place-specific corona dashboards for health policy: design and application of a ‘Dutchboard’. Sustainability, v. 14, n. 2, p. 836, jan. 2022. Disponível em: https://www.mdpi.com/2071-1050/14/2/836. Acesso em: 09 abr. 2022.
PINTO, L. F.; FREITAS, M. P. S. D.; FIGUEIREDO, A. W. S. A. D. Sistemas nacionais de informação e levantamentos populacionais: algumas contribuições do Ministério da Saúde e do IBGE para a análise das capitais brasileiras nos últimos 30 anos. Ciência & Saúde Coletiva, Rio de Janeiro, v. 23, p. 1859-1870, jun. 2018. Disponível em:https://www.scielosp.org/article/csc/2018.v23n6/1859-1870/pt/. Acesso em: 25 abr. 2022.
ROKIS, K.; KIRIKOVA, M. Challenges of low-code/no-code software development: a literature review. In: INTERNATIONAL CONFERENCE ON BUSINESS INFORMATICS RESEARCH, 21., 2022, Rostock. Perspectives in business informatics research. Cham: Springer International, 2022. p. 3-17.
SALDANHA, R. D. F.; BASTOS, R. R.; BARCELLOS, C. Microdatasus: pacote para download e pré-processamento de microdados do Departamento de Informática do SUS (DATASUS). Cadernos de Saúde Pública, Rio de Janeiro, v. 35, n. 9, set. 2019. Disponível em: https://www.scielo.br/j/csp/a/gdJXqcrW5PPDHX8rwPDYL7F/. Acesso em: 24 abr. 2022.
SHORTREED, S. M. et al. Challenges and opportunities for using big health care data to advance medical science and public health. American Journal of Epidemiology, v. 188, n. 5, p. 851-861, maio 2019. Disponível em:https://academic.oup.com/aje/article/188/5/851/5381891?login=true. Acesso em: 24 abr. 2022.
SOBRAL, F.; PECI, A. Administração: teoria e prática no contexto brasileiro. 2. ed. São Paulo: Pearson, 2013.
VOHRA, D. Practical hadoop ecosystem: a definitive guide to hadoop-related frameworks and tools, Apache parquet, p. 325-335, set. 2016. Disponível em: https://link.springer.com/chapter/10.1007/978-1-4842-2199-0_8. Acesso em: 10 out. 2023.
Downloads
Published
Issue
Section
License
Copyright (c) 2024 Daniel do Prado Pagotto, Wanderson da Silva Marques, Denise Santos de Oliveira, Vicente da Rocha Soares Ferreira, Vinicius Nunes de Azevedo, Cândido Vieira Borges Júnior
This work is licensed under a Creative Commons Attribution-NonCommercial-NoDerivatives 4.0 International License.
Ao encaminhar textos à InCID: Revista de Ciência da Informação e Documentação, o autor concorda com as prerrogativas do DOAJ para periódicos de acesso aberto adotadas pela revista:
- concessão à revista o direito de primeira publicação sob a Licença Creative Commons Attribution (CC BY 4.0), que permite acessar, imprimir, ler, distribuir, remixar, adaptar e desenvolver outros trabalhos, com reconhecimento da autoria.
- autorização para distribuição não exclusiva da versão do trabalho publicado nesta revista , como a publicação em repositorios institucionais desde que o reconhecimento da autoria e publicação inicial na InCID
- leitores podem ler, fazer download, distribuir, imprimir, linkar o texto completo dos arquivos sem pedir permissão prévia aos autores e/ou editores, desde que respeitado o estabelecido na Licença Creative Commons Attribution (CC BY 4.0).
O trabalho publicado é considerado colaboração e, portanto, o autor não receberá qualquer remuneração para tal, bem como nada lhe será cobrado em troca para a publicação.
Os textos são de responsabilidade de seus autores. Citações e transcrições são permitidas mediante menção às fontes.
Funding data
-
Ministério da Saúde
Grant numbers 25000206114201919/FNS