Medidas de similaridade aplicadas à vinculação automática de dados com base em nomes

um estudo de caso na área da saúde

Authors

  • Ricardo da S. Santos Universidade Estadual de Campinas (UNICAMP)
  • Murilo G. Gazzola Universidade Presbiteriana Mackenzie (UPM)
  • Renato T. Souza Universidade Estadual de Campinas (UNICAMP)
  • Rodolfo de C. Pacagnella Universidade Estadual de Campinas (UNICAMP)
  • Cristiano Torezzan Universidade Estadual de Campinas (UNICAMP)

DOI:

https://doi.org/10.5540/03.2025.011.01.0426

Keywords:

Distância de Levenshtein, Distância de Jaro, Distância de Jaro-Winkler, Similaridade entre Nomes

Abstract

A integração de bases de dados é um desafio comum em diversas aplicações de ciência de dados. Frequentemente, a vinculação é realizada por meio de campos de texto livre, como nomes de pessoas, que costumam apresentar inconsistências devido a erros de grafia, abreviações e outras variações. Essas inconsistências podem resultar na representação de um mesmo indivíduo por diferentes registros, dificultando a identificação e análise precisa das informações. Dada a relevância desse problema, várias técnicas têm sido propostas para a vinculação de bases de dados. No entanto, esses estudos têm alto custo, em virtude da necessidade de validação manual qualificada. Este estudo tem como objetivo principal investigar a viabilidade de métodos automáticos de vinculação de dados aplicados no idioma português brasileiro. Os resultados da vinculação automática foram validados manualmente por uma equipe de especialistas, os quais atestaram a viabilidade técnica. Todas as alternativas testadas obtiveram um índice F1-Score superior a 0,90.

Downloads

Download data is not yet available.

References

A. K. Gupta, S. N. Kasthurirathne, H Xu, X. Li, M. M. Ruppert, C. A. Harle e S. J. Grannis. “A framework for a consistent and reproducible evaluation of manual review for patient matching algorithms”. Em: Journal of the American Medical Informatics Association. Vol. 29. Oxford University Press, 2022, pp. 2105–2109. doi: 10.1093/jamia/ocac175. url: https://doi.org/10.1093/jamia/ocac175.

M. Hadwan, M. A. Al-Hagery, A. M. Sanabani e S. Al-Hagree. “Soft Bigram Distance for Names Matching”. Em: PeerJ Computer Science. Vol. Vol. 7. 2021. doi: 10.7717/peerj-cs.465.

M. A. Jaro. “Advances in Record-Linkage Methodology as Applied to Matching the 1985 Census of Tampa, Florida”. Em: American Statistical Association, Taylor Francis, Ltd. Vol. 84. 1989, pp. 414–420. doi: https://doi.org/10.2307/2289924.

W. E. Winkler. “String Comparator Metrics and Enhanced Decision Rules in the Fellegi-Sunter Model of Record Linkage.” Em: Proceedings of the Section on Survey Research. 1990, pp. 354–359.

Published

2025-01-20

Issue

Section

Trabalhos Completos