Análisis de estilos de redacción para la identificación de autoría usando métodos de agrupamiento.

  • Ariel Céspedes Pérez
  • Ricardo Enrique Pérez Guzmán
  • Daniel Eugenio Pérez Guzmán

Resumen

Internet es hoy un espacio muy dinámico y revolucionador. Sus consumidores se han convertido en productores de la información que ellos mismos consumen, apoyados en herramientas y plataformas instaladas en grandes servidores, que facilitan el uso y la publicación de contenidos. Si bien este proceso ha democratizado el acceso de muchos a la información, también ha provocado una excesiva socialización de la propiedad intelectual y científica, pues los materiales se publican muchas veces bajo licencias que permiten su descarga sin el consentimiento del creador. En este contexto muchas veces se hace necesario determinar el autor de un documento anónimo, o uno cuyo autor esté en duda. Para realizar el análisis de autoría, como se le conoce a esta tarea, es necesario inferir características del autor a través de los documentos escritos por él y luego conformar un modelo de su estilo que pueda ser comparable con el de otra persona. Sin embargo resulta impráctico realizar el procesamiento de todos los posibles autores que existen a partir de sus publicaciones. Por ello es necesario determinar procedimientos que sin utilizar un conjunto de archivos de referencia, realicen un análisis del estilo en el texto y revelen sus variaciones estilográficas. En este trabajo se expone un procedimiento para lograr este propósito aplicando métodos de agrupamiento al documento que se desea analizar. Los resultados de los experimentos con determinados métodos de este tipo y varios rasgos lingüísticos, muestran que usando el algoritmo sIB en textos caracterizados por tri-gramas de caracteres y uni-gramas de palabras, se obtienen resultados aceptables.

##plugins.generic.usageStats.downloads##

##plugins.generic.usageStats.noStats##

Citas

[1] R. A. Española, "Diccionario de la lengua española," 22 ed, 2001.

[2] L. A. Barrón Cedeño, "Detección automática de plagio en texto," 2011.

[3] D. Funez and M. L. Errecalde, "Detección de plagio intrínseco usando la segmentación de texto," in XVII Congreso Argentino de Ciencias de la Computación, 2011.

[4] E. Stamatatos, "A survey of modern authorship attribution methods," Journal of the American Society for information Science and Technology, vol. 60, pp. 538-556, 2009.

[5] E. Stamatatos, W. Daelemans, B. Verhoeven, M. Potthast, B. Stein, P. Juola, et al., "Overview of the Author Identification Task at PAN 2014," analysis, vol. 13, p. 31, 2014.

[6] M. Potthast, "Technologies for reusing text from the Web," 2012.

[7] M. Potthast, M. Hagen, A. Beyer, M. Busse, M. Tippmann, P. Rosso, et al., "Overview of the 6th International Competition on Plagiarism Detection," in CLEF (Online Working Notes/Labs/Workshop), 2014.

[8] D. G. Funez and M. L. Errecalde, "Detección de plagio intrínseco basad en histogramas," in XVIII Congreso Argentino de Ciencias de la Computación, 2012.

[9] G. Sidorov, "Construcción no lineal de n-gramas en la lingüística computacional," 2013.

[10] S. Argamon and P. Juola, "Overview of the International Authorship Identication Competition at PAN-2011," 2011.

[11] J. Brooke and G. Hirst, "Paragraph Clustering for Intrinsic Plagiarism Detection using a Stylistic Vector-Space Model with Extrinsic Features," 2012.

[12] L. Tanguy, F. Sajous, BasilioCalderone, and N. Hathout., "Authorship attribution: using rich linguistic features when training data is scarce.," 2012.

[13] O. Halvani, M. Steinebach, and R. Zimmermann, "Authorship Verification via k-Nearest Neighbor Estimation," 2013.

[14] D. Vilariño, D. Pinto, H. Gómez, S. León, and E. Castillo, "Lexical-Syntactic and Graph-Based Features for Authorship Verification," 2013.

[15] E. Castillo, O. Cervantes, D. Vilariño, D. Pinto, and S. León, "Unsupervised method for the authorship identification," 2014.

[16] J. Fréry, C. Largeron, and M. Juganaru-Mathieu, "UJM at CLEF in Author Verification based on optimized classification trees.," 2014.

[17] O. Halvani and M. Steinebach, "VEBAV - A Simple, Scalable and Fast Authorship Verification Scheme," 2014.

[18] C. Mayor, J. Gutierrez, A. Toledo, R. Martinez, P. Ledesma, G. Fuentes, et al., "A Single Author Style Representation for the Author Verification Task," 2014.

[19] S. Ruseti and T. Rebedea, "Authorship Identification Using a Reduced Set of Linguistic Features " 2012.

[20] E. Castillo, D. Vilariño, D. Pinto, I. Olmos, J. A. González, and M. Carrillo, "Graph-based and Lexical-Syntactic Approaches for the Authorship Attribution Task," 2012.

[21] F.-M. Giraud and T. Artières, "Feature Bagging for Author Attribution," 2012.

[22] V. W. Feng and G. Hirst, "Authorship Verification with Entity Coherence and Other Rich Linguistic Features," 2013.

[23] M. R. Ghaeini, "Intrinsic Author Identification Using Modified Weighted KNN," 2013.

[24] P. Ledesma, G. Fuentes, G. Jasso, A. Toledo, and I. Meza, "Distance learning for Author Verification," 2013.

[25] A. Pons Porrata, "Desarrollo de algoritmos para la estructuración dinámica de información y su aplicación a la detección de sucesos," Doctorado, 2004.

[26] L. Kaufman and P. J. Rousseeuw, "Finding Groups in Data: An Introduction to Cluster Analysis. ," 1990.

[27] G. Fung, "A Comprehensive Overview of Basic Clustering Algorithms," 2001.

[28] C.-Y. Chen, J.-Y. Yeh, and H.-R. Ke, "Plagiarism detection using ROUGE and WordNet," arXiv preprint arXiv:1003.4065, 2010.

[29] E. León Guzmán, "Métricas para la validación de Clustering," 2005.

[30] M. Dillon, "Introduction to modern information retrieval: G. Salton and M. McGill. McGraw-Hill, New York (1983). xv+ 448 pp., $32.95 ISBN 0-07-054484-0," ed: Pergamon, 1983.

[31] A. Kent, M. M. Berry, F. U. Luehrs, and J. W. Perry, "Machine literature searching VIII. Operational criteria for designing information retrieval systems," American documentation, vol. 6, pp. 93-101, 1955.
Publicado
2017-07-31
Sección
Artículos