
Dariel Díaz Arce
3
DOI: 10.33936/cognosis.
e-ISNN 2588-0578 Vol. 9, Núm. 1 (144-150): Abril - Junio 2024
Herramientas para detectar el Plagio a la Inteligencia Artificial: ¿cuán útiles son?
La elección de las herramientas de inteligencia articial generativas de texto se siguieron algunos criterios
básicos. Primero se hizo un acercamiento a docentes y estudiantes de bachillerato de la institución en la que se
les preguntó sobre las IA que conocen de este tipo. Al mismo tiempo, esto se complementó con una búsqueda
libre en Google con las palabras clave “inteligencia articial” and “generación de textos” así como “inteligencia
articial” and “creación de textos”. Se ltraron posteriormente por aquellas que permitían crear al menos tres
documentos en su versión libre de pago con una extensión mínima de 250 palabras. Las IA utilizadas al nal
fueron: ChatGPT 3.5 (https://chat.openai.com/) , Content (https://www.contents.com/), Copy (https://www.
copy.ai/), Copymatic (https://copymatic.ai/), Dupla (https://www.dupla.ai/), Escribelo (https://escribelo.ai/),
Hypotenuse (https://www.hypotenuse.ai/), Perplexity (https://www.perplexity.ai/), Smodin (https://smodin.
io/), Writesonic (https://writesonic.com/), You (https://you.com/). Del total de documentos creados, 29 fueron
en español y 16 en inglés.
En cuanto a las herramientas de detección de textos generados con IA, se emplearon cinco de las más
mencionadas en internet. Estas se ltraron con los siguientes criterios: acceso gratuito al momento en que
se realizó el estudio, soporte de diferentes idiomas, permita analizar tal menos res trabajos por día, reporte
de algún indicador que permita evaluar si el texto fue escrito o no por una IA, tener al menos un límite
de 500 palabras para analizar. Los trabajos con más de esa cantidad de palabras se analizaron por partes.
Las aplicaciones seleccionadas así fueron: Copyleaks (https://copyleaks.com/es/), AI Text Classier (https://
freeaitextclassier.com/), Crossplag (https://crossplag.com/), Content at Scale (https://contentatscale.ai/ai-
content-detector/), Hive Moderation (https://hivemoderation.com/). Adicionalmente, todos los trabajos fueron
pasados por Turnitin para estimar el Índice General de Similitud (IGS).
Para el análisis de los resultados se tomaron como positivos todos los documentos que dieran un resultado
como probable o posiblemente escrito por una IA, según los datos aportados por cada herramienta. De este
modo se construyeron tablas de contingencia 2x2 para analizar el poder de detección de cada aplicación,
calculando la sensibilidad como la fracción de documentos con plagio IA real detectada por la herramienta del
total experimental. Por su parte la especicidad sería la fracción de documentos del grupo control detectados
como libres de plagio. La precisión en la detección o índice de validez se estimó como el porcentaje de trabajos
correctamente clasicados del total analizado. Asimismo, se calcularon los valores predictivos positivo y
negativo respectivamente como la fracción de los casos de plagio propuestos por la herramienta que realmente
lo son, y la fracción de los documentos propuestos como libres de plagio que realmente lo son (Diaz Arce,
Beltran, & Cueva Sarmiento, 2018). Se utilizó además la prueba Chi-cuadrado para evaluar la hipótesis de
independencia entre lo propuesto y las herramientas de detección y los datos reales. Para comparar la extensión
de palabras y el IGS se utilizó el test U de Mann-Whitney. El nivel de signicancia fue de 0.05. Para estos
cálculos se utilizaron las herramientas SPSS v. 23 y Epidat 3.0.
La extensión media por número de palabras fue similar en ambos grupos: experimental (664) vs. control
(694), p = 0.252. En cuanto al IGS tampoco hubo diferencias signicativas con 38 % vs. 49 % para el grupo
experimental y control respectivamente (p = 0.558).
El análisis del desempeño de las herramientas para la detección de plagio IA se muestra en la tabla 1. En todos
los casos se acepta que existe asociación entre los resultados propuestos por las herramientas para detectar
plagio IA y la descripción real de la muestra dado que los valores de p son signicativamente menores a 0.05.
En cuanto al desempeño general, Copyleaks presenta una sensibilidad y valor predictivo negativo cercanos al
90 %. Lo anterior signica que con esta herramienta se pueden detectar al menos nueve de cada diez trabajos
creados con una IA, al mismo tiempo que en la muestra de estudio, de cada diez casos que propone como
libres de plagio, nueve realmente lo son. Por su parte, AI Text Classier, posee valores predictivos e índice de
validez que superan el 70 %. Tales resultados implican que al menos siete de cada diez trabajos de la muestra
son correctamente clasicados, al mismo tiempo de más del 70 % de los casos que se predicen con problemas
23146