Chega dende o Campus de Ourense un novo xeito de clasificación do correo lixo
mércores, 16 de novembro do 2016
- A investigadora Noemí Pérez, autora do exhaustivo traballo sobre correo lixo
O
correo lixo ou spam vai en aumento e as solucións para
atallar este problema van resultando ineficaces, pois segundo estudos
realizados, a metade do noso correo electrónico é lixo, ou máis.
Para tentar eliminar este atranco, que supón en moitos casos unha
estafa económica, unha introdución de virus, etc, xorde unha tese
de doutoramento dende o Campus de Ourense. O estudo, Modelo
intelixente para a clasificación de correos spam baseado no emprego
de conxuntos aproximados, elabora un novo modelo de clasificación
do spam máis eficiente e tres algoritmos para clasificar os
correos lixo que están na rexión fronteira, aqueles que
non se poden clasificar con ningunha regra das que aplican os actuais
clasificadores. Detrás deste estudo, presentado na Escola Superior
de Enxeñaría Informática do Campus de Ourense, está Noemí Pérez
quen levou a cabo a súa tese baseándose na introdución de
conxuntos aproximados na detección de correos ilexítimos e a súa
posíbel combinación coas metodoloxías xa existentes para a mellora
do filtrado.
E en
que consiste a técnica dos conxuntos aproximados? Pois a partir
dunha cantidade de datos permítese xerar unha serie de regras de
decisión; por exemplo, se no correo aparece a palabra buy ou
viagra, este e-mail é clasificado como lixo.
En
resumo, segundo a propia investigadora, “o
traballo que realizamos introduce un novo modelo para o filtrado de
correos lixo baseado no emprego de conxuntos aproximados xunto cunha
nova aproximación para a rexión fronteira combinado con outras
técnicas de aprendizaxe automática así como unha avaliación das
técnicas máis usadas comunmente e unha comparativa destas co novo
modelo proposto”. Para acadalo, engade, desenvolvéronse
tres algoritmos diferentes, que foron sometidos á comparación cos
mellores clasificadores existentes para demostrar a súa
efectividade.
Neste
traballo combínanse métodos de aprendizaxe automática, o conxunto
de regras xerado mediante a utilización de conxuntos aproximados e a
aproximación máis eficaz para clasificar correos na rexión
fronteira desenvolvida durante a a elaboración desta tese de
doutoramento.
Desta
análise tíranse dúas conclusións en canto a correo lixo: a
importancia dos erros de tipo falso positivo e todos os problemas
asociados ao chamado concept drift, concepto que se refire á
natureza cambiante do correo lixo.
Para
rematar a doutora fai fincapé en que os remitentes de correo lixo
amorean cada vez máis experiencia e afinan o seu enxeño para que os
seus correos non sexan detectábeis con facilidade. Isto, xunto coa
natureza cambiante do contido destes correos e o seu enorme custo,
fai necesaria unha constante innovación nas técnicas de detección
de spam.