Chega dende o Campus de Ourense un novo xeito de clasificación do correo lixo

mércores, 16 de novembro do 2016 Redacción

A investigadora Noemí Pérez, autora do exhaustivo traballo sobre correo lixo

O correo lixo ou spam vai en aumento e as solucións para atallar este problema van resultando ineficaces, pois segundo estudos realizados, a metade do noso correo electrónico é lixo, ou máis. Para tentar eliminar este atranco, que supón en moitos casos unha estafa económica, unha introdución de virus, etc, xorde unha tese de doutoramento dende o Campus de Ourense. O estudo, Modelo intelixente para a clasificación de correos spam baseado no emprego de conxuntos aproximados, elabora un novo modelo de clasificación do spam máis eficiente e tres algoritmos para clasificar os correos lixo que están na rexión fronteira, aqueles que non se poden clasificar con ningunha regra das que aplican os actuais clasificadores. Detrás deste estudo, presentado na Escola Superior de Enxeñaría Informática do Campus de Ourense, está Noemí Pérez quen levou a cabo a súa tese baseándose na introdución de conxuntos aproximados na detección de correos ilexítimos e a súa posíbel combinación coas metodoloxías xa existentes para a mellora do filtrado.
E en que consiste a técnica dos conxuntos aproximados? Pois a partir dunha cantidade de datos permítese xerar unha serie de regras de decisión; por exemplo, se no correo aparece a palabra buy ou viagra, este e-mail é clasificado como lixo.
En resumo, segundo a propia investigadora, “o traballo que realizamos introduce un novo modelo para o filtrado de correos lixo baseado no emprego de conxuntos aproximados xunto cunha nova aproximación para a rexión fronteira combinado con outras técnicas de aprendizaxe automática así como unha avaliación das técnicas máis usadas comunmente e unha comparativa destas co novo modelo proposto”. Para acadalo, engade, desenvolvéronse tres algoritmos diferentes, que foron sometidos á comparación cos mellores clasificadores existentes para demostrar a súa efectividade.
Neste traballo combínanse métodos de aprendizaxe automática, o conxunto de regras xerado mediante a utilización de conxuntos aproximados e a aproximación máis eficaz para clasificar correos na rexión fronteira desenvolvida durante a a elaboración desta tese de doutoramento.
Desta análise tíranse dúas conclusións en canto a correo lixo: a importancia dos erros de tipo falso positivo e todos os problemas asociados ao chamado concept drift, concepto que se refire á natureza cambiante do correo lixo.
Para rematar a doutora fai fincapé en que os remitentes de correo lixo amorean cada vez máis experiencia e afinan o seu enxeño para que os seus correos non sexan detectábeis con facilidade. Isto, xunto coa natureza cambiante do contido destes correos e o seu enorme custo, fai necesaria unha constante innovación nas técnicas de detección de spam.

PUBLICIDADE