O CITIC desenvolve un proxecto pioneiro para coñecer o comportamento dos usuarios dunha web
luns, 26 de maio do 2014
O CITIC
desenvolveu un proxecto de investigación pioneiro a nivel mundial
que, mediante o uso da estatística e as matemáticas, permite
modelar o comportamento dos usuarios no acceso e consumo de contidos
dixitais en multiplataformas ou páxinas web, creando grupos de
usuarios que respondan a un determinado patrón. Esta solución
creada pola liña de especialización de Estatística e Investigación
Operativa do Área Tecnolóxica de Matemática Aplicada e Estatística
e Investigación Operativa do CITIC consegue múltiples beneficios xa
que se pode ofrecer información exclusiva segundo o perfil do
usuario, adecuar a publicidade, adaptar os contidos, personalizar a
web...
Levouse á práctica coa páxina do País Dixital do Grupo PRISA, un
proxecto de grande envergadura no que se traballou sobre bases de
datos con miles de rexistros, polo que pode aplicarse en calquera
outra plataforma.
Dende o punto de vista da investigación, tratouse dun reto sumamente
interesante xa que os patróns de navegación polo portal web non
veñen caracterizados por secuencias numéricas, senón por datos
secuenciais categóricos (as seccións do xornal ás que
sucesivamente acceden os usuarios). Propúxose entón a construción
dunha medida de disimilaridade entre patróns ordenados
categóricos para separar aos usuarios segundo a súa conduta de
navegación. A partir desta medida desenvolveuse un algoritmo de
clasificación que ten en conta non só a coincidencia de accesos
senón tamén a correlación temporal entre os mesmos.
Un reto na investigación
Segundo José Antonio Vilar Fernández, investigador responsable do
proxecto “á hora de abordalo
revisamos se existía algún traballo de investigación previo que
afondara no problema de clasificar secuencias ordenadas de datos
categóricos en base a unha medida de disimilaridade
e tendo en conta a correlación temporal entre accesos, e non
atopamos nada publicado, só algún procedemento baseado en modelos,
o cal supón asumir estruturas probabilísticas de partida que
poderían non satisfacerse e, en todo caso, implica un sofisticado
proceso de estimación previa dos parámetros deses modelos”. Segundo engade, “a
ferramenta resultante das nosas investigacións é innovadora ao
permitir establecer patróns do comportamento dos usuarios dunha web
en base á avaliación da distancia entre secuencias ordenadas de
accesos e aplicar entón un algoritmo estatístico de clasificación,
algo que, ata onde puidemos saber, non se realizou ata o momento”.
Para conseguilo estableceuse un proceso en varias etapas. En primeiro
lugar, foi necesaria unha análise exploratoria dos patróns de
conduta rexistrados e depuración posterior dos mesmos (cómpre que
teñamos en conta que as opcións de navegación son múltiples, un
usuario pode acceder a unha noticia de Economía, posteriormente a
Sociedade, volver a Economía, ir a Deportes). O segundo paso, máis
teórico, consistiu en definir unha medida de disemellanza
entre dous patróns que avaliasen o diferentes que eran considerando
o grao de coincidencia entre visitas a seccións (similitude
“estática”) e entre as súas cronoloxías (similitude
“dinámica”).
A terceira etapa implicou o desenvolvemento dun algoritmo clúster
baseado na matriz de disemellanzas. Toda a ferramenta proposta
a nivel teórico integrouse nun programa informático usando software
libre. Nunha cuarta etapa, a ferramenta xerada foi testada e validada
en diferentes escenarios de simulación de posibles condutas con
patróns coñecidos. Os niveis de éxito nestas probas foron
excelentes, superando claramente a outros procedementos alternativos
baseados en modelos.
Segundo informa o CITIC, este proxecto abre infinitas posibilidades
ás empresas para entender o comportamento dos usuarios que acceden
ás súas multiplataformas dixitais, permitindo clasificalos e
mellorar a súa experiencia na navegación. “Unha fonte de
información sen igual que non podía conseguirse ata a data e que o
CITIC fixo posible”, engade.