Affordable Access

Modelo para el tratamiento de conjuntos complejos con datos ausentes de variables categóricas en un contexto de e-democracia. Aplicación a encuestas de opinión

Authors
Publisher
Facultad de Informática (UPM)
Publication Date
Keywords
  • Informática

Abstract

La falta de información es un escenario más que habitual en la utilización de conjuntos de datos. En las aplicaciones del mundo real existen múltiples causas – errores o fallos de los sensores cuando se trabaja con equipos automáticos, desconocimiento o falta de interés por parte de los responsables de introducir la información, negativas por parte de los informantes a responder a preguntas sobre temas comprometidos en encuestas … – que pueden originarlo. Como consecuencia de ello, el procesamiento de los valores ausentes es, en la práctica, uno de los trabajos que más tiempo consumen en los proyectos de minería de datos y aprendizaje automático [109] y se estima que alrededor del 60% de los esfuerzos se destinan al mismo [23]. Aunque la ausencia puede producirse en cualquier tipo de datos, sean éstos numéricos o categóricos, nos vamos a centrar en los últimos a causa de algunas peculiaridades que merece la pena estudiar. Y hablaremos indistintamente de ausencia de información, valores ausentes, falta de respuesta, datos parcialmente observados o falta de datos, pues en cualquiera de estas formas aparece citado el problema. Las técnicas para afrontarlo se vienen desarrollando ya desde hace tiempo [135], [6] y existen numerosas referencias en la literatura, sobre todo acerca de la falta de respuesta 6 en encuestas [32], [79]. Sin embargo, en el ámbito del aprendizaje automático es en los últimos años cuando se ha convertido en un área de investigación dinámica, con frecuentes aportaciones [94]. Los dos puntos de vista, el estadístico y el del aprendizaje automático, consideran el problema en formas bien diferentes y tienen distintos objetivos, lo que origina, a su vez, discrepancias en la clasificación de las técnicas y en los criterios para su evaluación. Por un lado, el enfoque estadístico paramétrico tradicional considera el conjunto de datos como una muestra, resultado de la extracción aleatoria de una población con una distribución probabilística. Bajo este supuesto, el objetivo es obtener algunos de los parámetros que caracterizan esa distribución – la media, la moda, la correlación entre variables, etc. – calculándose los correspondientes estimadores como funciones de los datos de la muestra. La ausencia de datos es, aquí, un problema de estimación que se afronta desde diferentes perspectivas. Por su parte, en el ámbito de los procedimientos de aprendizaje automático existen múltiples técnicas que pueden utilizarse para tratar los datos ausentes mediante su sustitución por valores obtenidos a partir de los datos observados: redes neuronales, árboles de decisión, etc. Cuando los datos que faltan son categóricos, se pueden utilizar técnicas específicas como los procedimientos de clasificación: las categorías a asignar coinciden con los distintos valores posibles del atributo que tiene falta de información. Pueden utilizarse métodos supervisados y no supervisados. En el primer caso, cuando existe más de un atributo con falta de datos, el aprendizaje se realiza sucesiva y separadamente para cada uno, lo que significa que la tarea ha de repetirse tantas veces como atributos con valores ausentes hay en el conjunto de datos [72]. El inicio de los trabajos de esta tesis ha estado principalmente motivado en la necesidad de mejorar los resultados obtenidos al tratar de resolver problemas de falta de 7 información de variables categóricas en sondeos de opinión utilizando los procedimientos que la literatura considera como el estado del arte en ese ámbito. Se ha encontrado, así, que muchos de los métodos que se proponen tienen hipótesis de funcionamiento que están muy lejos de las situaciones reales que se encuentran en la práctica y, además, las soluciones existentes han avanzado frecuentemente en direcciones no adecuadas, sin replantear los fundamentos básicos. Esto ha conducido de una forma natural a probar métodos propios de otro ámbito como es el aprendizaje automático, para lo que ha sido necesario, en ocasiones, proponer modificaciones de algunos procedimientos ya existentes de modo que pudieran aceptar como entradas el tipo de datos que estos sondeos de opinión manejan. Como resultado, y en el caso concreto de un tipo específico de redes neuronales, se ha diseñado una nueva arquitectura y un nuevo algoritmo de funcionamiento que se presentan aquí como aportación más novedosa de este estudio.

There are no comments yet on this publication. Be the first to share your thoughts.