Aprendizaje de árboles de decisión y regresión en flujos de datos con dinámicas desconocidas

Fidalgo Merino, Raúl

Aprendizaje de árboles de decisión y regresión en flujos de datos con dinámicas desconocidas

Fidalgo Merino, Raúl

unter der Leitung von:

Marlon Núñez Paz Doktorvater/Doktormutter

Universität der Verteidigung: Universidad de Málaga

Fecha de defensa: 18 von April von 2008

Gericht:

Francisco Andrés Triguero Ruiz Präsident/in
Rafael Morales Bueno Sekretär/in
José Luis Verdegay Galdeano Vocal
Joao Portela Da Gama Vocal
José Cristobal Riquelme Santos Vocal

Art: Dissertation

Teseo: 184311 DIALNET

Zusammenfassung

Desde que existe la posibilidad de almacenar datos de forma masiva, los investigadores en el campo de la inteligencia artificial y otras ciencias relacionadas han sentido, la inquietud de procesarlos con el objetivo de entender fenómenos que se encuentran ocultos en ellos, La prospección de datos se centra en la tarea de extracción de conocimiento útil a partir de enormes cantidades de datos, y puede verse como una sinergia de varias disciplinas como la estadística, las bases de datos o el aprendizaje automático. En esta línea, recientemente ha aparecido un nuevo paradigma de generación masiva de datos: los flujos de datos, dle inglés data streams. En ciertas aplicaciones los procesos recogen datos a partir de una o más fuentes de información de manera rápida, masiva y secuencial produciendo un flujo de información. El objetivo en esos entornos es inducir modelos de manera eficiente y que contengan conocimiento útil. Sin embargo, ciertas aplicaciones contienen flujos de datos en los que el conocimiento subyacente puede cambiar con el tiempo o se producen dinámicas desconocidas (como ruido en datos, atributos irrelevantes, etc.). Por ello, se deben crear nuevos algoritmos o adaptar las técnicas existentes para tratar de inducir patrones de conocimiento bajo estas condiciones. Esta tesis presenta dos nuevos algoritmos, llamados OnlineTee2 y OnlineTree2r, capaces de inducir modelos de clasificación y regresión, respectivamente, a partir de flujos de datos con dinámicas desconocidas. Ambos emplean técnicas de aprendizaje supervisado que inducen incrementalmente modelos basados en árboles en estas situaciones. A diferencia de los métodos actuales, estos nuevos algoritmos utilizan múltiples ventanas deslizantes para gestionar la información que es relevante para la actualización de los modelos. Como demuestra la experimentación realizada, gracias a cada ventana estos algoritmos son capaces de controlar los cambios que se puede producir en diferentes regiones, permitiendo una adaptabilidad mayor que la de algoritmos actuales de inducción de modelos sobre flujos de datos con cambios de conocimiento. Prácticamente la mayoría de algoritmos que trabajan en estos entornos contienen un buen número de parámetros. Esto limita su funcionalidad porque, por un lado, hace que el usuario deba entender bien su significado para ser capaz de fijar sus valores a la hora de tratar con estos flujos de datos y, por otro, las configuraciones de los parámetros fijadas a-priori pueden ser inútiles en el futuro si cambian las dinámicas del flujo. Los algoritmos presentados en esta tesis son capaces de modificar automáticamente los valores de sus parámetros, lo que por un lado facilita su uso por parte del usuario y por otro le permite adaptar sus modelos automáticamente a dinámicas desconocidas.