Advances on supervised and unsupervised learning of Bayesian network modelsapplication to population genetics
- Santafé Rodrigo, Guzmán
- José Antonio Lozano Alonso Director/a
- Pedro Larrañaga Múgica Director/a
Universidad de defensa: Universidad del País Vasco - Euskal Herriko Unibertsitatea
Fecha de defensa: 07 de marzo de 2008
- Serafin Moral Presidente/a
- Iñaki Inza Cano Secretario/a
- Antonio Salmerón Cerdán Vocal
- Jesús Cerquides Bueno Vocal
- Xiaohiu Liu Vocal
Tipo: Tesis
Resumen
La clasificación supervisada y el clustering de datos son dos disciplinas fundamentales en los campos conocidos como minería de datos y aprendizaje automático, En ambas disciplinas los modelos gráficos probabilísticos en general, y más en concreto las redes Bayesianas, son paradigmas que gozan de gran popularidad debido a la transparencia que ofrecen a la hora de representar la incertidumbre y de modelar las relaciones de dependencia/independencia subyacentes a los datos así como debido a sus fuertes fundamentos teóricos basados en la teoría de la probabilidad. Esta tesis pretende contribuir al estado del arte tanto de la clasificación supervisada como del clustering de datos con la propuesta de nuevos algoritmos de aprendizaje de redes Bayesianas. En el caso de la clasificación supervisada, los desarrollos propuestos se basan en el aprendizaje discriminativo de clasificadores Bayesianos. Este tipo de aprendizaje es, en principio, una forma más natural de aprender modelos para clasificación ya que trata directamente e modelar la relación de las variables predoctoras con la variable a predecir o variable clase. A lo largo de la tesis se discute sobre las mejoras que el aprendizaje discriminativo puede aportar sobre tradicionales métodos generativos de aprendizaje de redes Bayesianas y se proponen nuevos algoritmos para el aprendizaje discriminativo de parámetros y estructura para dichos modelos. Por otra parte, los desarrollos propuestos relativos al clustering de datos están centrados en lo que se conoce como promediado Bayesiano de redes Bayesianas para clustering son intratables. En la tesis se proponen nuevos algoritmos que permiten, de forma eficiente, aproximar el promediado de modelos Naike Bayes y TAN, respectivamente, para clustering. Estos algoritmos propuestos son evaluados empíricamente para probar su funcionalidad y posible utilidad. Dicha utilidad queda comprobada con la aplicación de uno de los métodos propuestos para resolver el problema de la inferencia de la estructura de una población en base a polimorfismos de ADN, el cual es un problema muy habitual en el mundo de la genética de poblaciones.