Deep learning for enhancing object detection in autonomous driving

  1. Carranza García, Manuel
Dirigida por:
  1. José Cristobal Riquelme Santos Director/a
  2. Jorge García Gutiérrez Director/a

Universidad de defensa: Universidad de Sevilla

Fecha de defensa: 20 de junio de 2022

Tipo: Tesis

Resumen

La conducción autónoma es uno de los retos tecnológicos más importantes de este siglo. Su desarrollo está destinado a revolucionar nuestra manera de entender la movilidad y a solventar numerosos problemas asociados a ella. Esta tecnología tiene un gran potencial para mejorar aspectos tan relevantes como la seguridad en la carretera, o la reducción del tráfico y la contaminación. A pesar de los recientes avances en inteligencia artificial, aún existen numerosos retos a resolver para que los vehículos autónomos lleguen a ser una realidad completamente fiable y segura. Entre ellos, la correcta percepción del entorno es fundamental. Los vehículos tienen que ser capaces de detectar los distintos elementos participantes del tráfico y anticipar sus movimientos de forma precisa, robusta, y en tiempo real, lo cual aumenta la complejidad del problema. En esta tesis doctoral, presentada por compendio de artículos, se exploran nuevos enfoques para mejorar los sistemas de percepción de los vehículos autónomos usando los datos que proporcionan los sensores a bordo. En concreto, se desarrollan nuevas técnicas de aprendizaje profundo (deep learning) para mejorar el rendimiento en la tarea de detección de objetos, abordando el problema desde distintas perspectivas. Los trabajos de investigación realizados utilizan datos reales de empresas de conducción autónoma como Waymo o Motional, los cuales han sido compartidos recientemente para que la comunidad investigadora pueda ayudar al progreso de esta tecnología. En primer lugar, se lleva a cabo una revisión experimental de detectores deep learning para el vehículo autónomo. En este trabajo se analiza el balance entre eficiencia y eficacia de treinta detectores distintos, lo cual es esencial en esta aplicación en tiempo real. Esto permite identificar los modelos más adecuados en este contexto, así como posibles líneas de investigación para mejorar el rendimiento. En segundo lugar, se diseña un detector específicamente adaptado a las particularidades de este escenario. Se desarrolla un método de optimización de anchors, basado en algoritmos evolutivos, que tiene en cuenta la perspectiva de las cámaras del vehículo. Además, se exploran distintas estrategias de aprendizaje para tratar el problema del desbalanceo entre las distintas clases de objetos, diseñando una nueva función de coste más efectiva y un modelo ensemble. Las modificaciones propuestas proporcionan una mejora significativa respecto a la configuración genérica por defecto, sin aumentar el coste computacional requerido en inferencia. En tercer lugar, se desarrolla una nueva arquitectura de fusión de datos de cámaras y sensores LiDAR para crear un sistema de detección más robusto. En concreto, se propone integrar dentro del detector una red neuronal eficiente que densifica de los mapas de profundidad LiDAR. Mediante aprendizaje por transferencia, se consigue mejorar la resolución de estos datos y obtener una fusión más efectiva con las imágenes RGB. Este método incrementa la precisión bajo condiciones de luminosidad muy diversas, especialmente de noche, respecto a otros enfoques que usan algoritmos clásicos para preprocesar las proyecciones LiDAR. Por último, se ha implementado un método para explotar la información temporal naturalmente presente en las secuencias de datos LiDAR recogidas por el vehículo. La propuesta añade una capa Transformer con un mecanismo de atención capaz de capturar las dependencias espacio-temporales en los datos, alcanzando así un mejor rendimiento en la detección de objetos.