Se estudiarán los métodos que permiten procesar distintas variedades de datos no estructurados: textos en lenguaje natural, imágenes y sonido, con especial énfasis en los contenidos generados por usuarios (web y redes sociales). Se aplicarán técnicas de aprendizaje automático para la extracción de conocimiento a partir de información no estructurada con objetivos y tareas concretas, como la clasificación de documentos, cálculo de similitud de textos, sentiment analysis, sistemas de reputación on-line, sistemas de recomendación, reconocimiento y clasificación de imágenes y sonido, etc.

Módulo: Ingeniería de Datos

5 ECTS

Tecnologías utilizadas:

Python, NLTK, Panda, skLearn, Keras

Impartido por:
Fermín Cruz Mata (Universidad de Sevilla - Lenguajes y Sistemas Informáticos)

Fermín Cruz Mata es Doctor en Ingeniería Informática por la Universidad de Sevilla. Su tesis doctoral se ocupó de la extracción automática de opiniones vertidas por usuarios en reviews de productos. Su actividad investigadora se centra principalmente en el Procesamiento del Lenguaje Natural, con especial énfasis en el tratamiento de textos de carácter subjetivo extraídos de la web y redes sociales.

F. Javier Ortega Rodríguez (Universidad de Sevilla - Lenguajes y Sistemas Informáticos)

F. Javier Ortega Rodríguez es Doctor en Ingeniería Informática por la Universidad de Sevilla. Su tesis doctoral estudiaba la detección de comportamientos sospechosos en redes on-line en dos vertientes: detección de spam en la web y detección de trolls en redes sociales, mediante el análisis conjunto de información estructurada y no estructurada. Su actividad investigadora se centra principalmente en el Procesamiento del Lenguaje Natural, con especial énfasis en el análisis de redes sociales y el tratamiento de textos de carácter subjetivo extraídos de la web.