Datos Identificativos 2019/20
Asignatura (*) Recuperación de la Información Código 614G01040
Titulación
Grao en Enxeñaría Informática
Descriptores Ciclo Periodo Curso Tipo Créditos
Grado 2º cuatrimestre
Tercero Optativa 6
Idioma
Castellano
Modalidad docente Presencial
Prerrequisitos
Departamento Ciencias da Computación e Tecnoloxías da Información
Computación
Coordinador/a
Barreiro Garcia, Álvaro
Correo electrónico
alvaro.barreiro@udc.es
Profesorado
Barreiro Garcia, Álvaro
Correo electrónico
alvaro.barreiro@udc.es
Web http://http://www.dc.fi.udc.es/~barreiro/IRdocen/IRcourse.html
Descripción general Esta materia aborda a recuperación de información en repositorios de documentos textuais e a web. Estúdanse modelos, técnicas e algoritmos actuais que permiten o crawling, procesamento, indexación e procura en coleccións de textos do rango de gigabytes, ata os terabytes de información que se manexan na web. Nesta materia o estudante comprenderá a arquitectura dos motores de procura de internet usados polas grandes compañías de Search Engines (Google, Bing, Yahoo, Yandex, etc) e nas prácticas da mesma poderá desenvolver os módulos principais dun motor de procura. A Recuperación de Información e en particular na web expón extraordinarios retos debido ao volume e heteroxeneidade dos datos e fontes e ao amplo rango de intereses de usuarios privados e corporativos, por todo iso é un campo con amplas posibilidades de negocio e emprego en informática.

Competencias del título
Código Competencias del título
A17 Conocimiento y aplicación de las características, funcionalidades y estructura de los sistemas distribuidos, las redes de computadores e internet, y diseñar e implementar aplicaciones basadas en ellas.
A19 Conocimiento y aplicación de las herramientas necesarias para el almacenamiento, procesamiento y acceso a los sistemas de información, incluidos los basados en web.
A45 Capacidad para conocer y desarrollar técnicas de aprendizaje computacional y diseñar e implementar aplicaciones y sistemas que las utilicen, incluyendo las dedicadas a extracción automática de información y conocimiento a partir de grandes volúmenes de datos.
B1 Capacidad de resolución de problemas
B3 Capacidad de análisis y síntesis
B4 Capacidad para organizar y planificar
B5 Habilidades de gestión de la información
B6 Toma de decisiones
B7 Preocupación por la calidad
C2 Dominar la expresión y la comprensión de forma oral y escrita de un idioma extranjero.
C3 Utilizar las herramientas básicas de las tecnologías de la información y las comunicaciones (TIC) necesarias para el ejercicio de su profesión y para el aprendizaje a lo largo de su vida.
C6 Valorar críticamente el conocimiento, la tecnología y la información disponible para resolver los problemas con los que deben enfrentarse.
C7 Asumir como profesional y ciudadano la importancia del aprendizaje a lo largo de la vida.
C8 Valorar la importancia que tiene la investigación, la innovación y el desarrollo tecnológico en el avance socioeconómico y cultural de la sociedad.

Resultados de aprendizaje
Resultados de aprendizaje Competencias del título
Conocer, comprender y analizar los distintos modelos Recuperación de Información, las técnicas para su implementación eficiente y la metodología de evaluación de los mismos. A17
A19
A45
B1
B4
B5
B7
C2
C3
C6
C7
C8
Conocer, comprender y analizar las plataformas software para la creación de estos sistemas. A17
A19
B1
B4
B5
B6
C2
C6
C7
C8
Planear y realizar la evaluación de los sistemas Recuperación de Información . Analizar los resultados de la evaluación de los sistemas de RI para mejorarlos en su eficacia y eficiencia. A45
B1
B3
B4
B5
B6
C2
C6
C7
C8
Ser capaces de un correcto tratamiento de los aspectos éticos, de privacidad, confidencialidad y de seguridad de los estos sistemas. B1
B4
B5
B6
C2
C3
C6
C7
C8

Contenidos
Tema Subtema
Introducción
Recuperación de Información e Search Engines. Arquitectura dun Search Engine. Grandes retos.
Recopilación de información.
Crawling e feeds.
Procesamento de texto.
Preprocesamento. Parsing, documentos estructurados, anchor text e análisis de enlaces, internacionalización
Indices e procesado eficiente.
Indices Invertidos, compresión, construcción, procesado eficiente de consultas sobre índices invertidos
Formulación de consultas e presentación de resultados
Transformación de consultas, relevance feedback, pseudo-feedback, snippets e visualización de resultados
Modelos de recuperación de información.
Booleano, espacio vectorial, probabilístico, BM25, Language Models e Relevance Models.
Evaluación de sistemas de Recuperación de Información.
Datasets e iniciativas de evaluación. Métricas de eficacia e eficiencia. Training e test. Significancia estadística
Búsqueda distribuida e social.
eMeta-buscadores y búsqueda distribuida, blogs, redes sociais, sistemas de recomendación.

Planificación
Metodologías / pruebas Competéncias Horas presenciales Horas no presenciales / trabajo autónomo Horas totales
Lecturas A17 A19 A45 B3 B5 B7 C2 C6 C7 C8 2 12 14
Prácticas de laboratorio A17 A19 A45 B1 B4 B5 B6 B7 C3 14 21 35
Solución de problemas A17 A19 A45 B1 B5 B6 C6 C7 C8 4 12 16
Prueba mixta A17 A19 A45 B1 C2 C6 C7 C8 2 14 16
Trabajos tutelados A17 A19 A45 B7 C2 C3 C6 C7 C8 3 9 12
Sesión magistral A17 A19 A45 B7 C2 C6 C7 C8 19 38 57
 
Atención personalizada 0 0
 
(*)Los datos que aparecen en la tabla de planificación són de carácter orientativo, considerando la heterogeneidad de los alumnos

Metodologías
Metodologías Descripción
Lecturas Lecturas para consolidar y complementar los conocimientos adquiridos. Temas: técnicas, aplicaciones, sistemas industriales.
Prácticas de laboratorio Prácticas de laboratorio sobre plataformas de desarrollo de amplio uso na industria, en las compañias de Search Engines y en los grupos de investigación (Lucene y Nutch)
Solución de problemas Problemas y cuestiones breves para asentar y profundizar los contenidos expuestos en las sesiones magistrales.
Prueba mixta Prueba que versará sobre los contenidos fundamentales de la materia.
Trabajos tutelados Trabajos y problemas realizados de forma autónoma por el estudiante y tutelados por el profesor
Sesión magistral El estudiante asistirá a las explicaciones dadas por el profesor sobre los distintos modelos, técnicas y algoritmos de Recuperación de Información. El profesor utilizará distintos niveles de abstracción-detalle y orientará al estudiante en las lecturas fundamentales y complementarias.

Atención personalizada
Metodologías
Prácticas de laboratorio
Solución de problemas
Descripción


Lecturas: Las lecturas complementarias pueden requerir atención personalizada.
Problemas: Algunos problemas de mayor dificultad pueden requerir atención personalizada.
Prácticas laboratorio: Además de evaluar el resultado de la práctica conforme a los requisitos exigidos se hace un seguimiento del desarrollo de las mismas. Debe respetarse la autonomía del estudiante para que adquiera mayor destreza con las plataformas software empleados pero el profesor podrá resolver ciertas dificultades que puedan bloquear al estudiante un tiempo excesivo dada la planificación de la asignatura.

Evaluación
Metodologías Competéncias Descripción Calificación
Prácticas de laboratorio A17 A19 A45 B1 B4 B5 B6 B7 C3 Seguimiento de las prácticas y evaluación sobre el resultado alcanzado. 30
Sesión magistral A17 A19 A45 B7 C2 C6 C7 C8 Los contenidos de las sesiones magistrales serán evaluados en la prueba mixta. 0
Solución de problemas A17 A19 A45 B1 B5 B6 C6 C7 C8 Asistencia a las actividades, participación y resultados en la realización de problemas y trabajos tutelados. 20
Prueba mixta A17 A19 A45 B1 C2 C6 C7 C8 Preguntas sobre los conocimientos adquiridos en las sesiones magistrales, actividades prácticas y de problemas y trabajos. ES obligatorio alcanzar un 40% de la calificación para superar la materia.

50
 
Observaciones evaluación

Si no se obtiene la puntuación mínima en la parte que lo requieren, la nota máxima del alumno será 4'5
Para los alumnos a tiempo parcial el baremo de califiaciones y la evaluación continua son los mismos que para los otros alumnos.


Fuentes de información
Básica W.B. Croft, D. Metzler, T. Strohman. (2009). Search Engines. Information Retrieval in Practice. Pearson Education

Complementária C.D. Manning, P. Raghavan, H. Schutze. ( 2008). Introduction to Information Retrieval. Cambridge University Press
R. Baeza-Yates and B. Ribeiro-Neto (2011). Modern Information Retrieval (second edition). Addison Wesley/Pearson Education
F. Cacheda, J.M. Fernández, J. Huete (editores) (2011). Recuperación de Información. Un enfoque práctico y multidisciplinar. . Ra-Ma


Recomendaciones
Asignaturas que se recomienda haber cursado previamente

Asignaturas que se recomienda cursar simultáneamente

Asignaturas que continúan el temario

Otros comentarios


(*) La Guía Docente es el documento donde se visualiza la propuesta académica de la UDC. Este documento es público y no se puede modificar, salvo cosas excepcionales bajo la revisión del órgano competente de acuerdo a la normativa vigente que establece el proceso de elaboración de guías