Datos Identificativos 2020/21
Asignatura (*) Recuperación da Información Código 614G01040
Titulación
Grao en Enxeñaría Informática
Descriptores Ciclo Período Curso Tipo Créditos
Grao 2º cuadrimestre
Terceiro Optativa 6
Idioma
Castelán
Modalidade docente Híbrida
Prerrequisitos
Departamento Ciencias da Computación e Tecnoloxías da Información
Computación
Coordinación
Barreiro Garcia, Álvaro
Correo electrónico
alvaro.barreiro@udc.es
Profesorado
Barreiro Garcia, Álvaro
Landín Piñeiro, Alfonso
Correo electrónico
alvaro.barreiro@udc.es
alfonso.landin@udc.es
Web http://http://www.dc.fi.udc.es/~barreiro/IRdocen/IRcourse.html
Descrición xeral Esta materia aborda a recuperación de información en repositorios de documentos textuais e a web. Estúdanse modelos, técnicas e algoritmos actuais que permiten o crawling, procesamento, indexación e procura en coleccións de textos do rango de gigabytes, ata os terabytes de información que se manexan na web. Nesta materia o estudante comprenderá a arquitectura dos motores de procura de internet usados polas grandes compañías de Search Engines (Google, Bing, Yahoo, Yandex, etc) e nas prácticas da mesma poderá desenvolver os módulos principais dun motor de procura. A Recuperación de Información e en particular na web expón extraordinarios retos debido ao volume e heteroxeneidade dos datos e fontes e ao amplo rango de intereses de usuarios privados e corporativos, por todo iso é un campo con amplas posibilidades de negocio e emprego en informática.
Plan de continxencia 1. Modificacións nos contidos
Sin modificacións.
2. Metodoloxías
*Metodoloxías docentes que se manteñen
Todas
*Metodoloxías docentes que se modifican
Ninguna
3. Mecanismos de atención personalizada ao alumnado
Mail, teams e moodle.

4. Modificacións na avaliación
Ningunha

*Observacións de avaliación:
Esta asignatura está planeada como híbrida xa que a proba final realizarase de forma presencial si a situación o permite.


5. Modificacións da bibliografía ou webgrafía
Sin modificacións

Competencias do título
Código Competencias do título
A17 Coñecemento e aplicación das características, funcionalidades e estrutura dos sistemas distribuídos, as redes de computadores e internet, e deseñar e implementar aplicacións baseadas nelas.
A19 Coñecemento e aplicación das ferramentas necesarias para o almacenamento, procesamento e acceso aos sistemas de información, incluídos os baseados en web.
A45 Capacidade para coñecer e desenvolver técnicas de aprendizaxe computacional e deseñar e implementar aplicacións e sistemas que as utilicen, incluídas as dedicadas á extracción automática de información e coñecemento a partir de grandes volumes de datos.
B1 Capacidade de resolución de problemas
B3 Capacidade de análise e síntese
B4 Capacidade para organizar e planificar
B5 Habilidades de xestión da información
B6 Toma de decisións
B7 Preocupación pola calidade
C2 Dominar a expresión e a comprensión de forma oral e escrita dun idioma estranxeiro.
C3 Utilizar as ferramentas básicas das tecnoloxías da información e as comunicacións (TIC) necesarias para o exercicio da súa profesión e para a aprendizaxe ao longo da súa vida.
C6 Valorar criticamente o coñecemento, a tecnoloxía e a información dispoñible para resolver os problemas cos que deben enfrontarse.
C7 Asumir como profesional e cidadán a importancia da aprendizaxe ao longo da vida.
C8 Valorar a importancia que ten a investigación, a innovación e o desenvolvemento tecnolóxico no avance socioeconómico e cultural da sociedade.

Resultados de aprendizaxe
Resultados de aprendizaxe Competencias do título
Coñecer, comprender e analizar os distintos modelos Recuperación de Información, as técnicas para a súa implementación eficiente e a metodoloxía de avaliación dos mesmos. A17
A19
A45
B1
B4
B5
B7
C2
C3
C6
C7
C8
Coñecer, comprender e analizar as plataformas software para a creación destes sistemas. A17
A19
B1
B4
B5
B6
C2
C6
C7
C8
Planear e realizar a avaliación dos sistemas Recuperación de Información . Analizar os resultados da avaliación dos sistemas de RI para melloralos na súa eficacia e eficiencia. A45
B1
B3
B4
B5
B6
C2
C6
C7
C8
Ser capaces dun correcto tratamento dos aspectos éticos, de privacidade, confidencialidade e de seguridade dos estes sistemas. B1
B4
B5
B6
C2
C3
C6
C7
C8

Contidos
Temas Subtemas
Introducción
Recuperación de Información e Search Engines. Arquitectura dun Search Engine. Grandes retos.
Recopilación de información.
Crawling e feeds.
Procesamento de texto.
Preprocesamento. Parsing, documentos estructurados, anchor text e análisis de enlaces, internacionalización
Indices e procesado eficiente.
Indices Invertidos, compresión, construcción, procesado eficiente de consultas sobre índices invertidos
Formulación de consultas e presentación de resultados
Transformación de consultas, relevance feedback, pseudo-feedback, snippets e visualización de resultados
Modelos de recuperación de información.
Booleano, espacio vectorial, probabilístico, BM25, Language Models e Relevance Models.
Evaluación de sistemas de Recuperación de Información.
Datasets e iniciativas de evaluación. Métricas de eficacia e eficiencia. Training e test. Significancia estadística
Búsqueda distribuida e social.
eMeta-buscadores y búsqueda distribuida, blogs, redes sociais, sistemas de recomendación.

Planificación
Metodoloxías / probas Competencias Horas presenciais Horas non presenciais / traballo autónomo Horas totais
Lecturas A17 A19 A45 B3 B5 B7 C2 C6 C7 C8 2 12 14
Prácticas de laboratorio A17 A19 A45 B1 B4 B5 B6 B7 C3 14 21 35
Solución de problemas A17 A19 A45 B1 B5 B6 C6 C7 C8 4 12 16
Proba mixta A17 A19 A45 B1 C2 C6 C7 C8 2 14 16
Traballos tutelados A17 A19 A45 B7 C2 C3 C6 C7 C8 3 9 12
Sesión maxistral A17 A19 A45 B7 C2 C6 C7 C8 19 38 57
 
Atención personalizada 0 0
 
*Os datos que aparecen na táboa de planificación son de carácter orientativo, considerando a heteroxeneidade do alumnado

Metodoloxías
Metodoloxías Descrición
Lecturas Lecturas para consolidar e complementar os coñecementos adquiridos. Temas: técnicas, aplicaciones, sistemas industriales.
Prácticas de laboratorio Prácticas de laboratorio sobre plataformas de desenvolvemento de amplio uso na industria, nas compañias de Search Engines e nos grupos de investigación (Lucene y Nutch)
Solución de problemas Problemas e cuestións breves para asentar e profundizar nos contidos exposto nas sesións maxistrais.
Proba mixta Prueba que versará sobre os contidos fundamentais da materia.
Traballos tutelados Trabajos e problemas realizados de forma autónoma polo estudiante e tutelados polo l profesor
Sesión maxistral O estudante asistirá ás explicacións dadas polo profesor sobre os distintos modelos, técnicas e algoritmos de Recuperación de Información. O profesor utilizará distintos niveis de abstracción-detalle e orientará ao estudante nas lecturas fundamentais e complementarias.

Atención personalizada
Metodoloxías
Prácticas de laboratorio
Solución de problemas
Descrición


Lecturas: Las lecturas complementarias pueden requerir atención personalizada.
Problemas: Algunos problemas de mayor dificultad pueden requerir atención personalizada.
Prácticas laboratorio: Además de evaluar el resultado de la práctica conforme a los requisitos exigidos se hace un seguimiento del desarrollo de las mismas. Debe respetarse la autonomía del estudiante para que adquiera mayor destreza con las plataformas software empleados pero el profesor podrá resolver ciertas dificultades que puedan bloquear al estudiante un tiempo excesivo dada la planificación de la asignatura.

Avaliación
Metodoloxías Competencias Descrición Cualificación
Prácticas de laboratorio A17 A19 A45 B1 B4 B5 B6 B7 C3 Seguimento, defensa e avaliación dos resultados das prácticas realizados nas horas de clases prácticas de laboratorio. 30
Sesión maxistral A17 A19 A45 B7 C2 C6 C7 C8 Os contidos das sesións maxistrais serán avaliados na proba mixta. 0
Solución de problemas A17 A19 A45 B1 B5 B6 C6 C7 C8 Asistencia ás actividades, participación e resultados na realización de problemas, traballos e/ou cuestións. 20
Proba mixta A17 A19 A45 B1 C2 C6 C7 C8 Preguntas sobre os coñecementos adquiridos nas sesións maxistrais, actividades prácticas e de problemas e traballos.
É obrigatorio alcanzar un 40% da cualificación para superar a materia
50
 
Observacións avaliación

Se non se obtén a puntuación mínima nas partes que o requiren, a nota máxima do alumno será 4'5
Para os alumnos a tempo parcial o baremo de cualificación e a avaliación continua son os mesmos que para os outros alumnos.


Fontes de información
Bibliografía básica W.B. Croft, D. Metzler, T. Strohman. (2009). Search Engines. Information Retrieval in Practice. Pearson Education

Bibliografía complementaria C.D. Manning, P. Raghavan, H. Schutze. ( 2008). Introduction to Information Retrieval. Cambridge University Press
R. Baeza-Yates and B. Ribeiro-Neto (2011). Modern Information Retrieval (second edition). Addison Wesley/Pearson Education
F. Cacheda, J.M. Fernández, J. Huete (editores) (2011). Recuperación de Información. Un enfoque práctico y multidisciplinar. . Ra-Ma


Recomendacións
Materias que se recomenda ter cursado previamente

Materias que se recomenda cursar simultaneamente

Materias que continúan o temario

Observacións


(*)A Guía docente é o documento onde se visualiza a proposta académica da UDC. Este documento é público e non se pode modificar, salvo casos excepcionais baixo a revisión do órgano competente dacordo coa normativa vixente que establece o proceso de elaboración de guías