Datos Identificativos 2022/23
Asignatura (*) Recuperación de Información Código 614G02027
Titulación
Grao en Ciencia e Enxeñaría de Datos
Descriptores Ciclo Período Curso Tipo Créditos
Grao 2º cuadrimestre
Terceiro Obrigatoria 6
Idioma
Castelán
Modalidade docente Presencial
Prerrequisitos
Departamento Ciencias da Computación e Tecnoloxías da Información
Coordinación
Parapar López, Javier
Correo electrónico
javier.parapar@udc.es
Profesorado
Parapar López, Javier
Correo electrónico
javier.parapar@udc.es
Web http://www.dc.fi.udc.es/~parapar/
Descrición xeral Tradicionalmente, os documentais, bibliotecarios ou avogados utilizaron sistemas de recuperación de información para buscar rexistros. Hoxe en día a situación cambiou radicalmente, centos de millóns de persoas usan diariamente sistemas de recuperación de información: buscan na web, buscan na caixa de correo, buscan no ordenador ou reciben recomendacións para o consumo de contido. A recuperación de información converteuse na área dominante no acceso á información, superando as bases de datos tradicionais. Os sistemas de recuperación de información son capaces de resolver as necesidades do usuario en canto a textos non estruturados sen necesidade de que o usuario teña que facer explícita a súa consulta dun xeito estándar. Esta materia explorará os conceptos teóricos que soportan o acceso á información e os sistemas de recuperación, así como o software e as ferramentas para construír sistemas avanzados de busca e filtrado.

Competencias do título
Código Competencias do título
A27 CE27 - Compresión e dominio de fundamentos e técnicas básicas para a procura e o filtrado de información en grandes coleccións de datos.
B2 CB2 - Que os estudantes saiban aplicar os seus coñecementos ao seu traballo ou vocación dunha forma profesional e posúan as competencias que adoitan demostrarse por medio da elaboración e defensa de argumentos e a resolución de problemas dentro da súa área de estudo
B3 CB3 - Que os estudantes teñan a capacidade de reunir e interpretar datos relevantes (normalmente dentro da súa área de estudo) para emitir xuízos que inclúan unha reflexión sobre temas relevantes de índole social, científica ou ética
B4 CB4 - Que os estudantes poidan transmitir información, ideas, problemas e solucións a un público tanto especializado como non especializado
B7 CG2 - Elaborar adecuadamente e con certa orixinalidade composicións escritas ou argumentos motivados, redactar plans, proxectos de traballo, artigos científicos e formular hipóteses razoables.
B8 CG3 - Ser capaz de manter e estender formulacións teóricas fundadas para permitir a introdución e explotación de tecnoloxías novas e avanzadas no campo.
B9 CG4 - Capacidade para abordar con éxito todas as etapas dun proxecto de datos: exploración previa dos datos, preprocesado, análise, visualización e comunicación de resultados.
B10 CG5 - Ser capaz de traballar en equipo, especialmente de carácter multidisciplinar, e ser hábiles na xestión do tempo, persoas e toma de decisións.
C1 CT1 - Utilizar as ferramentas básicas das tecnoloxías da información e as comunicacións (TIC) necesarias para o exercicio da súa profesión e para a aprendizaxe ao longo da súa vida.
C4 CT4 - Valorar a importancia que ten a investigación, a innovación e o desenvolvemento tecnolóxico no avance socioeconómico e cultural da sociedade.

Resultados de aprendizaxe
Resultados de aprendizaxe Competencias do título
Conocer, comprender y analizar los distintos modelos Recuperación de Información, las técnicas para su implementación eficiente y la metodología de evaluación de los mismos. A27
B3
B4
C1
C4
Conocer, comprender y analizar las plataformas software para la creación de estos sistemas. A27
B2
B4
B9
B10
Planear y realizar la evaluación de los sistemas Recuperación de Información . Analizar los resultados de la evaluación de los sistemas de RI para mejorarlos en su eficacia y eficiencia. B7
B8
C1
C4
Ser capaces de un correcto tratamiento de los aspectos éticos, de privacidad, confidencialidad y de seguridad de los estos sistemas. A27
B4
B9
C4

Contidos
Temas Subtemas
Arquitectura básica dun buscador A arquitectura básica dun motor de busca
Análise e procesamento de textos Do documento ós tokens do indice
Contrucción de índices e procesamento de consultas Arquivos invertidos e estratexias de procesamento de consultas
Avaliación en recuperación de información Métricas e métodos
Modelos de espazo booleano e vectorial Modelos básicos de busca
Modelos de linguaxe Modelos estatísticos de linguaxe
Operacións de retroalimentación e consulta Relevancia e reformulación de consultas
Análise de ligazóns Análise de grafos web

Planificación
Metodoloxías / probas Competencias Horas presenciais Horas non presenciais / traballo autónomo Horas totais
Prácticas de laboratorio B2 B7 B9 B10 C1 14 42 56
Traballos tutelados B4 B7 B9 5 7.5 12.5
Proba mixta A27 B2 B4 B7 B8 2 13 15
Sesión maxistral A27 B3 B4 B8 C4 19 47.5 66.5
 
Atención personalizada 0 0
 
*Os datos que aparecen na táboa de planificación son de carácter orientativo, considerando a heteroxeneidade do alumnado

Metodoloxías
Metodoloxías Descrición
Prácticas de laboratorio Prácticas de laboratorio sobre plataformas de desenvolvemento de amplio uso na industria, nas compañias de Search Engines e nos grupos de investigación
Traballos tutelados Traballos e problemas realizados de forma autónoma polo estudiante e tutelados polo profesor
Proba mixta Prueba que versará sobre os contidos fundamentais da materia.
Sesión maxistral O estudante asistirá ás explicacións dadas polo profesor sobre os distintos modelos, técnicas e algoritmos de Recuperación de Información. O profesor utilizará distintos niveis de abstracción-detalle e orientará ao estudante nas lecturas fundamentais e complementarias.

Atención personalizada
Metodoloxías
Prácticas de laboratorio
Traballos tutelados
Descrición
Prácticas laboratorio y trabajos tutleados: Además de evaluar el resultado de la práctica conforme a los requisitos exigidos se hace un seguimiento del desarrollo de las mismas. Debe respetarse la autonomía del estudiante para que adquiera mayor destreza con las plataformas software empleados pero el profesor podrá resolver ciertas dificultades que puedan bloquear al estudiante un tiempo excesivo dada la planificación de la asignatura.

Avaliación
Metodoloxías Competencias Descrición Cualificación
Prácticas de laboratorio B2 B7 B9 B10 C1 Seguimento, defensa e avaliación dos resultados das prácticas realizados nas horas de clases prácticas de laboratorio.
É obrigatorio alcanzar un 40% da cualificación para superar a materia
40
Traballos tutelados B4 B7 B9 Participación e resultados na realización dos traballos e/ou cuestións. 10
Proba mixta A27 B2 B4 B7 B8 Preguntas sobre os coñecementos adquiridos nas sesións maxistrais, actividades prácticas e de problemas e traballos.
É obrigatorio alcanzar un 40% da cualificación para superar a materia
50
 
Observacións avaliación

Para a segunda oportunidade e as
convocatorias non ordinarias, tanto as prácticas e traballos como a
teorías avaliaranse no exame mixto. Se non se acada a nota mínima nas
distintas probas a nota máxima do alumno será 4.5

Na  realización  de  traballos,  o  plaxio  e  a  utilización  de  material  non  orixinal,  incluído  aquel  obtido  a  través  da  internet,  sen  indicación  expresa  da  súa  procedencia  e,  se  é  o  caso,  o  permiso  do  seu  autor/a,  poderá  ser  considerada  causa  de  cualificación  de  suspenso.  Todo  iso  sen  prexuízo  das  responsabilidades  disciplinarias  ás  que  puidese  haber  lugar tras o correspondente procedemento


Fontes de información
Bibliografía básica C.D. Manning, P. Raghavan, H. Schutze (2008). Introduction to Information Retrieval. Cambridge University Press
Baeza-Yates and B. Ribeiro-Neto (2011). Modern Information Retrieval (second edition). Addison Wesley/Pearson Education
F. Cacheda, J.M. Fernández, J. Huete (editores) (2011). Recuperación de Información. Un enfoque práctico y multidisciplinar. Ra-Ma
W.B. Croft, D. Metzler, T. Strohman (2009). Search Engines. Information Retrieval in Practice. Pearson Education

Bibliografía complementaria Amy N. Langville, Carl D. D. Meyer (2011). Google's PageRank and Beyond: The Science of Search Engine Rankings. Princeton University Press
Ian H. Witten (1999). Managing Gigabytes: Compressing and Indexing Documents and Images. Morgan Kaufmann


Recomendacións
Materias que se recomenda ter cursado previamente

Materias que se recomenda cursar simultaneamente

Materias que continúan o temario

Observacións


(*)A Guía docente é o documento onde se visualiza a proposta académica da UDC. Este documento é público e non se pode modificar, salvo casos excepcionais baixo a revisión do órgano competente dacordo coa normativa vixente que establece o proceso de elaboración de guías