Guía DocenteCurso Facultade de Informática |
Mestrado Universitario en Computación |
Asignaturas |
Extracción e Recuperación da Información |
Contidos |
Datos Identificativos | 2012/13 | |||||||||||||
Asignatura | Extracción e Recuperación da Información | Código | 614434003 | |||||||||||
Titulación |
|
|||||||||||||
Descriptores | Ciclo | Período | Curso | Tipo | Créditos | |||||||||
Mestrado Oficial | 1º cuadrimestre |
Primeiro | Obrigatoria | 6 | ||||||||||
|
Temas | Subtemas |
INTRODUCCIÓN A LA RECUPERACIÓN DE INFORMACIÓN (RI) | Modelo booleano de recuperación de información. Documentos, términos, vocabulario. Recuperación de información tolerante. |
MODELO DE ESPACIO VECTORIAL DE RI | Representación de docuementos, consultas y medidas de similaridad. Esquemas de pesado. Normalización. Implementación eficiente. |
MODELO CLASICO PROBABILISTICO DE RI | Probability Ranking Principle Derivación del modelo clásico probabilístico. Otros modelos probabilísticos: 2-Poisson, Okapi, Redes de Inferencia. Implementación eficiente. |
MODELO ESTADÍSTICO DE LENGUAJE DE RI | Modelos de lenguaje. Suavización. Aprendizaje y estimación de parámetros. Modelos de lengujaje basados en relevancia. Implementación eficiente. |
MODELO LATENT SEMANTIC INDEXING (LSI) | Reducción de dimensionalidad basada en SVD. Derivación del modelo LSI. Cuestiones sobre la escalabilidad del modelo y nuevas aproxiamciones: LSI eficiente, LPI, etc. |
EVALUACIÓN EN RI | Tareas y métricas. Colecciones de referencia. TREC, WEB, BLOGS Significancia estadística. |
REALIMENTACIÓN DE RELEVANCIA, CLUSTERING Y CLASIFICACIÓN | Realimentación de relevancia bajo el modelo vectorial (Rocchio) y probabilístico. Local Contex Analisys (LCA) y explansión de consultas. Clustering de documentos. Clasificación de documentos. |
CONSTRUCCIÓN Y COMPRESIÓN DE INDICES. PROCESAMIENTO DE QUERIES | Algoritmos de construcción de índices. Algoritmos de compresión de índices: compresión de listas, compresión de frecuencias, compresión del léxico. Procesamiento eficiente de consultas. |
RI WEB | Modelos de retrieval para el web. Análisis de links. Page Rank y HITS. Implementación de search engines. Oportunidades de RI en el web. |
RI PARALELA Y DISTRIBUIDA | RI paralela y distribuida. Modelos de RI distribuida: selección de recursos, enrutado de consultas, fusión de resultados. Aplicaciones novedoes en RI distribuida. |
PROCESAMIENTO DEL LENGUAJE NATURAL (PLN) EN RI | Variación lingüística. Tratamiento de la variación morfológica. Stemming. Tratamiento de la variación léxico-semántica. WordNet y EuroWordNet. Tratamiento de la variación sintáctica. |
RI MULTILINGÜE E INTERLINGÜE | Impacto del multilingüismo sobre la RI. Aproximaciones al problema del multilingüismo. Traducción Automática (TA): conceptos básicos y problemática. Aproximaciones a la TA: técnicas "clásicas" y técnicas estadísticas. Aplicaciones de la TA en RI Interlingüe. Foros de evaluación: CLEF, NTCIR y FIRE. |
EXTRACCIÓN DE INFORMACIÓN (EI) | Conceptos básicos. Arquitectura de un sistema de EI. Tareas de EI. Evaluación en EI. Ejemplos de sistemas de EI: FASTUS y otros. |
BÚSQUEDA DE RESPUESTAS (BR) | Conceptos básicos. BR vs. RI/EI. Arquitectura de un sistema de BR. Procesamiento de la pregunta. Recuperación y selección de documentos/pasajes. Extracción de la respuesta. Evaluación en BR. |
|