Esta materia proporciona un primeiro contacto do alumnado coa modelización estatística de grandes conxuntos de datos: técnicas de análise multivariante, ferramentas estatísticas e programas informáticos avanzados para a análise de datos de alta dimensión, identificación das vantaxes e limitacións dos diferentes métodos, e procedementos de crítica, diagnose e interpretación dos resultados en termos do problema proposto.
Competencias del título
Código
Competencias / Resultados del título
A17
CE17 - Capacidad para la construcción, validación y aplicación de un modelo estocástico de un sistema real a partir de los datos observados y el análisis crítico de los resultados obtenidos.
A20
CE20 - Conocimiento de las herramientas informáticas en el campo del análisis de los datos y modelización estadística, y capacidad para seleccionar las más adecuadas para la resolución de problemas.
B2
CB2 - Que los estudiantes sepan aplicar sus conocimientos a su trabajo o vocación de una forma profesional y posean las competencias que suelen demostrarse por medio de la elaboración y defensa de argumentos y la resolución de problemas dentro de su área de estudio
B3
CB3 - Que los estudiantes tengan la capacidad de reunir e interpretar datos relevantes (normalmente dentro de su área de estudio) para emitir juicios que incluyan una reflexión sobre temas relevantes de índole social, científica o ética
B7
CG2 - Elaborar adecuadamente y con cierta originalidad composiciones escritas o argumentos motivados, redactar planes, proyectos de trabajo, artículos científicos y formular hipótesis razonables.
B8
CG3 - Ser capaz de mantener y extender planteamientos teóricos fundados para permitir la introducción y explotación de tecnologías nuevas y avanzadas en el campo.
B9
CG4 - Capacidad para abordar con éxito todas las etapas de un proyecto de análisis de datos: exploración previa de los datos, preprocesado, análisis, visualización y comunicación de resultados.
B10
CG5 - Ser capaz de trabajar en equipo, especialmente de carácter multidisciplinar, y ser hábiles en la gestión del tiempo, personas y toma de decisiones.
C1
CT1 - Utilizar las herramientas básicas de las tecnologías de la información y las comunicaciones (TIC) necesarias para el ejercicio de su profesión y para el aprendizaje a lo largo de su vida.
Resultados de aprendizaje
Resultados de aprendizaje
Competencias / Resultados del título
Conocer las principales técnicas del análisis estadístico multivariante.
A17
B2 B8 B9 B10
C1
Conocer los principales problemas que pueden surgir al trabajar con datos de alta dimensión.
A17 A20
B2 B3 B9 B10
C1
Saber seleccionar las principales variables y modelos en problemas reales.
A17 A20
B2 B3 B8 B9
C1
Ser capaz de aplicar las principales técnicas de análisis multivariante a conjuntos de datos reales o simulados.
A17 A20
B2 B3 B7 B8 B9 B10
C1
Ser capaz de interpretar los resultados y conocer las limitaciones de los métodos de análisis estadístico multivariante.
A17 A20
B2 B3 B7 B8 B9 B10
C1
Saber manejar con soltura programas informáticos avanzados de análisis estadístico.
A20
B2 B10
C1
Contenidos
Tema
Subtema
0. Distribuciones multidimensionales
0.1 Concepto de distribución multidimensional
0.2 Matriz de varianzas-covarianzas. Transformaciones lineales
0.3 Normal multidimensional: definición y propiedades
1. Métodos de reducción de la dimensión
1.1 Objetivos del Análisis de Componentes Principales (ACP)
1.2 Transformaciones para conseguir incorrelación
1.3 Obtención de las componentes principales
1.4 Componentes principales y cambios de escala
1.5 Interpretación de las componentes principales
1.6 Análisis factorial
1.7 Escalamiento multidimensional
2. Clasificación no supervisada
2.1 Objetivos de la clasificación no supervisada: métodos jerárquicos y no jerárquicos
2.2 Análisis clúster: planteamiento y objetivos
2.3 Árbol jerárquico o dendograma
2.4 Similitudes y discrepancias entre observaciones
2.5 Criterios para la formación de grupos: encadenamiento simple, completo, promedio del grupo, método del centroide, método de Ward
2.6 Métodos no jerárquicos basados en distancias: vecinos más cercanos, k medias, métodos basados en estimación de la densidad
3. Clasificación supervisada
3.1 Objetivos de la clasificación supervisada: reglas de clasificación y criterios de error
3.2 Análisis factorial discriminante: planteamiento, objetivos y cálculo de los factores discriminantes
3.3 Análisis discriminante lineal de Fisher y análisis discriminante cuadrático
3.4 Regla discriminante de máxima verosimilitud, regla Bayes, reglas discriminantes no paramétricas
3.5 Relación con los modelos de regresión con respuesta binaria
3.6 Estimación de la probabilidad de clasificación incorrecta: validación cruzada y bootstrap
4. Modelos para datos de alta dimensión
4.1 Selección de variables en regresión: contrastes de significación.
4.2 El problema de los contrastes múltiples: false discovery rate (FDR) y familywise error rate (FWER)
4.3 Modelos de regresión de coeficientes dispersos: regresión riscal (ridge regression), lasso y sus variantes
4.4 Selección de variables y modelos con coeficientes dispersos en el caso de clasificación
(*)Los datos que aparecen en la tabla de planificación són de carácter orientativo, considerando la heterogeneidad de los alumnos
Metodologías
Metodologías
Descripción
Presentación oral
Presentación con ordenador.
Prácticas a través de TIC
Análisis estadístico de conjuntos de datos usando R.
Prueba de respuesta múltiple
Prueba de repuesta múltiple sobre conceptos.
Solución de problemas
Elección de las herramientas estadísticas y estrategias para resolver problemas. Formulación de modelos para datos multivariantes. Formulación de algoritmos para el análisis de datos de alta dimensión.
Atención personalizada
Metodologías
Prácticas a través de TIC
Solución de problemas
Descripción
Asistencia y participación en las clases teóricas.
Examen escrito de múltiple opción.
Trabajo de análisis de datos multivariantes.
Supuesto práctico a realizar por el alumno.
Práctica(s) de ordenador usando el software estatístico libre R.
40
Solución de problemas
A17 A33 A2 B2 B5 B6 B7 B8 B10
Contenido del trabajo en parejas.
10
Prueba de respuesta múltiple
A19 A24 A25 A1 B3 B8
Prueba(s) de comprensión de los conceptos impartidos.
40
Observaciones evaluación
La evaluación se realizará por medio de dos pruebas sobre prácticas con R, un trabajo en parejas, así como dos pruebas escritas de conceptos. La primera de las pruebas prácticas y la primera de conceptos se realizarán aproximadamente en la mitad del cuatrimestre, y corresponderán a los temas 0-2. Las segundas de cada una de esas pruebas se realizarán el día fijado para el examen final, en el mes de enero de 2023. Estas segundas pruebas corresponderán a toda la materia del curso, pero los/las alumnos/as que se hayan presentado a cada una de las pruebas de mitad del cuatrimestre, podrán liberarse de la materia de los temas 0-2, tratando solamente sus pruebas sobre los temas 3-4. La calificación tanto de la(s) prueba(s) de conceptos, como de la(s) prueba(s) sobre prácticas con R representarán el 40% de la calificación global, cada una. El 20% restante corresponderá al trabajo por parejas, que tiene que ser presentado en público por los alumnos, durante la segunda mitad del cuatrimestre. La mitad de la puntuación de este trabajo (10% de la calificación global) corresponde a la presentación oral del mismo.
En resumen, las ponderaciones de la evaluación quedarán de la siguiente forma:
Trabajo práctico en parejas: 20% del total (10% resolución del ejercicio práctico en R y 10% presentación oral).
Exámenes de conceptos: se realizarán dos exámenes de conceptos (cada uno con ponderación del 20% sobre el total). El primer examen, relacionado con los Bloques 0-2, tendrá lugar a mitad del cuatrimestre. El segundo examen, relacionado con los Bloques 3-4, se realizará el día del examen oficial. Se permite liberar materia, de forma que los estudiantes que aprueben el primer examen parcial, ya no se examinarán de los Bloques 0-2 en el examen oficial, al menos que quieran subir nota. Sin embargo, los estudiantes que suspendan o no se presenten al parcial, irán al examen oficial con esas dos partes, y la suma de ambas valdría un 40% sobre el total.
Exámenes prácticos: siguen la misma idea que los exámenes de conceptos. Se realizarán dos exámenes prácticos (cada uno con ponderación del 20% sobre el total), utilizando el software estadístico R. El primer examen, relacionado con las prácticas en R de los Bloques 0-2, tendrá lugar a mitad del cuatrimestre. El segundo examen, relacionado con las prácticas en R de los Bloques 3-4, se realizará el día del examen oficial. Se permite liberar materia, de forma que los estudiantes que aprueben el primer examen parcial, ya no se examinarán de las prácticas de los Bloques 0-2 en el examen oficial, al menos que quieran subir nota. Sin embargo, los estudiantes que suspendan o no se presenten al parcial, irán al examen oficial con esas dos partes, y la suma de ambas valdría un 40% sobre el total.
Para superar la materia será necesario obtener una calificación de por lo menos 5 sobre 10 en el conjunto de la materia.
En la oportunidad de julio, los alumnos se podrán liberar de hacer las pruebas correspondientes en las que su calificación en la oportunidad de enero fuera de por lo menos 4 sobre 10. A estos efectos, se necesita tener por lo menos un 4
sobre 10 en las pruebas parciales (T0-T2 o T3-T4) o bien en la prueba completa
(T0-T4), tanto de teoría como de prácticas, que se desee conservar para el
cálculo de la calificación final.
En la primera oportunidad (enero-febrero), solo los estudiantes que no se hayan presentado a ninguna de las pruebas evaluables que figuran arriba obtendrán la calificación de NO PRESENTADO. En julio obtendrán la calificación de NO PRESENTADO los estudiantes que no se hubieran presentado al examen final de esa fecha.
Si algún estudiante quiere hacer alguna de las pruebas en un idioma oficial específico (gallego o español), debe avisar al profesorado por lo menos 1 semana antes de la correspondiente prueba.
La realización fraudulenta de las pruebas o actividades de evaluación, una vez comprobada, implicará directamente la cualificación de suspenso en la convocatoria en que se cometa: el/la estudiante será cualificado con “suspenso” (nota numérica 0) en la convocatoria correspondiente del curso académico, tanto si la comisión de falta se produce en la primera oportunidad como en la segunda. Para esto, se procederá a modificar su cualificación en el acta de primera oportunidad, si fuera necesario.
Fuentes de información
Básica
Anderson, T.W. (2003). An Introduction to Multivariate Statistical Analysis. Wiley
Koch, I. (2014). Analysis of Multivariate and High-Dimensional Data. Cambridge University Press
Jobson, J.D. (1994). Applied Multivariate Data Analysis. Springer-Verlag
Johnson, R. A., Wichern, D. W. (2007). Applied multivariate statistical analysis. Prentice Hall
Muirhead, R.J. (1982). Aspects of multivariate statistical theory. John Wiley & Sons
Jambu, M. (1991). Exploratory and Multivariate Data Analysis. Boston, Academic Press
Wainwright, M.J. (2019). High-Dimensional Statistics: A Non-Asymptotic Viewpoint. Cambridge University Press
Giraud, C. (2014). Introduction to High-Dimensional Statistics. Chapman & Hall/CRC
Chatfield, C., Collins, A. J. (1980). Introduction to multivariate analysis. Chapman & Hall
Mardia, K.V., Kent, J.T., Bibby, J.M. (1994). Multivariate Analysis. Academic Press. Academic Press
Goldstein, M., Dillon,W. R. (1984). Multivariate Analysis: Methods and Applications. Wiley
Rencher, A.C. (1998). Multivariate Statistical Inference and Applications. Wiley
Complementária
Recomendaciones
Asignaturas que se recomienda haber cursado previamente
Introducción a las Bases de Datos/614G02008
Álgebra Lineal/614G02001
Cálculo Multivariable/614G02006
Matemática Discreta/614G02002
Fundamentos de Programación II/614G02009
Fundamentos de Programación I/614G02004
Inferencia Estadística/614G02007
Probabilidad y Estadística Básica/614G02003
Asignaturas que se recomienda cursar simultáneamente
Modelos de Regresión/614G02012
Asignaturas que continúan el temario
Técnicas de Simulación y Remuestreo/614G02036
Análisis Estadístico de Datos Complejos/614G02031
Aprendizaje Automático III/614G02026
Recuperación de Información/614G02027
Aprendizaje Automático I/614G02019
Aprendizaje Automático II/614G02021
Análisis Estadístico de Datos con Dependencia/614G02022
Otros comentarios
Según se recoge en las distintas normativas de aplicación para la docencia universitaria, se deberá incorporar la perspectiva de género en esta materia (se usará lenguaje no sexista, se utilizará bibliografía de autores/as de ambos sexos, se propiciará la intervención en clase de alumnos y alumnas, etc.)
Se trabajará para identificar y modificar prejuicios y actitudes sexistas y se influirá en el entorno para modificarlos y fomentar valores de respeto e igualdad.
Se deberán detectar situaciones de discriminación por razón de género y se propondrán acciones y medidas para corregir
las.
(*) La Guía Docente es el documento donde se visualiza la propuesta académica de la UDC. Este documento es público y no se puede modificar, salvo cosas excepcionales bajo la revisión del órgano competente de acuerdo a la normativa vigente que establece el proceso de elaboración de guías