Esta materia proporciona un primeiro contacto do alumnado coa modelización estatística de grandes conxuntos de datos: técnicas de análise multivariante, ferramentas estatísticas e programas informáticos avanzados para a análise de datos de alta dimensión, identificación das vantaxes e limitacións dos diferentes métodos, e procedementos de crítica, diagnose e interpretación dos resultados en termos do problema proposto.
Plan de contingencia
1. Modificacións nos contidos:
Non se realizarán cambios.
2. Metodoloxías:
• Metodoloxías docentes que se manteñen:
Probas resposta breve: realizarase unha proba de resposta breve, aproximadamente na metade do cuadrimestre, mediante a plataforma Moodle.udc.es. No día do exame oficial, en xaneiro de 2021, realizarase a segunda proba de resposta breve, tamén a través da plataforma Moodle.udc.es. Cada unha destas probas computa un 20% na avaliación.
Traballo tutelado: traballo práctico, en grupos de 2-4 persoas, que computa na avaliación (20%). A presentación oral (que computa o 10%) realizarase a través de TEAMS.
Probas sobre prácticas con R: realizarase unha proba, aproximadamente na metade do cuadrimestre, e entregarase mediante a plataforma Moodle.udc.es. No día do exame oficial, en xaneiro de 2021, realizarase o segundo exercicio avaliable en R, e tamén se fará a entrega a través da plataforma Moodle.udc.es. Cada unha destas probas computa un 20% na avaliación.
• Metodoloxías docentes que se modifican:
As sesións maxistrais: non computan na avaliación. Impartiranse usando TEAMS na franxa horaria que ten asignada a materia no calendario de aulas da facultade. Ademais, estas sesións por TEAMS poderanse complementar con vídeos explicativos.
As prácticas TIC: non computan na avaliación. Na modalidade presencial consistían en análises de datos usando software estatístico (R). Substitúense por vídeos onde se explica con detalle o desenvolvemento da práctica. Eses vídeos poderían ser realizados e gravados en TEAMS na mesma hora da clase, ou subidos á plataforma con anterioridade. Ademais, realizaranse titorías grupais semanais por TEAMS (ou mais segundo o demande o alumnado) para seguimento e apoio dos alumnos.
3. Mecanismos de atención personalizada ao alumnado:
Ferramenta: Correo Electrónico, Vídeo conferencia e Moodle.
Temporalización:
Correo Electrónico: Diariamente. De uso para facer consultas, solicitar encontros virtuais para resolver dúbidas e facer o seguimento dos traballos tutelados.
Vídeo conferencia (Teams): Dúas sesións semanais, para o avance dos contidos, na franxa horaria que ten asignada a materia no calendario de aulas da facultade. Tamén se realizarán titorías individuais e grupais fixadas previamente mediante correo electrónico.
Moodle: Diariamente, segundo a necesidade do alumnado. Presentaranse “foros temáticos” asociados aos módulos da materia, para formular as consultas necesarias.
4. Modificacións na avaliación:
Manterase o peso da cualificación en cada unha das probas. A diferencia está en que a presentación do traballo tutelado se realizará a través de TEAMS, e as probas (parciais e/ou finais) de conceptos realizaranse por Moodle e as de prácticas en R entregaranse por esa mesma plataforma.
Observacións de avaliación: Ao longo do curso realízanse dous parciais, un para a parte dos Bloques 0-2 e outro da parte dos Bloques 3-4, que permiten liberar a parte correspondente da materia.
5. Modificacións da bibliografía ou webgrafía:
Non se realizarán cambios. Xa dispoñen de todos os materiais de traballo da maneira dixitalizada en Moodle.
Competencias del título
Código
Competencias del título
A17
CE17 - Capacidad para la construcción, validación y aplicación de un modelo estocástico de un sistema real a partir de los datos observados y el análisis crítico de los resultados obtenidos.
A20
CE20 - Conocimiento de las herramientas informáticas en el campo del análisis de los datos y modelización estadística, y capacidad para seleccionar las más adecuadas para la resolución de problemas.
B2
CB2 - Que los estudiantes sepan aplicar sus conocimientos a su trabajo o vocación de una forma profesional y posean las competencias que suelen demostrarse por medio de la elaboración y defensa de argumentos y la resolución de problemas dentro de su área de estudio
B3
CB3 - Que los estudiantes tengan la capacidad de reunir e interpretar datos relevantes (normalmente dentro de su área de estudio) para emitir juicios que incluyan una reflexión sobre temas relevantes de índole social, científica o ética
B7
CG2 - Elaborar adecuadamente y con cierta originalidad composiciones escritas o argumentos motivados, redactar planes, proyectos de trabajo, artículos científicos y formular hipótesis razonables.
B8
CG3 - Ser capaz de mantener y extender planteamientos teóricos fundados para permitir la introducción y explotación de tecnologías nuevas y avanzadas en el campo.
B9
CG4 - Capacidad para abordar con éxito todas las etapas de un proyecto de análisis de datos: exploración previa de los datos, preprocesado, análisis, visualización y comunicación de resultados.
B10
CG5 - Ser capaz de trabajar en equipo, especialmente de carácter multidisciplinar, y ser hábiles en la gestión del tiempo, personas y toma de decisiones.
C1
CT1 - Utilizar las herramientas básicas de las tecnologías de la información y las comunicaciones (TIC) necesarias para el ejercicio de su profesión y para el aprendizaje a lo largo de su vida.
Resultados de aprendizaje
Resultados de aprendizaje
Competencias del título
Conocer las principales técnicas del análisis estadístico multivariante.
A17
B2 B8 B9 B10
C1
Conocer los principales problemas que pueden surgir al trabajar con datos de alta dimensión.
A17 A20
B2 B3 B9 B10
C1
Saber seleccionar las principales variables y modelos en problemas reales.
A17 A20
B2 B3 B8 B9
C1
Ser capaz de aplicar las principales técnicas de análisis multivariante a conjuntos de datos reales o simulados.
A17 A20
B2 B3 B7 B8 B9 B10
C1
Ser capaz de interpretar los resultados y conocer las limitaciones de los métodos de análisis estadístico multivariante.
A17 A20
B2 B3 B7 B8 B9 B10
C1
Saber manejar con soltura programas informáticos avanzados de análisis estadístico.
A20
B2 B10
C1
Contenidos
Tema
Subtema
0. Distribuciones multidimensionales
0.1 Concepto de distribución multidimensional
0.2. Matriz de varianzas-covarianzas. Transformaciones lineales
0.3. Normal multidimensional: definición y propiedades
1. Métodos de reducción de la dimensión
1.1 Objetivos del Análisis de Componentes Principales (ACP)
1.2 Transformaciones para conseguir incorrelación
1.3 Obtención de las componentes principales
1.4 Componentes principales y cambios de escala
1.5 Interpretación de las componentes principales
1.6 Análisis factorial
1.7 Escalamiento multidimensional
2. Clasificación no supervisada
2.1 Objetivos de la clasificación no supervisada: métodos jerárquicos y no jerárquicos
2.2 Análisis clúster: planteamiento y objetivos
2.3 Árbol jerárquico o dendograma
2.4 Similitudes y discrepancias entre observaciones
2.5 Criterios para la formación de grupos: encadenamiento simple, completo, promedio del grupo, método del centroide, método de Ward
2.6 Métodos no jerárquicos basados en distancias: vecinos más cercanos, k medias, métodos basados en estimación de la densidad
3. Clasificación supervisada
3.1 Objetivos de la clasificación supervisada: reglas de clasificación y criterios de error
3.2 Análisis factorial discriminante: planteamiento, objetivos y cálculo de los factores discriminantes
3.3 Análisis discriminante lineal de Fisher y análisis discriminante cuadrático
3.4 Regla discriminante de máxima verosimilitud, regla Bayes, reglas discriminantes no paramétricas
3.5 Relación con los modelos de regresión con respuesta binaria
3.6 Estimación de la probabilidad de clasificación incorrecta: validación cruzada y bootstrap
4. Modelos para datos de alta dimensión
4.1 Selección de variables en regresión: contrastes de significación.
4.2 El problema de los contrastes múltiples: false discovery rate (FDR) y familywise error rate (FWER)
4.3 Modelos de regresión de coeficientes dispersos: regresión riscal (ridge regression), lasso y sus variantes
4.4 Selección de variables y modelos con coeficientes dispersos en el caso de clasificación
(*)Los datos que aparecen en la tabla de planificación són de carácter orientativo, considerando la heterogeneidad de los alumnos
Metodologías
Metodologías
Descripción
Presentación oral
Presentación con ordenador.
Prácticas a través de TIC
Análisis estadístico de conjuntos de datos usando R.
Prueba de respuesta múltiple
Prueba de repuesta múltiple sobre conceptos.
Solución de problemas
Elección de las herramientas estadísticas y estrategias para resolver problemas. Formulación de modelos para datos multivariantes. Formulación de algoritmos para el análisis de datos de alta dimensión.
Atención personalizada
Metodologías
Prácticas a través de TIC
Solución de problemas
Descripción
Asistencia y participación en las clases teóricas.
Examen escrito de múltiple opción.
Trabajo de análisis de datos multivariantes.
Supuesto práctico a realizar por el alumno.
Práctica(s) de ordenador usando el software estatístico libre R.
40
Solución de problemas
A17 A33 A2 B2 B5 B6 B7 B8 B10
Contenido del trabajo por grupos relacionado con los temas 0-2.
10
Prueba de respuesta múltiple
A19 A24 A25 A1 B3 B8
Prueba(s) de comprensión de los conceptos impartidos.
40
Observaciones evaluación
La evaluación se realizará por medio de dos pruebas sobre prácticas con R, un trabajo por grupos de 2-4 estudiantes, así como dos pruebas escritas de conceptos. La primera de las pruebas prácticas y la primera de conceptos se realizarán en la misma fecha, aproximadamente en la mitad del cuatrimestre, y corresponderán a los temas 0-2. Las segundas de cada una de esas pruebas se realizarán también en la misma fecha, el día fijado para el examen final, en el mes de enero de 2021. Estas segundas pruebas corresponderán a toda la materia del curso, pero los/las alumnos/as que hayan superado cada una de las pruebas de mitad del cuatrimestre, podrán liberarse de la materia de los temas 0-2, tratando solamente sus pruebas sobre los temas 3-4. La calificación tanto de la(s) prueba(s) de conceptos, como de la(s) prueba(s) sobre prácticas con R representarán el 40% de la calificación global, cada una. El 20% restante corresponderá al trabajo por grupos, que tiene que ser presentado en público por los alumnos, durante la segunda mitad del cuatrimestre. La mitad de la puntuación de este trabajo (10% de la calificación global) corresponde a la presentación oral del mismo.
En resumen, las ponderaciones de la evaluación quedarán de la siguiente forma:
Trabajo práctico en grupo de 2-4 personas: 20% del total (10% resolución del ejercicio práctico en R y 10% presentación oral).
Exámenes de conceptos: se realizarán dos exámenes de conceptos (cada uno con ponderación del 20% sobre el total). El primer examen, relacionado con los Bloques 0-2, tendrá lugar a mitad del cuatrimestre. El segundo examen, relacionado con los Bloques 3-4, se realizará el día del examen oficial. Se permite liberar materia, de forma que los estudiantes que aprueben el primer examen parcial, ya no se examinarán de los Bloques 0-2 en el examen oficial, al menos que quieran subir nota. Sin embargo, los estudiantes que suspendan o no se presenten al parcial, irán al examen oficial con esas dos pruebas, y la suma de ambas valdría un 40% sobre el total.
Exámenes prácticos: siguen la misma idea que los exámenes de conceptos. Se realizarán dos exámenes prácticos (cada uno con ponderación del 20% sobre el total), utilizando el software estadístico R. El primer examen, relacionado con las prácticas en R de los Bloques 0-2, tendrá lugar a mitad del cuatrimestre. El segundo examen, relacionado con las prácticas en R de los Bloques 3-4, se realizará el día del examen oficial. Se permite liberar materia, de forma que los estudiantes que aprueben el primer examen parcial, ya no se examinarán de las prácticas de los Bloques 0-2 en el examen oficial, al menos que quieran subir nota. Sin embargo, los estudiantes que suspendan o no se presenten al parcial, irán al examen oficial con esas dos pruebas, y la suma de ambas valdría un 40% sobre el total.
Para superar la materia será necesario obtener una calificación de por lo menos 5 sobre 10 en el conjunto de la materia.
En la oportunidad de julio, los alumnos podrán liberarse de hacer las pruebas correspondientes en las que su calificación en la oportunidad de enero fuera de por lo menos 4 sobre 10.
En la primera oportunidad (enero-febrero), solo los alumnos que no se hayan presentado a ninguna de las pruebas evaluables que figuran arriba obtendrán la calificación de NO PRESENTADO. En julio obtendrán la calificación de NO PRESENTADO los alumnos que no se hubieran presentado al examen final de esa fecha.
Fuentes de información
Básica
Anderson, T.W. (2003). An Introduction to Multivariate Statistical Analysis. Wiley
Koch, I. (2014). Analysis of Multivariate and High-Dimensional Data. Cambridge University Press
Jobson, J.D. (1994). Applied Multivariate Data Analysis. Springer-Verlag
Johnson, R. A., Wichern, D. W. (2007). Applied multivariate statistical analysis. Prentice Hall
Muirhead, R.J. (1982). Aspects of multivariate statistical theory. John Wiley & Sons
Jambu, M. (1991). Exploratory and Multivariate Data Analysis. Boston, Academic Press
Wainwright, M.J. (2019). High-Dimensional Statistics: A Non-Asymptotic Viewpoint. Cambridge University Press
Giraud, C. (2014). Introduction to High-Dimensional Statistics. Chapman & Hall/CRC
Chatfield, C., Collins, A. J. (1980). Introduction to multivariate analysis. Chapman & Hall
Mardia, K.V., Kent, J.T., Bibby, J.M. (1994). Multivariate Analysis. Academic Press. Academic Press
Goldstein, M., Dillon,W. R. (1984). Multivariate Analysis: Methods and Applications. Wiley
Rencher, A.C. (1998). Multivariate Statistical Inference and Applications. Wiley
Complementária
Recomendaciones
Asignaturas que se recomienda haber cursado previamente
Introducción a las Bases de Datos/614G02008
Álgebra Lineal/614G02001
Cálculo Multivariable/614G02006
Matemática Discreta/614G02002
Fundamentos de Programación II/614G02009
Fundamentos de Programación I/614G02004
Inferencia Estadística/614G02007
Probabilidad y Estadística Básica/614G02003
Asignaturas que se recomienda cursar simultáneamente
Modelos de Regresión/614G02012
Asignaturas que continúan el temario
Técnicas de Simulación y Remuestreo/614G02036
Análisis Estadístico de Datos Complejos/614G02031
Aprendizaje Automático III/614G02026
Recuperación de Información/614G02027
Aprendizaje Automático I/614G02019
Aprendizaje Automático II/614G02021
Análisis Estadístico de Datos con Dependencia/614G02022
Otros comentarios
(*) La Guía Docente es el documento donde se visualiza la propuesta académica de la UDC. Este documento es público y no se puede modificar, salvo cosas excepcionales bajo la revisión del órgano competente de acuerdo a la normativa vigente que establece el proceso de elaboración de guías