Datos Identificativos 2024/25
Asignatura (*) Modelado da Linguaxe Código 614544009
Titulación
Descriptores Ciclo Período Curso Tipo Créditos
Mestrado Oficial 2º cuadrimestre
Primeiro Optativa 3
Idioma
Inglés
Modalidade docente Presencial
Prerrequisitos
Departamento Ciencias da Computación e Tecnoloxías da Información
Coordinación
Vilares Calvo, David
Correo electrónico
david.vilares@udc.es
Profesorado
Vilares Calvo, David
Correo electrónico
david.vilares@udc.es
Web http://campusvirtual.udc.es
Descrición xeral Fornecer coñecementos teóricos que permitan profundar no estudo de modelos lingüísticos: modelos de lingua e modelos semánticos distribucionais.

Asociar o modelado lingüístico e os tipos de modelos con diferentes tarefas dentro da área das tecnoloxías lingüísticas e do procesamento da lingua natural.

Avaliar diferentes aspectos dos modelos lingüísticos.

Fornecer coñecemento práctico que permita poder adestrar novos modelos e usalos convenientemente en diferentes tarefas de procesamento da lingua natural.

Competencias / Resultados do título
Código Competencias / Resultados do título

Resultados de aprendizaxe
Resultados de aprendizaxe Competencias / Resultados do título
Saber utilizar as técnicas e métodos de tratamento da linguaxe natural para resolver problemas reais de análise de textos en linguaxe natural. AM1
AM3
BM1
BM3
BM4
BM7
BM10
CM2
CM3
CM7
Coñecer, comprender e analizar técnicas de aprendizaxe profunda aplicadas ao procesamento da linguaxe natural AM1
AM2
BM1
BM3
BM6
BM7
BM10
CM2
CM3
CM7
CM8
Saber utilizar técnicas e métodos de aprendizaxe profunda para resolver problemas prácticos de procesamento da linguaxe natural AM1
AM2
BM1
BM3
BM4
BM6
BM7
BM10
CM2
CM3
CM7
CM8
Coñecer e comprender os problemas ambientais que supón o custo computacional das técnicas de deep learning cando se aplican á análise de textos AM1
AM2
BM1
BM6
CM2
CM8

Contidos
Temas Subtemas
Modelos de lingua Modelos de lingua baseados en n-gramas
Modelos de lingua baseados en redes neuronais
Modelos de semántica distribucional Hipótese lingüística sobre o significado distribucional
Modelos distribucionais clásicos
Modelos neuronais de significado estático (word embeddings)
Modelos neuronais de significado dinámico-contextual
Modelos composicionais
Modelos de lingua Modelos de lingua baseados en n-gramas
Modelos de lingua baseados en redes neuronais
Etiquetado secuencial Uso e adaptación de modelos para o etiquetado secuencial

Planificación
Metodoloxías / probas Competencias / Resultados Horas lectivas (presenciais e virtuais) Horas traballo autónomo Horas totais
Sesión maxistral A2 A3 A4 B1 B3 B6 B7 B10 C2 C8 10 10 20
Prácticas de laboratorio A2 A3 B3 B4 B6 B7 B10 C2 C3 C7 C8 5 17 22
Solución de problemas A2 A3 B3 B4 B6 B7 B10 C2 C8 6 15 21
Proba de resposta múltiple A2 A3 B1 B6 B7 B10 C2 0 1 1
Proba obxectiva A2 A3 B1 B6 B7 B10 C2 C3 2 8 10
 
Atención personalizada 1 0 1
 
*Os datos que aparecen na táboa de planificación son de carácter orientativo, considerando a heteroxeneidade do alumnado

Metodoloxías
Metodoloxías Descrición
Sesión maxistral Clases teóricas, nas que se expón o contido de cada tema. O alumnado disporá previamente de copias das transparencias e o profesorado promoverá unha actitude activa, formulando preguntas que permitan aclarar aspectos concretos e deixando preguntas abertas para a reflexión do estudantado.
Prácticas de laboratorio Clases prácticas co uso do ordenador, que permitan ao alumnado familiarizarse dende un punto de vista práctico coas cuestións expostas nas clases teóricas.
Solución de problemas Aprendizaxe baseada en problemas, seminarios, estudos de casos e proxectos.
Proba de resposta múltiple Cuestionarios breves que se habilitarán tras algunhas sesións teóricas para comprobar a asimilación de contidos.
Proba obxectiva Valorarase o dominio dos coñecementos teóricos e operativos da materia.

Atención personalizada
Metodoloxías
Prácticas de laboratorio
Solución de problemas
Proba obxectiva
Sesión maxistral
Descrición
O desenvolvemento, tanto das clases maxistrais como das de resolución de problemas e os laboratorios de prácticas, realizarase atendendo ao progreso do alumnado nas capacidades de comprensión e asimilación dos contidos impartidos. O avance xeral da clase compaxinarase cunha atención específica a aqueles/as alumnos/as que presenten maiores dificultades na tarefa da aprendizaxe e cun apoio adicional a aqueles/as que presenten maior desenvoltura e desexen ampliar coñecementos.

No que respecta ás tutorías individuais, dado o seu carácter personalizado, non deben dedicarse a estender os contidos con novos conceptos, senón a aclarar os conceptos xa expostos. O profesorado utilizaraas como unha interacción que lle permita extraer conclusións respecto ao grao de asimilación da materia por parte do estudantado.

Avaliación
Metodoloxías Competencias / Resultados Descrición Cualificación
Prácticas de laboratorio A2 A3 B3 B4 B6 B7 B10 C2 C3 C7 C8 As entregas das prácticas deben realizarse dentro do prazo establecido no campus virtual e deben seguir as especificacións indicadas no enunciado tanto para a súa presentación como o seu defensa. 50
Proba obxectiva A2 A3 B1 B6 B7 B10 C2 C3 Realización obrigatoria. Avaliarase o dominio dos coñecementos teóricos e operativos da materia. 45
Proba de resposta múltiple A2 A3 B1 B6 B7 B10 C2 Pequenos cuestionarios de avaliación continua que se propoñeran ao final dalgunhas sesións teóricas e onde se preguntará de maneira simple por algúns dos conceptos explicados en dita sesión. Avisarase con antelación. 5
 
Observacións avaliación

Cada alumno/a deberá alcanzar un mínimo de 40% da máxima nota das partes "Prácticas de Laboratorio" e "Proba obxectiva", e en calquera caso a suma das tres partes debe ser maior a 5 para superar a materia. De non cumprirse algún dosrequisitos anteriores, a cualificación da convocatoria establecerase de acordo coa menor puntuación obtida.

No caso de non obter o mínimo nas "Prácticas de laboratorio" ou "Proba obxectiva", o/a alumno/a terá unha segunda oportunidade na que só se lle esixirá aentrega desa parte.

Non se gardarán cualificacións entre anos académicos.

As entregas das prácticas deben realizarse dentro do prazo establecido no campus virtual, e seguirán as especificacións indicadas no enunciado tanto para a presentación como para a defensa.

Terá a condición de “Presentado/a” quen entregue todas asprácticas obrigatorias ou se presente á proba obxectiva no período oficial de avaliación.

Todos os aspectos relacionados con dispensa académica, dedicación ao estudo, permanencia e fraude académica rexeranse de acordo coa normativa vixente da Universidade


Fontes de información
Bibliografía básica

Jurafsky, Daniel & James H. Martin (2021). “N-gram Language Models.” Speech and Language Processing, Capítulo 3. https://web.stanford.edu/~jurafsky/slp3/

Jurafsky, Daniel & James H. Martin (2021). “Vector Semantics and Embeddings.” Speech and Language Processing, Capítulo 6. https://web.stanford.edu/~jurafsky/slp3/

Jurafsky, Daniel & James H. Martin (2021). “Neural Networks and Neural Language Models.” Speech and Language Processing, Capítulo 7. https://web.stanford.edu/~jurafsky/slp3/

Jurafsky, Daniel & James H. Martin (2021). “Sequence Labeling for Parts of Speech and Named Entities.” Speech and Language Processing, Capítulo 8. https://web.stanford.edu/~jurafsky/slp3/

Devlin, Jacob, Ming-Wei Chang, Kenton Lee & Kristina Toutanova (2018). “BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding. In Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long and Short Papers), pages 4171–4186, Minneapolis, Minnesota. Association for Computational Linguistics.

Erk, Katrin (2012). "Vector space models of word meaning and phrase meaning: A survey." Language and Linguistics Compass 6.10: 635-653.

Bibliografía complementaria

Baroni, Marco, Raffaella Bernardi & Roberto Zamparelli (2014). “Frege in space: A program for compositional distributional semantics.” Linguistic Issues in Language Technologies 9(6): 5-110.

Baroni, Marco, Georgiana Dinu & Germán Kruszewski (2014). “Don’t count, predict! A systematic comparison of context-counting vs. context-predicting semantic vectors.” In Proceedings of the 52nd Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers) , pp. 238–247, Baltimore, Maryland. Association for Computational Linguistics.

Church, Kenneth Ward, Zeyu Chen & Yanjun Ma (2021). “Emerging trends: A gentle introduction to fine-tuning.” Natural Language Engineering, 27: 763–778.

Devlin, Jacob, Ming-Wei Chang, Kenton Lee & Kristina Toutanova (2018). “BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding. In Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long and Short Papers), pages 4171–4186, Minneapolis, Minnesota. Association for Computational Linguistics.

Erk, Katrin (2012). "Vector space models of word meaning and phrase meaning: A survey." Language and Linguistics Compass 6.10: 635-653.

Hirschberg, Julia & Christopher D. Manning (2015). "Advances in natural language processing." Science 349.6245: 261-266.

Linzen, Tal (2016). "Issues in evaluating semantic spaces using word analogies." In Proceedings of the 1st Workshop on Evaluating Vector-Space Representations for NLP, pp. 13–18, Berlin, Germany. Association for Computational Linguistics.

Mikolov, Tomas, Wen-tau Yih & Geoffrey Zweig (2013). "Linguistic Regularities in Continuous Space Word Representations." In Proceedings of the 2013 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, pp. 746–751, Atlanta, Georgia. Association for Computational Linguistics.

Taher Pilehvar, Mohammad & Jose Camacho-Collados (2021). Embeddings in Natural Language Processing: Theory and Advances in Vector Representations of Meaning. Morgan & Claypool (Synthesis Lectures on Human Language Technologies, volume 47).


Recomendacións
Materias que se recomenda ter cursado previamente
Comprensión da Linguaxe Natural/614544008
Aprendizaxe Automática I/614544012

Materias que se recomenda cursar simultaneamente
Aprendizaxe Profunda/614544013
Aprendizaxe Automática II/614544014

Materias que continúan o temario
Minería de Textos/614544011
Intelixencia Web e Tecnoloxías Semánticas/614544010

Observacións

Fomentarase o desenvolvemento dunha cidadanía crítica, aberta e respectuosa coa diversidade na nosa sociedade, salientando a igualdade de dereitos do alumnado sen discriminación por cuestión de xénero ou condición sexual. Empregarase unha linguaxe inclusiva no material e no desenvolvemento das sesións. Traballarase para identificar e modificar prexuizos e actitudes sexistas e influirase na contorna para modificalos e fomentar valores de respecto e igualdade. Facilitarase a plena integración do alumnado que por razóns físicas, sensoriais, psíquicas ou socioculturais, experimenten dificultades a un acceso axeitado, igualitario e proveitoso á vida universitaria



(*)A Guía docente é o documento onde se visualiza a proposta académica da UDC. Este documento é público e non se pode modificar, salvo casos excepcionais baixo a revisión do órgano competente dacordo coa normativa vixente que establece o proceso de elaboración de guías