Módulo 3 – DUIA

FACULTAD DE CIENCIAS EXACTAS DE LA UNICEN

1 año / 6 módulos

2 seminarios especiales

+15 docentes

Cursada 2025 modalidad virtual

Módulo #3

04/07/2025 al 19/07/2025

Procesamiento de Lenguaje Natural

Este curso ofrece una introducción teórico-práctica al Procesamiento de Lenguaje Natural (NLP) y su aplicación mediante técnicas de machine learning y modelos de lenguaje. A lo largo del curso, los estudiantes explorarán desde el preprocesamiento de texto hasta tareas avanzadas como clasificación, análisis de sentimientos y fairness en NLP, combinando enfoques tradicionales con el uso de LLMs para resolver diversos problemas.

Objetivos de aprendizaje

Al finalizar el curso, se espera que el alumno:

Comprenda los diferentes niveles de análisis del NLP.
Reconozca los principales desafíos del NLP.
Reconozca y comprenda la terminología básica de NLP.
Identifique las características y aplicaciones de las diferentes técnicas de NLP.
Conozca y utilice las herramientas básicas para la aplicación de técnicas de NLP.
Diseñe y desarrolle soluciones a problemáticas relacionadas con el procesamiento de texto y lenguaje.
Comprenda los principios de los Grandes Modelos de Lenguaje (LLMs) y cómo aplicarlos a tareas de NLP.

Contenidos

Unidad 1: Introducción al Procesamiento de Lenguaje Natural (Clase 1)

Conceptos fundamentales y aplicaciones del NLP.
Niveles de procesamiento en NLP.
Workflow de NLP.
Introducción a bibliotecas y herramientas comunes (NLTK, spaCy, Hugging Face, etc.).

Unidad 2: Preprocesamiento y Análisis Léxico de Texto (Clase 2)

Expresiones regulares en NLP.
Tokenización, eliminación de stopwords, lematización y stemming.
Normalización de texto y representación de características.

Unidad 3: Representación de texto (Clase 3)

Representaciones léxicas.
Extracción y selección de características.
Modelos léxicos de representación del lenguaje: Bag-of-Words (BoW), TF-IDF.
Modelos de embeddings (Word2Vec, GloVe, FastText, Transformers).

Unidad 4: Análisis Sintáctico (Clase 4)

Tipos de parsing. Parsing superficial vs. profundo.
Análisis de dependencia y de constituyentes.
Etiquetado de Partes del Discurso (POS tagging).
Reconocimiento de Entidades Nombradas (NER).

Unidad 5: Análisis Semántico (Clase 4)

Semántica léxica y semántica de vectores.
Desambiguación semántica y etiquetado de roles semánticos.
Procesamiento del discurso y pragmática.
Detección y modelado de tópicos.
Análisis de sentimientos y minería de opinión.

Unidad 6: Clasificación de Texto (Clase 5)

Clasificación binaria, multi-clase y multi-etiqueta.
Selección de características y reducción de dimensionalidad.

Unidad 7: Aplicaciones del NLP (Clase 5)

Motores de recomendación, recuperación de información y filtrado.
Procesamiento de texto multilingüe y traducción automática.
Generación de texto y resumen automático.
Sistemas de preguntas y respuestas.
Agentes conversacionales.
Fairness, bias. Tipos de sesgos. Ejemplos.

Unidad 8: Grandes Modelos de Lenguaje (LLMs) en NLP (Clase 6)

Introducción a los LLMs.
Prompting. Zero-shot y few-shot.
Uso de LLMs en tareas de NLP:
Fine tuning vs generación aumentada.

Metodología de trabajo

Las clases combinarán teoría y práctica, con materiales de apoyo como slides y notebooks Jupyter en Python. Cada unidad incluirá notebooks de ejercicios, donde los estudiantes aplicarán técnicas de NLP utilizando datasets reales y bibliotecas como NLTK, spaCy, Hugging Face Transformers y LangChain. Se fomentará la participación activa a través de la resolución de problemas y el análisis de casos de uso. Además, los alumnos tendrán a disposición trabajos prácticos opcionales para abordar desafíos más complejos y contarán con una plataforma virtual para consultas y soporte.

Mecanismo de evaluación

La evaluación del módulo se realizará mediante la certificación Nvidia “Building Transformer-Based Natural Language Processing Applications“. La misma consiste en el fine-tuning de modelos transformers pre-entrenados para tareas específicas.
En caso de no completar la certificación, la evaluación consistirá en un práctico de similar escala pero se perderá el derecho a obtener la certificación Nvidia.

Bibliografía sugerida

Alammar, J., & Grootendorst, M. (2024). Hands-On Large Language Models. O’Reilly.
Bird, S., Klein, E., & Loper, E. (2009). Natural Language Processing with Python (1st ed.). O’Reilly Media.
Broussard, M. (2018). Artificial Unintelligence: How Computers Misunderstand the World. MIT Press.
Hardeniya, N., Perkins, J., Chopra, D., Joshi, N., & Mathur, I. (2016). Natural Language Processing: Python and NLTK. Packt Publishing.
Howard, C., Dyshel, M., Lane, H., & Hapke, H. (2022). Natural Language Processing in Action (2nd ed.). Manning.
Jurafsky, D., & Martin, J. H. (2019). Speech and Language Processing (3rd ed., Draft).
Manning, C. D., Raghavan, P., & Schütze, H. (2008). Introduction to Information Retrieval. Cambridge University Press.
Mihalcea, R. (2007). The Text Mining Handbook: Advanced Approaches to Analyzing Unstructured Data. Cambridge University Press.
Mitchell, M. (2019). Artificial Intelligence: A Guide for Thinking Humans. Farrar, Straus and Giroux.
Molnar, C. (2020). Interpretable Machine Learning. Leanpub.
Pai, S. (2025). Designing Large Language Model Applications. O’Reilly Media.
Rothman, D. (2022). Transformers for Natural Language Processing (2nd ed.). Packt Publishing.
Sarkar, D. (2019). Text Analytics with Python: A Practitioner’s Guide to Natural Language Processing. Apress.
Trummer, I. (2025). LLMs in Action: Analyzing Text, Tables, Images, and Sound. Manning.

DOCENTES

Antonela Tommasel

Doctora en Ciencias de la Computación (UNICEN) e investigadora de CONICET. Especializada en sistemas de recomendación, applied NLP, social computing y social network analysis.

Juan Manuel Rodriguez

Doctor en ciencias de la computación por la UNICEN. Es certificador oficial de Nvidia DLI. Ha publicado más de 40 artículos en revistas y conferencias especializadas. Actualmente es profesor asistente de la Universidad de Aalborg e investigador de CONICET.

1 año / 6 módulos

2 seminarios especiales

+15 docentes

Módulo #3

Procesamiento de Lenguaje Natural

Objetivos de aprendizaje

Contenidos

Unidad 1: Introducción al Procesamiento de Lenguaje Natural (Clase 1)

Unidad 2: Preprocesamiento y Análisis Léxico de Texto (Clase 2)

Unidad 3: Representación de texto (Clase 3)

Unidad 4: Análisis Sintáctico (Clase 4)

Unidad 5: Análisis Semántico (Clase 4)

Unidad 6: Clasificación de Texto (Clase 5)

Unidad 7: Aplicaciones del NLP (Clase 5)

Unidad 8: Grandes Modelos de Lenguaje (LLMs) en NLP (Clase 6)

Metodología de trabajo

Mecanismo de evaluación

Bibliografía sugerida

DOCENTES

Antonela Tommasel

Juan Manuel Rodriguez

CLASE #1

04/07/2025

CLASE #2

05/07/2025

CLASE #3

11/07/2025

CLASE #4

12/07/2025

CLASE #6

15/07/2025

CLASE #7

18/07/2025

CLASE #5

19/07/2025