FACULTAD DE CIENCIAS EXACTAS DE LA UNICEN
1 año / 6 módulos
2 seminarios especiales
+15 docentes / 50 alumnos
Cursada 2025 modalidad virtual

Módulo #3
04/07/2025 al 19/07/2025
Procesamiento de Lenguaje Natural
Este curso ofrece una introducción teórico-práctica al Procesamiento de Lenguaje Natural (NLP) y su aplicación mediante técnicas de machine learning y modelos de lenguaje. A lo largo del curso, los estudiantes explorarán desde el preprocesamiento de texto hasta tareas avanzadas como clasificación, análisis de sentimientos y fairness en NLP, combinando enfoques tradicionales con el uso de LLMs para resolver diversos problemas.
Objetivos de aprendizaje
Al finalizar el curso, se espera que el alumno:
- Comprenda los diferentes niveles de análisis del NLP.
- Reconozca los principales desafíos del NLP.
- Reconozca y comprenda la terminología básica de NLP.
- Identifique las características y aplicaciones de las diferentes técnicas de NLP.
- Conozca y utilice las herramientas básicas para la aplicación de técnicas de NLP.
- Diseñe y desarrolle soluciones a problemáticas relacionadas con el procesamiento de texto y lenguaje.
- Comprenda los principios de los Grandes Modelos de Lenguaje (LLMs) y cómo aplicarlos a tareas de NLP.
Contenidos
Unidad 1: Introducción al Procesamiento de Lenguaje Natural (Clase 1)
- Conceptos fundamentales y aplicaciones del NLP.
- Niveles de procesamiento en NLP.
- Workflow de NLP.
- Introducción a bibliotecas y herramientas comunes (NLTK, spaCy, Hugging Face, etc.).
Unidad 2: Preprocesamiento y Análisis Léxico de Texto (Clase 2)
- Expresiones regulares en NLP.
- Tokenización, eliminación de stopwords, lematización y stemming.
- Normalización de texto y representación de características.
Unidad 3: Representación de texto (Clase 3)
- Representaciones léxicas.
- Extracción y selección de características.
- Modelos léxicos de representación del lenguaje: Bag-of-Words (BoW), TF-IDF.
- Modelos de embeddings (Word2Vec, GloVe, FastText, Transformers).
Unidad 4: Análisis Sintáctico (Clase 4)
Tipos de parsing. Parsing superficial vs. profundo.
Análisis de dependencia y de constituyentes.
Etiquetado de Partes del Discurso (POS tagging).
Reconocimiento de Entidades Nombradas (NER).
Unidad 5: Análisis Semántico (Clase 4)
- Semántica léxica y semántica de vectores.
- Desambiguación semántica y etiquetado de roles semánticos.
- Procesamiento del discurso y pragmática.
- Detección y modelado de tópicos.
- Análisis de sentimientos y minería de opinión.
Unidad 6: Clasificación de Texto (Clase 5)
- Clasificación binaria, multi-clase y multi-etiqueta.
- Selección de características y reducción de dimensionalidad.
Unidad 7: Aplicaciones del NLP (Clase 5)
- Motores de recomendación, recuperación de información y filtrado.
- Procesamiento de texto multilingüe y traducción automática.
- Generación de texto y resumen automático.
- Sistemas de preguntas y respuestas.
- Agentes conversacionales.
- Fairness, bias. Tipos de sesgos. Ejemplos.
Unidad 8: Grandes Modelos de Lenguaje (LLMs) en NLP (Clase 6)
- Introducción a los LLMs.
- Prompting. Zero-shot y few-shot.
- Uso de LLMs en tareas de NLP:
- Fine tuning vs generación aumentada.
Metodología de trabajo
Las clases combinarán teoría y práctica, con materiales de apoyo como slides y notebooks Jupyter en Python. Cada unidad incluirá notebooks de ejercicios, donde los estudiantes aplicarán técnicas de NLP utilizando datasets reales y bibliotecas como NLTK, spaCy, Hugging Face Transformers y LangChain. Se fomentará la participación activa a través de la resolución de problemas y el análisis de casos de uso. Además, los alumnos tendrán a disposición trabajos prácticos opcionales para abordar desafíos más complejos y contarán con una plataforma virtual para consultas y soporte.
Mecanismo de evaluación
La evaluación del módulo se realizará mediante la certificación Nvidia “Building Transformer-Based Natural Language Processing Applications“. La misma consiste en el fine-tuning de modelos transformers pre-entrenados para tareas específicas.
En caso de no completar la certificación, la evaluación consistirá en un práctico de similar escala pero se perderá el derecho a obtener la certificación Nvidia.
Bibliografía sugerida
- Alammar, J., & Grootendorst, M. (2024). Hands-On Large Language Models. O’Reilly.
- Bird, S., Klein, E., & Loper, E. (2009). Natural Language Processing with Python (1st ed.). O’Reilly Media.
- Broussard, M. (2018). Artificial Unintelligence: How Computers Misunderstand the World. MIT Press.
- Hardeniya, N., Perkins, J., Chopra, D., Joshi, N., & Mathur, I. (2016). Natural Language Processing: Python and NLTK. Packt Publishing.
- Howard, C., Dyshel, M., Lane, H., & Hapke, H. (2022). Natural Language Processing in Action (2nd ed.). Manning.
- Jurafsky, D., & Martin, J. H. (2019). Speech and Language Processing (3rd ed., Draft).
- Manning, C. D., Raghavan, P., & Schütze, H. (2008). Introduction to Information Retrieval. Cambridge University Press.
- Mihalcea, R. (2007). The Text Mining Handbook: Advanced Approaches to Analyzing Unstructured Data. Cambridge University Press.
- Mitchell, M. (2019). Artificial Intelligence: A Guide for Thinking Humans. Farrar, Straus and Giroux.
- Molnar, C. (2020). Interpretable Machine Learning. Leanpub.
- Pai, S. (2025). Designing Large Language Model Applications. O’Reilly Media.
- Rothman, D. (2022). Transformers for Natural Language Processing (2nd ed.). Packt Publishing.
- Sarkar, D. (2019). Text Analytics with Python: A Practitioner’s Guide to Natural Language Processing. Apress.
- Trummer, I. (2025). LLMs in Action: Analyzing Text, Tables, Images, and Sound. Manning.
DOCENTES
Antonela Tommasel
Doctora en Ciencias de la Computación (UNICEN) e investigadora de CONICET. Especializada en sistemas de recomendación, applied NLP, social computing y social network analysis.
Juan Manuel Rodriguez
Doctor en ciencias de la computación por la UNICEN. Es certificador oficial de Nvidia DLI. Ha publicado más de 40 artículos en revistas y conferencias especializadas. Actualmente es profesor asistente de la Universidad de Aalborg e investigador de CONICET.