FACULTAD DE CIENCIAS EXACTAS DE LA UNICEN

1 año / 6 módulos

2 seminarios especiales

+15 docentes / 50 alumnos

Cursada 2025 modalidad virtual

Módulo #3

04/07/2025 al 19/07/2025

Procesamiento de Lenguaje Natural

Este curso ofrece una introducción teórico-práctica al Procesamiento de Lenguaje Natural (NLP) y su aplicación mediante técnicas de machine learning y modelos de lenguaje. A lo largo del curso, los estudiantes explorarán desde el preprocesamiento de texto hasta tareas avanzadas como clasificación, análisis de sentimientos y fairness en NLP, combinando enfoques tradicionales con el uso de LLMs para resolver diversos problemas.

Objetivos de aprendizaje

Al finalizar el curso, se espera que el alumno:

  • Comprenda los diferentes niveles de análisis del NLP.
  • Reconozca los principales desafíos del NLP.
  • Reconozca y comprenda la terminología básica de NLP.
  • Identifique las características y aplicaciones de las diferentes técnicas de NLP.
  • Conozca y utilice las herramientas básicas para la aplicación de técnicas de NLP.
  • Diseñe y desarrolle soluciones a problemáticas relacionadas con el procesamiento de texto y lenguaje.
  • Comprenda los principios de los Grandes Modelos de Lenguaje (LLMs) y cómo aplicarlos a tareas de NLP.

Contenidos

Unidad 1: Introducción al Procesamiento de Lenguaje Natural (Clase 1)

  • Conceptos fundamentales y aplicaciones del NLP.
  • Niveles de procesamiento en NLP.
  • Workflow de NLP.
  • Introducción a bibliotecas y herramientas comunes (NLTK, spaCy, Hugging Face, etc.).

Unidad 2: Preprocesamiento y Análisis Léxico de Texto (Clase 2)

  • Expresiones regulares en NLP.
  • Tokenización, eliminación de stopwords, lematización y stemming.
  • Normalización de texto y representación de características.

Unidad 3: Representación de texto (Clase 3)

  • Representaciones léxicas.
  • Extracción y selección de características.
  • Modelos léxicos de representación del lenguaje: Bag-of-Words (BoW), TF-IDF.
  • Modelos de embeddings (Word2Vec, GloVe, FastText, Transformers).

Unidad 4: Análisis Sintáctico (Clase 4)

Tipos de parsing. Parsing superficial vs. profundo.
Análisis de dependencia y de constituyentes.
Etiquetado de Partes del Discurso (POS tagging).
Reconocimiento de Entidades Nombradas (NER).

Unidad 5: Análisis Semántico (Clase 4)

  • Semántica léxica y semántica de vectores.
  • Desambiguación semántica y etiquetado de roles semánticos.
  • Procesamiento del discurso y pragmática.
  • Detección y modelado de tópicos.
  • Análisis de sentimientos y minería de opinión.

Unidad 6: Clasificación de Texto (Clase 5)

  • Clasificación binaria, multi-clase y multi-etiqueta.
  • Selección de características y reducción de dimensionalidad.

Unidad 7: Aplicaciones del NLP (Clase 5)

  • Motores de recomendación, recuperación de información y filtrado.
  • Procesamiento de texto multilingüe y traducción automática.
  • Generación de texto y resumen automático.
  • Sistemas de preguntas y respuestas.
  • Agentes conversacionales.
  • Fairness, bias. Tipos de sesgos. Ejemplos.

Unidad 8: Grandes Modelos de Lenguaje (LLMs) en NLP (Clase 6)

  • Introducción a los LLMs.
  • Prompting. Zero-shot y few-shot.
  • Uso de LLMs en tareas de NLP:
  • Fine tuning vs generación aumentada.

Metodología de trabajo

Las clases combinarán teoría y práctica, con materiales de apoyo como slides y notebooks Jupyter en Python. Cada unidad incluirá notebooks de ejercicios, donde los estudiantes aplicarán técnicas de NLP utilizando datasets reales y bibliotecas como NLTK, spaCy, Hugging Face Transformers y LangChain. Se fomentará la participación activa a través de la resolución de problemas y el análisis de casos de uso. Además, los alumnos tendrán a disposición trabajos prácticos opcionales para abordar desafíos más complejos y contarán con una plataforma virtual para consultas y soporte.

Mecanismo de evaluación

La evaluación del módulo se realizará mediante la certificación Nvidia “Building Transformer-Based Natural Language Processing Applications“. La misma consiste en el fine-tuning de modelos transformers pre-entrenados para tareas específicas.
En caso de no completar la certificación, la evaluación consistirá en un práctico de similar escala pero se perderá el derecho a obtener la certificación Nvidia.

Bibliografía sugerida

  • Alammar, J., & Grootendorst, M. (2024). Hands-On Large Language Models. O’Reilly.
  • Bird, S., Klein, E., & Loper, E. (2009). Natural Language Processing with Python (1st ed.). O’Reilly Media.
  • Broussard, M. (2018). Artificial Unintelligence: How Computers Misunderstand the World. MIT Press.
  • Hardeniya, N., Perkins, J., Chopra, D., Joshi, N., & Mathur, I. (2016). Natural Language Processing: Python and NLTK. Packt Publishing.
  • Howard, C., Dyshel, M., Lane, H., & Hapke, H. (2022). Natural Language Processing in Action (2nd ed.). Manning.
  • Jurafsky, D., & Martin, J. H. (2019). Speech and Language Processing (3rd ed., Draft).
  • Manning, C. D., Raghavan, P., & Schütze, H. (2008). Introduction to Information Retrieval. Cambridge University Press.
  • Mihalcea, R. (2007). The Text Mining Handbook: Advanced Approaches to Analyzing Unstructured Data. Cambridge University Press.
  • Mitchell, M. (2019). Artificial Intelligence: A Guide for Thinking Humans. Farrar, Straus and Giroux.
  • Molnar, C. (2020). Interpretable Machine Learning. Leanpub.
  • Pai, S. (2025). Designing Large Language Model Applications. O’Reilly Media.
  • Rothman, D. (2022). Transformers for Natural Language Processing (2nd ed.). Packt Publishing.
  • Sarkar, D. (2019). Text Analytics with Python: A Practitioner’s Guide to Natural Language Processing. Apress.
  • Trummer, I. (2025). LLMs in Action: Analyzing Text, Tables, Images, and Sound. Manning.
DOCENTES


Antonela Tommasel

Doctora en Ciencias de la Computación (UNICEN) e investigadora de CONICET. Especializada en sistemas de recomendación, applied NLP, social computing y social network analysis.


Juan Manuel Rodriguez

Doctor en ciencias de la computación por la UNICEN. Es certificador oficial de Nvidia DLI. Ha publicado más de 40 artículos en revistas y conferencias especializadas. Actualmente es profesor asistente de la Universidad de Aalborg e investigador de CONICET.

CLASE #1

04/07/2025

CLASE #2

05/07/2025

CLASE #3

11/07/2025

CLASE #4

12/07/2025

CLASE #6

15/07/2025

CLASE #7

18/07/2025

CLASE #5

19/07/2025