IMT2200 Introducción a Ciencia de Datos
Vivimos rodeados de datos. Cada decisión en empresas, organizaciones públicas o investigaciones científicas puede apoyarse en evidencia si sabemos cómo extraerla y entenderla. Este curso entrega los fundamentos para navegar el mundo de la ciencia de datos, una disciplina interdisciplinaria que combina matemáticas, estadística, programación y pensamiento crítico para transformar datos en valor.
Este curso forma parte del plan de pregrado del Instituto de Ingeniería Matemática y Computacional (IMC) de la Escuela de Ingeniería UC. Está diseñado para estudiantes que quieran iniciarse en el uso aplicado de datos, cubriendo herramientas modernas como Python, pandas, Jupyter, y algoritmos básicos de aprendizaje de máquina.
🎓 ¿Por qué este curso es clave en la formación actual?
Ciencia de datos es una de las habilidades más demandadas del mundo actual. Este curso busca que los estudiantes:
- Comprendan qué es ciencia de datos y cómo se usa en ciencia, industria y sociedad.
- Aprendan a trabajar con datos reales: desde su recolección hasta su análisis y visualización.
- Apliquen modelos estadísticos y de machine learning para hacer predicciones y tomar decisiones.
- Se familiaricen con herramientas profesionales que se usan en la industria.
- Desarrollen pensamiento crítico y reflexivo frente al uso de datos y algoritmos.
Durante el semestre, los estudiantes participarán de clases prácticas, resolverán tareas con datos reales, y asistirán a charlas con expertos del mundo académico y empresarial que mostrarán cómo la ciencia de datos genera impacto en distintos dominios.
🧭 Contenidos del curso
El curso se organiza en los siguientes módulos:
- Introducción a la ciencia de datos
- ¿Qué es ciencia de datos? ¿Por qué es importante?
- Ciclo de vida de un proyecto de datos.
- ETL: Extracción, transformación y carga de datos
- Acceso a fuentes de datos (APIs, CSV, scraping).
- Limpieza, transformación y tipos de datos.
- Fundamentos matemáticos y estadísticos
- Estadística descriptiva.
- Distribuciones y visualización.
- Análisis exploratorio de datos (EDA)
- Visualización univariada y multivariada.
- Manejo de outliers, agrupamientos, correlaciones.
- Modelamiento estadístico y aprendizaje de máquina
- Regresión lineal.
- Clasificación básica (logística, SVM).
- Introducción a clustering y reducción de dimensionalidad.
- Visualización y comunicación
- Buenas prácticas de visualización.
- Herramientas para comunicar resultados y narrativas con datos.
🛠️ Herramientas y software recomendados
Durante el curso se utiliza el lenguaje de programación Python y sus principales bibliotecas para ciencia de datos. Se recomienda instalar el stack mediante Anaconda o usar entornos como Google Colab.
-
Python (vía Anaconda)
👉 Descargar Anaconda -
Jupyter Notebooks
Entorno interactivo para análisis de datos reproducible.
👉 Jupyter.org -
pandas, NumPy, matplotlib, seaborn, scikit-learn
Bibliotecas base para análisis, visualización y modelamiento.
👉 scikit-learn.org -
GitHub
Se utiliza para entregar tareas y proyectos.
👉 Repositorio oficial del curso
📚 Libros recomendados
A continuación encontrarás una selección de libros útiles para reforzar y profundizar los contenidos del curso. Todos están en inglés, pero varios de ellos se complementan con notebooks y documentación en línea.
🔹 Texto guía
- Wes McKinney (2022) – Python for Data Analysis: Data Wrangling with pandas, NumPy, and Jupyter. O’Reilly.
El libro esencial para aprender a manejar y transformar datos con pandas.
👉 Ver en Amazon
🔸 Textos adicionales
-
Jake VanderPlas (2022) – Python Data Science Handbook: Essential Tools for Working with Data. O’Reilly.
Cobertura práctica de todo el stack de ciencia de datos con Python.
👉 Ver en Amazon -
Joel Grus (2019) – Data Science from Scratch: First Principles with Python. O’Reilly.
Explica desde cero los conceptos de ciencia de datos implementando algoritmos en Python.
👉 Ver en Amazon -
Claus Wilke (2019) – Fundamentals of Data Visualization: A Primer on Making Informative and Compelling Figures. O’Reilly.
Libro visualmente atractivo que enseña a diseñar gráficos informativos.
👉 Ver en Amazon -
Provost & Fawcett (2013) – Data Science for Business: What You Need to Know about Data Mining and Data-Analytic Thinking. O’Reilly.
Expone el pensamiento detrás del análisis de datos aplicado a negocios.
👉 Ver en Amazon -
Cathy O’Neil (2016) – Weapons of Math Destruction: How Big Data Increases Inequality and Threatens Democracy. Crown Books.
Un ensayo crítico sobre el impacto negativo de modelos mal diseñados.
👉 Ver en Amazon -
O’Neil & Schutt (2013) – Doing Data Science: Straight Talk from the Frontline. O’Reilly.
Conversaciones reales sobre cómo se hace ciencia de datos en la práctica.
👉 Ver en Amazon
🔗 Proyectos relacionados
El curso se conecta con proyectos reales desarrollados en RAX Lab, donde se aplican herramientas similares:
- 🌾 Plataforma SAVIIA para datos científicos de campo
- ⚕️ Ciencia de datos en listas de espera oncológicas
- 📈 Monitoreo y análisis de microredes energéticas
Este curso es una puerta de entrada al mundo de la ciencia de datos: riguroso, ético, creativo y con impacto real. Si quieres aprender a pensar con datos y usarlos para transformar decisiones, este es tu punto de partida.