Para comenzar….
Los humanos somos, ante todo, una especie que hemos evolucionado gracias a nuestra capacidad de reconocer patrones gracias a nuestros sentidos. Reconocemos patrones en imágenes, en sonidos, en olores, en sabores, en el tacto. Esta habilidad nos ha perpetuado como especie y nos seguirá manteniendo.
El diluvio de datos que enfrentamos todos los días nos obliga a procesarlo y extraer información con la cual tomaremos decisiones en tiempos cada vez más cortos. Para interpretar grandes volúmenes de datos se impone transformarlos en imágenes, en sonidos, en aromas, representarlos en alguna forma en la cual puedan actuar nuestros sentidos. Una de las formas más comunes de representar a los datos es mediante figuras, imágenes, gráficas, de tal forma que podamos identificar patrones, correlaciones y tendencias. El crecimiento en la generación de datos por cada vez más sensores ha hecho surgir una nueva disciplina transversal a muchas: la visualización de datos. Se trata del estudio de la representación visual de los datos que nos permita extraer información de manera rápida y esquemática de complejos conjuntos de datos.
Una variante importante de la visualización de datos es la visualización de datos científicos. En esta disciplina se funden arte y ciencia para comunicar conceptos y extraer información de manera rápida y eficiente. Quizá uno de los ejemplos sorprendentes en la búsqueda de formas para representar, gráficamente, información lo constituye el mapa de Charles Joseph Minard en 1869 ilustrando la campaña de Rusia de Napoleón. Hoy la visualización salta de dos a tres dimensiones, con técnicas de animación y categoría cinematográfica.
Sin perder la perspectiva que estamos en un área muy sofisticada, en este módulo utilizaremos unos ejemplos sencillos para ilustrar el comienzo de lo que será una práctica cotidiana en la representación gráfica de datos.
¿Qué buscamos?
Al finalizar esta unidad el lector podrá:
- comprender la importancia de representar gráficamente los datos
- aplicar alguno de estos conceptos a problemas reales, con datos obtenidos de repositorios en la red
- utilizar representaciones gráficas para encontrar correlaciones entre muestras de datos
- utilizar la herramienta gráfica GnuPlot para realizar gráficos sencillos
¿Qué leer y escuchar en la red?
Hay variada información en la red sobre visualización de datos. A nosotros nos gustan dos charlas muy estimulantes de TED las cuales están muy bien subtituladas.
- David McCandless: La belleza de la visualización de datos y
- Anders Ynnerman: Visualización de la explosión de datos médicos
¿Qué hacer?
Para fijar los conceptos que hemos discutido en este apartado sugerimos
- Si ya dispone la máquina virtual de LINUX, puede utilizar GNUPLOT. Si no la dispone la puede descargar aquí. Atención la maquina virtual comprimida tiene ~4.5GB y la duración de su descarga e instalación dependerá de la velocidad de conexión.
- Repetir los gráficos construidos en ambos videos. De esta forma podrá convencerse de los resultados por Ud mismo y practicar los comandos de GNUPLOT como los muestra el video.
- Graficar la concentración de CO2 a lo largo de los años. Puede variar la escala en el eje horizontal para poder analizar la subida brusca de la concentración en los últimos años.
¿Necesita recursos adicionales?
Para realizar las actividades propuestas el lector necesitará:
- Descargar los la máquina virtual LINUX, si es que no lo ha hecho en sesiones anteriores. Para descargarla y configurarla puede seguir nuestra receta paso a paso
- Descargar los datos disponibles en la red o acceder a los datos de concentración de CO2, que hemos dispuesto para facilitar esa tarea
¿Qué dedicación requiere este módulo?
Como el resto de los módulos de este cursillo, completar las actividades puede requerir entre 4 y 6 horas de dedicación, la mitad de las cuales son trabajo independiente previo a la discusión en el taller de 2h acompañados por los instructores.
Agradecemos
La realización de este módulo ha sido posible gracias al financiamiento del Fondo Regional para la Innovación Digital en América Latina y el Caribe, FRIDA y la Vicerrectoría de Investigación y Extensión de la Universidad Industrial de Santander.