Introducción al Machine Learning con MATLAB. Erik Cuevas Jiménez
1.6 se puede visualizar el gráfico generado por el algoritmo 1.4. La línea azul representa los datos originales, mientras que los datos procesados se muestran por medio de los círculos naranjas. Además, el color morado indica el umbral superior; el color amarillo se encuentra el umbral inferior, y el interlineado verde representa el centro de las observaciones.
Figura 1.6. Procesamiento de datos atípicos por filloutliers.
1.9. Visualización de datos
El objetivo principal de las técnicas de visualización de datos consistirá en partir de información compleja y presentarla en un formato simple, y, de esta manera, entender mejor la información disponible. La visualización de datos permite su inspección y una mejor comprensión de esta. Existen otros motivos para usar la visualización de datos. Incluyen los siguientes:
• Explicar los datos o poner los datos en contexto
• Resolver un problema específico (por ejemplo, identificar áreas problemáticas dentro de un modelo de negocio particular)
• Resaltar o ilustrar datos que, de otro modo, serían invisibles (como aislar valores atípicos existentes en los datos)
• Destacar la tendencia de los datos, como los volúmenes de ventas potenciales
La visualización se utiliza en casi todos los pasos del proceso del aprendizaje máquina, dentro de pasos obvios como la preparación y exploración de datos, pero también puede ser aprovechada durante la recopilación de datos, durante el entrenamiento del modelo y en la etapa final de evaluación de resultados, para identificar elementos relevantes.
El conjunto de datos sobre la flor de iris es una colección de observaciones multivariante para cuantificar la variación morfológica de las tres especies relacionadas de flores de iris: setosa, versicolor y virginica. El conjunto de datos tiene las mediciones del largo y ancho del sépalo y el pétalo de la flor de iris. En la figura 1.7 se presenta la estructura de la flor de iris. Tomaremos este conjunto de datos para explorarlos visualmente, debido a que es un referente en el área del aprendizaje máquina y estadística.
Figura 1.7. Partes de la flor de iris.
A continuación, se muestran diferentes formas de visualizar las cuatro características (longitud del sépalo, ancho del sépalo, longitud del pétalo y ancho del pétalo) de 150 observaciones de las flores de iris. El cargado en memoria del conjunto de datos se realiza con el siguiente comando:
load fisheriris.mat
El comando carga en la memoria dos variables: la matriz llamada meas y una celda, species. La matriz meas tiene 4 columnas relativas a las características y 150 filas con las 150 observaciones registradas. La celda species tiene los nombres a la cual cada observación pertenece. En el algoritmo 1.5 se carga el conjunto de datos de la flor de iris y despliegan todas las observaciones por característica. En la figura 1.8 se grafican los valores de las 150 observaciones de las diferentes características del conjunto de datos:
% Autores: Erik Cuevas, Omar Avalos, Arturo Valdivia y Primitivo Díaz
% Se carga el conjunto de observaciones
load fisheriris.mat
% Se define cuántas observaciones tiene el conjunto de datos
N=size(meas,1);
% Se define el vector en el eje x
t=1:N
% Se grafican las observaciones en sus diferentes características
plot(t,meas)
legend('Long. sépalo','Ancho sépalo','Long. pétalo','Ancho pétalo')
Algoritmo 1.5. Ejemplo del uso de la función plot en MATLAB.
Figura 1.8. Gráfico de las 150 observaciones de flores de iris y sus 4 características.
Histograma
Un histograma es una representación gráfica de observaciones agrupadas mediante intervalos, donde las observaciones son variables cuantitativas continuas. El histograma permite apreciar la manera en que se distribuyen las observaciones.
En el algoritmo 1.6 se despliega el histograma de la característica 1 de todas las observaciones. El histograma se presenta en la figura 1.9:
% Autores: Erik Cuevas, Omar Avalos, Arturo Valdivia y Primitivo Díaz
% Se carga el conjunto de observaciones
load fisheriris.mat
% Se grafica el histograma de la característica 1
% del conjunto de datos de todas las observaciones
h=histogram(meas(:,1))
Algoritmo 1.6. Ejemplo del uso de la función histogram en MATLAB.
Figura 1.9. Histograma de la característica 1 de las observaciones.
Diagrama de caja
Un diagrama de caja y bigotes, o simplemente un diagrama de caja, es un gráfico basado en cuartiles, mediante el cual se visualiza la distribución de un conjunto de datos. Está compuesto por un rectángulo «caja» y dos brazos «bigotes».
Figura 1.10. Partes del diagrama de caja.
Los diagramas de caja son una forma útil de graficar datos divididos en cuatro cuartiles, cada uno con igual cantidad de valores. Donde Q1 es la mediana de la mitad menor de los datos, Q2 es la mediana de todos los datos y Q3 es la mediana de la mitad mayor de los datos. Adicionalmente, el rango intercuartil (IRQ) es la diferencia entre Q3 y Q1. En el gráfico de caja, los valores atípicos son más pequeños o grandes que los extremos del diagrama de caja. En este, no se grafica la frecuencia ni se muestran las estadísticas individuales, pero en ellos podemos ver claramente dónde se encuentra la mitad de los datos. Constituye un buen diagrama para analizar la asimetría en los datos.
En el algoritmo 1.7 se presentan los diagramas de caja de las características 1, 2, 3 y 4, que corresponden, respectivamente, a la longitud del sépalo (1), el ancho del sépalo, la longitud del pétalo y el ancho del pétalo. En la figura 1.11 se muestran diagramas de caja con las características 1, 2, 3 y 4:
% Autores: Erik Cuevas, Omar Avalos, Arturo Valdivia y Primitivo Díaz
% Se carga el conjunto de observaciones
load fisheriris.mat
% Se genera y despliega el diagrama de caja
% por cada característica de las 150 observaciones
boxplot(meas)