Análisis de datos: el futuro de las organizaciones
Este
componente proporciona información para aprender a implementar proyectos de
ciencia de datos desde las metodologías existentes para su análisis y a partir
de la identificación de las necesidades y los requerimientos de una
organización.
1. Importancia del análisis exploratorio de datos
Para comenzar es necesario recalcar
que en la actualidad los datos se han convertido en el activo más importante
para cualquier tipo de organización (grande, mediana, pequeña), pues su
análisis es fundamental en la toma de decisiones estratégicas que beneficien a
todos los implicados:
El análisis de datos es un elemento fundamental para la gestión estratégica empresarial.
Para conocer
algunas de las razones por la cuales el análisis de datos resulta indispensable
para el éxito de las organizaciones, se invita a revisar con atención el
siguiente recurso educativo:
1.
Naturaleza
El análisis de
datos permite explorar, resumir y entender la naturaleza y trascendencia de los
datos en el entorno empresarial.
2.
Organización
El análisis
exploratorio de datos permite obtener y validar información que facilita la
planificación y organización de los procesos, la delegación de funciones y el
seguimiento constante a cada una de las tareas asignadas.
3.
Clientes
El análisis
exploratorio de datos permite mantener organizada la información de los
clientes potenciales y establecer desde allí estrategias para captar clientes
futuros.
4.
Volúmenes de información
El análisis
exploratorio de datos permite dar valor a grandes volúmenes de información.
5.
Funcionamiento organizacional
Con el análisis
exploratorio de los datos se busca detectar errores, anomalías en los datos,
realizar la visualización de información en gráficos, validar hipótesis y, por
supuesto, entender mucho mejor el funcionamiento de la organización
Para realizar el análisis exploratorio de datos, se utilizan diversas herramientas tecnológicas entre las que se encuentran Anaconda y Júpiter Lab, desde allí se despliega el lenguaje de programación Python y las librerías necesarias para facilitar su lectura, manipulación y aplicación de métodos estadísticos que permiten la visualización de los datos en forma de tablas y gráficos y por ende su interpretación.
Por otro lado, existen diversas
formas para realizar el análisis de datos exploratorio, entre las que se
encuentran:
UNIVARIADO
Se analiza una sola
variable.
BIVARIADO
Permite verificar el comportamiento de dos variables, se puede estudiar
una variable en función de la otra.
MULTIVARIADO
Cuando se combinan más de dos datos, aborda todos los indicadores disponibles para el análisis de un fenómeno determinado.
En este orden de ideas, se puede afirmar que el
objetivo principal del análisis exploratorio de datos es tener una visión clara
de los datos que maneja la organización para, posteriormente, indicar la
técnica de ciencia de datos más adecuada para su tratamiento.
Para que una organización alcance lo
objetivos que se ha propuesto es necesario que organice sus datos, entienda su
contenido, comprenda cuáles son las variables más importantes y cómo estas se
relacionan una con otra, comenzar a identificar patrones, establecer qué hacer
con los datos atípicos y, finalmente, llegar a conclusiones acerca de dicho
análisis que permitan la toma de decisiones acertadas frente a los procesos
organizacionales.
Todo lo anterior rescata la importancia del análisis exploratorio de datos, que se resume en la forma de entender, visualizar y extraer información relevante de un conjunto de datos para establecer la ruta o técnica más adecuada para procesarlos.
A continuación, se podrá conocer a
más detalle los pasos necesarios para el análisis exploratorio de datos.
1. Plantear la pregunta de arranque:
¿qué se quiere responder?
2.
Tener una idea general del conjunto
de datos que se tienen.
3.
Clasificar los datos por tipos.
4.
Elegir el tipo de estadística
necesaria para el análisis de dichos datos.
5.
Visualizar los datos.
6.
Analizar las posibles variables y sus
interacciones.
7.
Extraer conclusiones del análisis.
2. Metodología para la ciencia de datos
El objetivo
principal de esta metodología consiste en la planeación, de manera organizada,
de las metas, proyectos o implementaciones necesarias para que cualquier tipo
de tarea, que requiera de un tratamiento específico, funcione de manera
correcta.
Desde esta
perspectiva, una metodología enfocada en la ciencia de datos permite definir la
ruta a seguir para la debida organización y el procesamiento adecuado de los
datos.
Una de las metodologías más utilizadas cuando se emprenden proyectos de ciencia de datos, es la denominada ASUM (siglas en inglés de Analytics Solutions Unified Method), cuyo significado en español es Método Unificado para Soluciones de Analítica.
Una metodología de
ciencia de datos permite llevar de manera organizada cada una de las etapas
necesarias para desarrollar un proyecto de ciencia de datos y, de esta manera,
garantizar el cumplimento de los objetivos, que se han propuesto sobre este
tema.
Dentro de la
implementación de dicha metodología se deben tener en cuenta las actividades
propias de gestión de proyecto, entre las que se encuentran:
Para implementar la metodología ASUM es necesario tener en cuenta las siguientes fases:
Fase 1: inicio del proyecto
Lo primero es
realizar un levantamiento de la información, se debe hacer un diagnóstico
respecto a qué tan preparada está la compañía para iniciarse en un proyecto de
analítica, dentro de esta etapa se deben identificar factores como:
Para conocer los roles necesarios con miras al inicio con el desarrollo de un proyecto de análisis de datos, se debe revisar el siguiente recurso educativo:
Patrocinador del proyecto
Hace parte del nivel superior, y toma decisiones clave para que se
faciliten todos los requerimientos a nivel tecnológico y humano.
Arquitecto empresarial
Mantiene estrecha relación con los estrategas de la empresa, para
mantener todo el inventario tecnológico alineado con las metas empresariales.
Arquitecto de datos
Encargado de asegurar la infraestructura tecnológica requerida para
soportar proyectos de ciencias de datos, recopilación, análisis y
procesamiento.
Científico de datos
Es la persona que entiende muy bien los datos, es experto en estadística
y herramientas tecnológicas para análisis de datos.
Analista de negocios
Conoce muy bien el negocio, las estrategias objetivos y metas de la
compañía, debe trabajar muy de la mano con el científico de datos.
Gerente de datos y analítica
Organiza, facilita y asegura que los datos fluyan de acuerdo a los
requerimientos del proyecto, debe engranar muy bien todas las áreas del
negocio.
Fase 2: entender el negocio
En esta etapa es
importante entender cuáles son esos objetivos, pero, además, es fundamental
reconocer los requerimientos y las necesidades organizacionales, al identificar
este aspecto se podrán reconocer aquellos problemas que podrían resolverse con
la implementación de la analítica:
Para conocer las principales características de esta etapa, se invita a
explorar el siguiente recurso educativo:
Determinar
objetivos
Establecer cuáles son los objetivos de la empresa o negocio es fundamental, para esto se puede realizar un recuento histórico de negocio que ayude a determinar la situación actual y establecer esas fortalezas que han permitido tener éxito organizacional. Determinar acciones de mejora y desde allí plantear objetivos o identificar posibles problemáticas que se pueda resolver desde el análisis de los datos.
Realizar
evaluación
Cuando se hace la evaluación, es importante tener en cuenta los
siguientes aspectos:
Inventario
Identifique con qué personal cuenta, los recursos computacionales y las
herramientas de software disponibles, además de la documentación de los
procesos internos.
¿Cuáles
son los requerimientos y restricciones?
Realice un cronograma de las actividades necesarias para desarrollar el
proyecto, tenga en cuenta las políticas de protección de datos y revise las
limitantes en hardware y software.
Evaluar
los riesgos y planes de contingencia
Es importante que identifique los riesgos visibles y los que pudiesen
llegar a presentarse, cree una ruta clara mediante un documento maestro que
permita tomar las medidas a las posibles eventualidades presentadas.
Terminología
Socializar un
documento y realizar capacitaciones en donde se tenga claridad de la
terminología utilizada, tanto en la organización en general como la que maneja
el equipo de analítica.
Es importante que
todos los miembros de la organización hablen el mismo idioma.
Costo
y beneficio
Es importante
calcular los costos del proyecto y determinar cuáles serán las utilidades una
vez este se haya finalizado.
Es fundamental
clasificar los costos en directos e indirectos dentro de la recolección de los
datos y en el despliegue del proyecto.
Ruta
de trabajo
Para tener éxito en
el proyecto es fundamental tener claridad frente al paso a paso que se debe
realizar en cada una de las etapas del proceso, de igual manera, se debe tener
claro cuáles son los involucrados y sus responsabilidades.
Reportes
Es importante crear
reportes que permitan entender la empresa, para el equipo de analítica es vital
comprender el negocio completamente, el objetivo que se desea alcanzar, los
criterios de éxito y demás datos relevantes que permitan entender a profundidad
el negocio.
Con los reportes se
genera un insumo fundamental que pueden ser consultados en cualquier momento
durante la ejecución del proyecto.
Fase 3: descubrimiento y entendimiento de los datos
Se debe realizar la
recolección de datos iniciales para determinar la consistencia de la
información, se espera poder describirlos, realizar todas las exploraciones
planteadas y verificar la calidad de los mismos.
Los datos iniciales
pueden provenir de diferentes fuentes de información, como se observa en la
siguiente figura:
Posteriormente, es necesario describir los datos presentes con cada colección analizada, generalmente estos deben estar organizados en filas y columnas, para esto se debe realizar la identificación de las columnas y determinar cuáles de estas son datos categóricos y cuales son numéricos, también es importante establecer algunas medidas de tendencia central como la moda, media, mediana, varianzas, máximos y mínimos.
Por otro lado, es fundamental verificar la calidad de los datos teniendo en cuenta las siguientes preguntas:
Recuerde que es importante generar informes que indiquen el estado en que se encuentren los datos, teniendo en cuenta el proceso de recolección, la descripción de cada uno de los datos encontrados, su exploración y un reporte de la calidad de los mismos.
Fase 4: preparando los datos
Esta es una de las
etapas que ocupa mayor cantidad de tiempo, pues, normalmente, los datos no
cumplen con los parámetros requeridos para empezar a trabajar con ellos de
manera adecuada, por ende, es necesario que en la fase anterior se realice un
muy buen trabajo de investigación que permita avanzar rápidamente.
En este paso se deben tener en cuenta las siguientes operaciones:
Finalmente, dentro de esta fase es importante
realizar un informe en el que se describen las diferentes situaciones que se
encontraron y se inscriban, si es necesario, dentro del marco de riesgo en caso
de ser así, de lo contrario igualmente se deben reportar los avances y los
resultados positivos.
Fase 5: construir el modelo
Al inicio del
proyecto se plantearon unos objetivos o metas, con la construcción de un modelo
se pretende estructurar todo lo necesario para lograr alcanzarlos, en esta fase
se pueden requerir varias interacciones que permite ir afinando el modelo, es
muy probable que sea necesario volver a la fase de preparación de los datos
para realizar los ajustes necesarios
Se invita a revisar con atención el siguiente recurso educativo para identificar los pasos que se deben tener en cuenta para la construcción del modelo:
Fase 6. evaluar el modelo
Con los criterios de evaluación definidos y los resultados que se obtuvieron
del modelo generado anteriormente, se realiza un diagnóstico que permite
determinar si el modelo utilizado es el indicado para el negocio.
En
la evaluación de resultados, se deben tener en cuenta las siguientes
consideraciones:
Finalmente, el siguiente recurso educativo brindará
claridad respecto a los procesos que se deben tener en cuenta para realizar una
revisión final de todas las etapas.
Revise que todo lo
que se planeó al inicio del proyecto se haya llevado a cabo, determine los
motivos por los que algunas acciones de las planeadas inicialmente no se
ejecutaron.
Es importante que
al desarrollar el paso anterior, que llevó a la identificación de errores, se
establezcan acciones específicas para que estos sean corregidos y no traigan
consecuencias ni sean riesgosos, más adelante, para el desarrollo del proyecto.
Después de realizar
las debidas correcciones, prepare nuevamente los datos necesarios para dar
respuesta a los requerimientos identificados.
Evalúe otro tipo de
modelos que puede llegar a implementar y que le permitan mejorar el análisis
exploratorio de datos según las necesidades y los requerimientos identificados.
Recuerde que es
importante documentar cada uno de los hallazgos encontrados, así estos sean
negativos o positivos.
3. Identificación
de problemas y oportunidades de negocio
Para
comenzar con el análisis de datos exploratorio es primordial, primero, conocer
el negocio o la organización para la cual se está desarrollando el análisis,
además, deben ser muy claros los objetivos, requerimientos y metas de la
compañía.
Design
Thinking es una metodología que utiliza
herramientas creativas para identificar las necesidades y requerimientos de los
usuarios o de los clientes y, desde allí, desarrollar ideas innovadoras para
lograr satisfacerlas.
A
continuación, se define de forma especifica las fases que contemplan esta
metodología, las cuales se describirán más adelante, así:
Fases
del Design Thinking
1. Empatizar
Cuando
se empatiza lo que se quiere es tratar de estar en la misma situación de la
otra persona, tratar de entender su situación, de pensar y sentir como esa
persona lo haría.
Ejercicio reflexivo
Haga
de cuenta que se tiene una tienda de café, se intenta saber qué piensan los
clientes o potenciales clientes al visitar el sitio, qué les llama la atención
de visitar su tienda y no otra: puede ser el precio, la atención, la calidad
del producto, el lugar en donde está situado, el ambiente que allí se disfruta.
2. Definir
En la etapa de definir, lo que se
quiere es depurar toda esa información recopilada al momento de empatizar y
quedarse con lo que realmente tiene un valor significativo.
Ejercicio reflexivo
¿La edad de las
personas influye en la tienda de café?
¿La calidad de
atención a la clientela, es lo que se considera de mayor valor intangible en su
negocio?
Cada
negocio realiza sus juicios de valor y dará mayor importancia a esas variables
que van encaminadas con los objetivos y metas del negocio.
3. Idear
En la etapa de ideación se deben contemplar
todas las posibilidades que se tienen y plantear soluciones a los problemas
identificados, por absurda que parezca la idea no se debe dejar de plantearla,
pues las ideas más locas pueden terminar en cambios significativamente
positivos para la compañía.
Ejercicio reflexivo
Es un valor
agregado que, en la tienda de café, los clientes puedan moler y llevar a
preparación la bebida que van a consumir.
4. Prototipo
Realice un prototipo de lo que considera sería
una solución a su problema, no debe ser nada elaborado, incluso si tiene a mano
lápiz y papel proceda a plasmar todas las ideas que tenga en mente.
Ejercicio reflexivo
Los clientes
del negocio, ¿disfrutan la preparación de producto, tanto para ellos mismos
como para otros clientes?
Para
la etapa de empatía se puede hacer uso de la herramienta denominada mapa de
empatía la cual ayuda a identificar las posibles variables que afectan el
negocio. El siguiente recurso educativo permite visualizar cómo se puede
aplicar dicha herramienta:
Siguiendo
con el ejemplo, se plantea un arquetipo correspondiente a un cliente de la
tienda de café:
¿Qué
piensa y siente?
- El café debe
ser de excelente calidad.
- La atención es
más importante que el precio.
- El café es la
mejor excusa para compartir.
¿Qué
escucha?
- La cafetería
tiene muy buen café.
- El servicio no
es el mejor.
- El sitio es
agradable.
¿Qué
habla y hace?
- Invita amigos
a la cafetería, pero no es periódico como le gustaría.
- Realiza
sugerencias para mejorar la atención.
¿Qué
ve?
- Buenos
comentarios.
- Instalaciones
pequeñas.
- Acumulación de
personas.
¿Cuáles
son sus dolores?
- Mal servicio.
- Instalaciones
pequeñas.
¿Cuáles
son sus dolores?
- Atención de
calidad, le gusta sentirse bien atendido.
- Contar con un
espacio agradable para compartir.
Cada
negocio tendrá su estrategia para la recopilación de los datos que le permitan
realizar cuadros de empatía, la generación de dolores y necesidades de sus
actuales o futuros clientes.
Anteriormente
se vio que el paso a seguir debe ser idear las posibles soluciones y crear
prototipos que propendan con la puesta en marcha de planes de mejoramiento.
Siguiendo
el ejemplo anterior, el negocio de café tendrá que poner mucha atención a dos
factores que pueden estar afectando significativamente el negocio como:
Por ende, se tendrá que realizar un análisis para validar si estas dos variables están ligadas y una desencadena en la otra, estos análisis se pueden determinar mediante un análisis observatorio de los datos y algunos cálculos estadísticos, o se pueden implementar modelos más complejos cuando la relación entre variables no es fácil de detectar.
4- Estadística
Para
realizar un análisis de datos efectivo es fundamental reconocer
diferentes medidas que se utilizan en la estadística y que resultan
fundamentales para llevar a cabo dicha labor:
4.1
Media
Consiste
en realizar la sumatoria de todos los elementos de una lista de datos que sean
numéricos y dividirlos sobre el total de elementos, por ejemplo, si se quiere
saber la media de las calificaciones de un curso de la materia de Python cuya
lista se muestra a continuación.
Tabla
2. Media de calificaciones
N.° |
Nombre |
Nota |
1 |
Estudiante 1 |
3 |
2 |
Estudiante 2 |
3,5 |
3 |
Estudiante 3 |
4,5 |
4 |
Estudiante 4 |
5 |
5 |
Estudiante 5 |
4 |
6 |
Estudiante 6 |
5 |
7 |
Estudiante 7 |
3 |
8 |
Estudiante 8 |
4,5 |
9 |
Estudiante 9 |
3 |
10 |
Estudiante 10 |
4 |
SUMA TOTAL |
39,5 |
La
sumatoria total arroja 39,5 si ese resultado se divide entre el total de
estudiantes que son 10, el resultado nos dará la media.
Media
= 39,5 / 10 = 3,95
Con
el análisis de la media se debe estar muy atentos, ya que es muy sensible a
arrojar datos altos, por ejemplo:
Tabla
3. Media: datos altos
N.° |
Nombre |
Nota |
1 |
Estudiante 1 |
1,2 |
2 |
Estudiante 2 |
2 |
3 |
Estudiante 3 |
2 |
4 |
Estudiante 4 |
2 |
5 |
Estudiante 5 |
2 |
6 |
Estudiante 6 |
2,9 |
7 |
Estudiante 7 |
2,9 |
8 |
Estudiante 8 |
5 |
9 |
Estudiante 9 |
5 |
10 |
Estudiante 10 |
5 |
SUMA TOTAL |
30 |
Como
se observa en el cuadro anterior, a pesar de que el 70% presenta una valoración
baja y con solo 30% de los datos con valoración alta, el comportamiento de la
media tiende a subir.
Si
se divide media = 30/10 = 3,0
Y
si el parámetro de análisis valida que de 3,0 en adelante es una medida
aceptable, entonces muy probablemente se incurrirá en errores.
4.2
Mediana
Con
el cálculo de la mediana se mejora la relación del problema presentado en la
media. Esta medida consiste en organizar los datos y tomar el valor que divide
los datos en dos partes igual, para esta acción se deben tener en cuenta dos
consideraciones:
- Cuando los
datos son impares: se toma el valor central dejando igual número
de registros a ambos lados.
Tabla
4. Mediana: datos impares
N.° |
Nombre |
Nota |
1 |
Estudiante 1 |
1 |
2 |
Estudiante 2 |
2 |
3 |
Estudiante 3 |
2 |
4 |
Estudiante 4 |
2 |
5 |
Estudiante 5 |
2 |
11 |
Estudiante 11 |
2 |
6 |
Estudiante 6 |
2,9 |
7 |
Estudiante 7 |
2,9 |
8 |
Estudiante 8 |
5 |
9 |
Estudiante 9 |
5 |
10 |
Estudiante 10 |
5 |
SUMA TOTAL |
32 |
El
valor de la mediana para este conjunto de datos sería 2, teniendo en cuenta que
los datos son impares y así quedarían la misma cantidad de registros al realizar
la división.
- Cuando los
datos son pares: por otro lado, lo que se debe realizar cuando
los registros son pares es realizar la suma de los dos datos centrales y
dividirlos por 2.
Tabla
5. Mediana: datos pares
N.° |
Nombre |
Nota |
|
1 |
Estudiante 1 |
1 |
|
2 |
Estudiante 2 |
2 |
|
3 |
Estudiante 3 |
2 |
|
4 |
Estudiante 4 |
2 |
|
5 |
Estudiante 5 |
2 |
2,4 |
6 |
Estudiante 6 |
2,9 |
4,9 |
7 |
Estudiante 7 |
2,9 |
|
8 |
Estudiante 8 |
5 |
|
9 |
Estudiante 9 |
5 |
|
10 |
Estudiante 10 |
5 |
|
SUMA TOTAL |
30 |
Como
se observa en la tabla, se toman los dos datos centrales dejando igual cantidad
de registros en ambas partes, se suman los números centrales y se divide entre
2 es decir se les aplica la media.
Mediana
= (2 + 2,9) = 4,9 / 2 = 2,45
4.3
Moda
Es
el valor con mayor frecuencia en la lista de datos, se pueden agrupar todas las
posibilidades presentes en la lista y se cuenta el número de veces que se
repite:
Tabla
6. Moda
N.° |
Nombre |
Nota |
1 |
Estudiante 1 |
1 |
2 |
Estudiante 2 |
2 |
3 |
Estudiante 3 |
2 |
4 |
Estudiante 4 |
2 |
5 |
Estudiante 5 |
2 |
6 |
Estudiante 6 |
2,9 |
7 |
Estudiante 7 |
2,9 |
8 |
Estudiante 8 |
5 |
9 |
Estudiante 9 |
5 |
10 |
Estudiante 10 |
5 |
SUMA TOTAL |
30 |
Nota |
Cantidad |
|
1 |
1 |
|
2 |
4 |
|
2,9 |
2 |
|
5 |
3 |
En
la tabla anterior se visualiza la agrupación de los datos y se especifican la
cantidad de veces que se repite ese valor en la secuencia, el valor con mayor
cantidad de veces repetido en la secuencia es la MODA.
4.4
Tablas de frecuencias
Estas
permiten agrupar información de manera que se puedan entender mejor los
volúmenes de datos.
- En ese
sentido, se encuentran las frecuencias absolutas que
sirven para representar el número de veces que se repiten los elementos o
grupos dentro de una serie de datos.
Ejemplo: se
requiere saber la edad de los empleados que trabajan para la compañía a nivel nacional,
para ellos se extrae la información del sistema de información de recursos
humanos. Se debe tener en cuenta la edad por rangos de la siguiente manera:
Tabla
7. Tablas de frecuencia
Edad |
Total
de empleados |
18 a 25 |
|
25 a 35 |
|
35 a 40 |
|
40 a 50 |
|
Más de 50 |
Los
resultados arrojan la siguiente frecuencia absoluta, después de procesar los
datos y agrupar en el rango indicado:
Tabla
8. Frecuencia absoluta
Edad |
Total
de empleados |
18 a 25 |
50 |
25 a 35 |
110 |
35 a 40 |
15 |
40 a 50 |
20 |
Más de 50 |
5 |
Total |
200 |
- La
frecuencia absoluta acumulada corresponde a sumar cada uno de los
elementos o grupos de la siguiente manera, en el último elemento, grupo o
rango se muestra el total de registro, en este caso de 200, que coincide
con el total general, para el primer registro se deja el mismo valor.
Tabla
9. Frecuencia absoluta acumulada
Edad |
Total
de empleados |
Acumulado |
18 a 25 |
50 |
50 |
25 a 35 |
110 |
160 |
35 a 40 |
15 |
175 |
40 a 50 |
20 |
195 |
Más de 50 |
5 |
200 |
Total |
200 |
Se
realizan los cálculos de los datos en porcentajes lo que permitirá entenderlos
mejor, para ello se divide cada uno de los elementos de la frecuencia absoluta
y acumulada sobre el total de los registros, a este paso se le denomina frecuencia
relativa.
El
procedimiento es dividir cada uno de los registros entre 200 que corresponde al
total de los registros así:
Para total empleados |
|
50/200 |
= |
110/200 |
= |
15/200 |
= |
20/200 |
= |
5/500 |
= |
Y para el acumulado |
|
50/200 |
= |
160/200 |
= |
175/200 |
= |
195/200 |
= |
200/500 |
= |
Tabla
10. Frecuencia relativa
Edad |
Total
de empleados |
Acumulado |
%
Total de empleados |
Acumulado |
18 a 25 |
50 |
50 |
0,25 |
0,25 |
25 a 35 |
110 |
160 |
0,55 |
0,8 |
35 a 40 |
15 |
175 |
0,075 |
0,875 |
40 a 50 |
20 |
195 |
0,1 |
0,975 |
Más de 50 |
5 |
200 |
0,25 |
1 |
Total |
200 |
Como
se puede observar la mayor concentración con 80% de los datos se encuentran en
los dos primeros grupos.
4.5
Varianza
Se utiliza cuando se quiere saber qué tan dispersos están los datos con respecto a la media, como se observa en la fórmula se eleva al cuadrado lo que evita datos negativos.
4.6
Desviación estándar
Se
emplea cuando se quiere saber qué tan disperso está un grupo de datos con
respecto a la media se representa mediante la siguiente fórmula:
5.
Preparación de los datos
La preparación de los datos es
un paso muy importante para el análisis exploratorio, después de conocer muy
bien los objetivos del negocio e identificar las metas de la organización. Es
muy importante establecer el camino que se debe seguir para esta preparación.
Una de las estrategias que
apoya el proceso de preparación de datos son los Data Sets, esta
estrategia es una colección o representación de datos que, generalmente, están
dados por filas y columnas. Estos datos se generan directamente desde los
sistemas de información del negocio o se pueden encontrar como datos abiertos
que se descargan desde internet, o incluso pueden comprarse.
Normalmente las colecciones de
datos se trabajan en archivos con extensión .CSV (valores separados por comas),
este tipo de archivo permite que se manejen grandes volúmenes de información,
la separación por comas se utiliza para la identificación de las filas y las
columnas, como se observa en la siguiente imagen:
También se pueden ver y editar en programas
como Excel, para visualizar la información en filas y columnas, es muy común
que los datos suelen presentarse en formato de Excel y sea necesario realizar
la exportación a CSV.
Si el archivo
está en formato CSV y se quiere visualizar a Excel, es necesario seguir algunos
pasos, por lo que se invita a revisar el siguiente recurso educativo para
conocerlos.
PASO 1. Al abrir directamente el archivo CSV,
este se debe observar de la siguiente manera:
PASO 2. Haz clic en texto en columnas para
visualizarlos en filas y columnas:
PASO 3. Selecciona la opción delimitado y haz
clic en siguiente:
PASO 4. Selecciona la opción coma y haz clic en
siguiente:
PASO 5. Posteriormente, haz clic en la opción
finalizar:
PASO 6. Posteriormente, la información se
visualizará de la siguiente manera, lo que permitirá hacer un análisis
descriptivo:
Estos tipos de
archivos son los más comunes en las organizaciones, los sistemas de información
exportan la información en formato CSV, y se hace necesario saber qué hacer
cuando están en uno u otro formato.
PASO 7. Por otro lado, si el formato en que está el archivo
es tipo Excel es decir, extensión .XLS o XLSX, el procedimiento que se debe
realizar para guardar los datos, y que posteriormente se pueda procesar en la
herramienta de análisis de datos, es el siguiente:
Selecciona
guardar como:
PASO 8. El formato que se debe utilizar para
guardar el archivo es CSV, y de esta manera se convertirá a este formato muchos
más liviano y que será el que se utilice para procesar.
Finalmente,
después de preparar los datos se debe realizar la revisión detallada de los
mismos y determinar:
El total de registros
Cuáles son las
variables categóricas.
Las variables
numéricas.
Establecer si faltan
datos en alguna de las variables.
Establecer si existen
inconsistencia en los registros, por ejemplo, que dentro de la variable edad
que es numérica se tenga valores de tipo carácter.
Establecer si es
necesario eliminar los registros que presenta valores vacíos nulos de las
variables seleccionadas para el análisis.
Establecer que datos
necesitan ser remplazados.
Diseñar un plan con las
diferentes opciones que, de implementación, puede ser que sobre los mismos
datos se puedan realizar dos tipos de análisis.
En
la actualidad las empresas, independientemente de su tamaño, manejan gran
cantidad de datos e información que se han ido convirtiendo en la herramienta
base para la toma de decisiones estratégicas. Desde esta perspectiva, este
componente resulta fundamental al brindar las bases para desarrollar un
proyecto de análisis exploratorio de datos. En este componente se aclaran
conceptos, se identifican metodologías de aplicación, además se describen
estrategias puntuales para la preparación de datos y el análisis estadístico de
datos.
Una
breve revisión de los temas vistos, se encuentra en el siguiente esquema:
📊💡 En este espacio, te proporcionaremos una selección de herramientas clave y recursos que te ayudarán a mejorar tus habilidades de análisis y a sacar el máximo provecho de tus datos.
🔗 Recursos y herramientas para el análisis de datos
¡Explora y comienza a dominar el mundo del análisis de datos con las mejores herramientas a tu disposición! 🚀📈
¡Te invitamos a explorar más sobre el análisis de datos y aplicar lo aprendido! 🎓✨ Puedes ver un ejercicio práctico basado en lo que hemos descrito en este artículo sobre análisis exploratorio de datos (EDA). Encuentra todos los detalles y el código en el siguiente repositorio de GitHub:
🔗 Repositorio de GitHub: EDA y análisis de datos o puedes ver el notebook de Colab dando clic aqui
¡Visualiza fácilmente la estructura documentada de un proyecto y revisa su informe completo! 🗂️📄 Solo tienes que hacer clic en el siguiente enlace para acceder a toda la información de manera organizada y clara:
🔗 Estructura documentada del proyecto e informe
¡Sumérgete en los detalles del proyecto y explora su informe! 🚀📑¡Anímate a profundizar en el análisis de datos y pon en práctica tus conocimientos! 🚀📊
Glosario
D
Data
Sets: colección
de datos organizados en filas y columnas.
Dato: valor
con el que se forman series y colecciones numéricas o categóricas.
Design
Thinking: metodología
utilizada para realizar ideación en búsqueda de solución a problemas.
F
Frecuencias: cantidad
con la que se repite un elemento, grupo o rango dentro de una colección.
M
Media: valor
que se calcula para determinar el promedio de una serie de datos numéricos.
Mediana: valor
central de una serie de datos numéricos ordenados.
Moda: valor
que se presenta con mayor frecuencia en una serie de datos
Tema |
Referencia
APA del material |
Tipo |
Enlace |
Importancia del análisis
exploratorio de datos. |
Comunicación numérica.
(s.f.). ¿Qué es el análisis exploratorio de datos? |
Video |
|
Metodología de la ciencia de
datos. |
Torres, C., Holman, J., y
Méndez, J., (2022). Metodología para la analítica de datos. |
Artículo |
|
Preparación de los datos. |
Kaggle.com.
(2022). Height of Male and Female by Country 2022. |
Página Web |
https://www.kaggle.com/datasets/majyhain/height-of-male-and-female-by-country-2022 |
Referencias
Arias, H., Rojas, M., Sepúlveda, D.,
Rojas, C., y Rodríguez, Y. (2019). Modelo de negocio Design Thinking.
UNAD.
Bustos, M. (2021). Técnicas e instrumentos
para recoger datos del hecho social educativo. Revista Científica Retos
de la Ciencia, 5(10), 50-61.
Cordoví, V., Benito, V., Pruna, L.,
Muguercia, A., y Antúnez, J. (2018). Aprendizaje de las medidas de tendencia
central a través de la herramienta EXeLearning. Medisan, 22(3), 257-263.
Ortigoza, A., y Mateus, C. (2021). Aprendizaje
basado en proyectos de las medidas de dispersión en busca de la cultura
estadística en un contexto rural. Innovaciones Educativas, 23(35), 73-87.
Torres, C., Holman, J., y Méndez, J.,
(2022). Metodología para la analítica de datos. Ideca. https://ideca.gov.co/sites/default/files/MetodologiaAnaliticaDatos.pdf
No hay comentarios:
Publicar un comentario