En la zapatería Los 2 Hermanos se desea conocer cuál es la talla de calzado más vendida entre el público femenino y masculino, por lo que con las últimas ventas del año se recopilarán datos para hacer un cálculo que permita surtir el producto más vendido.
Con los datos de las ventas podrán sacar medidas de tendencia central, ¿las conoces? Bueno, en este tema conocerás sobre ellas y otras medidas que ayudan a analizar la información básica obtenida en una investigación.
Tomando como referencia lo anterior, la empresa será capaz de conocer la tendencia central, ¿sabes a qué se refiere este concepto? En esta sesión se abordará por qué funciona como una herramienta para evaluar el contenido recopilado para una investigación.
En los últimos módulos se estudió sobre el procedimiento para realizar una investigación de mercados, es decir, seleccionar la herramienta adecuada y obtener una recopilación de información exitosa; al lograr esto se llega a la siguiente parte donde se presentan los datos por medio de diferentes análisis, pruebas y métodos, los cuales serán revisados en los siguientes temas.
En este tema se conocerán los análisis básicos del tratamiento de la información. El análisis descriptivo da una visión y la descripción de un panorama son útiles, pero no son capaces de determinar los factores causales, aunque sí permiten el desarrollo de nuevas investigaciones al formular más hipótesis.
Son usados para la descripción de la naturaleza de los datos, además, sirven para hacer tabulaciones y estadísticas de los elementos que se verán más adelante.
CNCI Virtual Multimedia Statistical package for the social sciences (SPSS)
El programa comúnmente tiene dos opciones, ya sea abrir o crear una base de datos, como lo es su uso por primera vez. También tiene dos ventanas: una de datos y otra de resultados; en ellas hay dos visores: vista de datos y vista de variables; se comienza creando las variables en la vista de variables.
Cuando se redactan las variables es necesario establecer el tipo de medida; se sugiere ingresar valores en caso de la variable nominal en la columna de valores.
Las filas corresponden a casos y las columnas a variables. En el menú archivo se importan, guardan y abren las bases de datos de la plataforma. La mayoría se asemeja a Microsoft Excel.
La imagen muestra un ejemplo de ingresos de variables, las cuales se encuentran en las columnas, mientras que los casos se escriben en las filas.
Son coeficientes que intentan describir un conjunto de datos con la identificación de la posición central dentro del conjunto de datos. Las tres medidas de tendencia central más comunes son la media, la mediana y la moda; cada una de ellas serán descritas a continuación.
Ejemplo de media:
Se tienen diez empleados y cada uno registra diferentes ventas a lo largo de la semana, por lo que se quiere conocer la media de las ventas semanales.
Se suman las ventas que cada empleado hizo para obtener una cifra de 97 piezas y ésta se divide entre los diez empleados, con lo que se obtiene la media de 9.2 productos por semana.
Ejemplo de mediana:
Se tienen las edades de los estudiantes de cuarto grado de primaria y se desea conocer la mediana de las edades, por lo que se agrupan los datos.
Edades: 9 8 8 6 9 7 8 7 10 8 9 10
Luego, se ordenan los datos de menor a mayor.
6 7 7 8 8 8 8 9 9 9 10 10
Cuando el valor medio es solamente uno, entonces, se toma ese dato como mediana, pero cuando los valores son dos, entonces se suman y se dividen entre dos para obtener la mediana; en el ejemplo, 8 es la mediana.
Ejemplo de moda:
Los siguientes datos son los resultados de la encuesta de satisfacción de clientes en sus compras con un valor del 1 al 10 para calificarlos; se tienen los resultados de veinte clientes.
5 8 9 5 10 8 9 10 6 10 8 9 10 7 10 8 9 5 10 10
No es necesario ordenar los números, sino que se debe identificar el número que se repite con más frecuencia.
A esto se le añade la suma, la cual representa el total de todos los valores.
La distribución de frecuencias ordena los valores de una variable y las veces que se repite, es decir, su frecuencia; permite calcular los datos estadísticos más populares, como la tendencia central, al igual que facilita la construcción de gráficos, como los histogramas y los gráficos de barra.
Imagen 2. SPSS y medidas de tendencia central
Cuando se menciona la variación se refiere a diversos tipos, cosas o formas. ¿Qué es la variabilidad o variación?
CNCI Virtual Multimedia Respuesta
Existen tres medidas de variación que se utilizan con frecuencia: el rango, la varianza y la desviación típica; además, hay una cuarta: el error estándar de la media.
A continuación se explica cada una de estas medidas de variación.
Además de las medidas de variación existen otras que dan información a los datos. Conoce más a continuación.
Hay dos tipos de medidas de forma; éstas son:
Asimetría Indica el grado de simetría de los datos; si la curva es simétrica y se corta por la mitad, su imagen debe ser reflejada de igual forma, pero si la curva no es simétrica se establece que está sesgada. Al ser la asimetría positiva, el lado superior de la curva deberá estar inclinado hacia la izquierda, y viceversa. Cuando la curva está sesgada quiere decir que la mediana es mayor que la moda, pero si es negativamente sesgada la mediana es menor que la moda. En la asimetría el error estándar puede ser usado para probar la significación de la asimetría y se usa el estadístico Z con una distribución normal. El valor crítico Z es de 1,96 para una prueba de dos colas con un nivel del 5 %, pero si el valor calculado de Z es menor a -1,96 se interpreta que la población sesgada es negativa, pero si se calcula Z +1,96 se dice que la población es positivamente sesgada.
Con esta imagen se puede apreciar cómo la asimetría se presenta al no existir simetría en la curva.
Curtosis Señala la distribución de los datos alrededor de la media. En una distribución normal el valor de curtosis es de cero. Una curtosis positiva, también llamada leptocúrtica, se presenta cuando se indica que las observaciones son agrupadas en torno a su valor medio, en ella se notan colas más largas que las de la distribución normal. La curtosis negativa o platicúrtica indica las observaciones que se distribuyen alrededor de la media con mayor varianza, es decir, hay colas más cortas. Si el valor de la curtosis es positivo y significativo, como ocurre en la leptocúrtica, quiere decir que hay menos variabilidad en el conjunto de datos, o sea, que los datos son homogéneos. La curtosis negativa o platicúrtica indica más variabilidad en el conjunto de datos, es decir, que son más heterogéneos. Si la curtosis es cero, entonces, la curva es clasificada como mesocúrtica, dicho de otra manera, es una curva normal. Si el valor de Z es menor a 0, entonces hay una platicúrtica, pero si el valor de Z calculado es mayor a 0, entonces es leptocúrtica.
Las siguientes imágenes son ejemplos de la curtosis en cada estilo o distribución. Presta atención.
Las curvas mencionadas en la curtosis se pueden dibujar en el SPSS con el menú Gráficos > Generador de gráficos para después seleccionar la opción Gráficos de barras y pulsar la curva normal.
En la actualidad algunos de los procedimientos estadísticos requieren ciertos supuestos que deben aprenderse a contrastar.
La normalidad de las muestras proceden de poblaciones donde los datos se distribuyen normalmente y en la homocedasticidad las poblaciones tienen la misma homogeneidad de varianzas.
En el SPSS se puede realizar el contraste de normalidad, para ello se sigue la ruta Analizar > Estadísticos descriptivos > Explorar. Después se coloca la variable a contrastar en la casilla Lista de pendientes y en la opción Gráficos se selecciona Gráficos de normalidad con pruebas.
Imagen 3. Prueba de normalidad
También se puede emplear la prueba no paramétrica de Kolmogórov-Smirnov que ayuda a comprobar la hipótesis nula de una determinada variable siguiendo una distribución específica. Para examinar si una variable se distribuye normalmente, en la teoría se puede utilizar esta prueba para evaluar cualquier tipo de distribución como exponencial o uniforme. A continuación se describe cada concepto mencionado previamente.
No se recomienda la muestra Kolmogorov-Smirnov en muestras grandes porque su sensibilidad implica el rechazo de las hipotésis nulas si están en pequeñas desviaciones; en este escenario, se debe optar por la siguiente prueba.
Si las pruebas antes mencionadas sugieren que los datos no se distribuyen de forma normal, entonces, se puede asumir la normalidad de los datos comparando medias siempre que se tengan tamaños de muestra mayores a treinta.
Hablar de la tabulación cruzada hace referencia al conjunto de datos modificados en su valor para diversos resultados; pero ¿cómo se usa la tabulación cruzada?
CNCI Virtual Multimedia Retroalimentación
Es empleada para dar respuesta de forma conjunta a los estudios de dos o más variables de manera simultánea; también se le llama tabla de contingencia.
Además, la tabulación cruzada describe datos, sobre todo si las variables son nominales o son ordinales; por lo que la tabulación cruzada es la combinación de dos o más distribuciones de frecuencias en una sola tabla.
Ahora revisa el siguiente ejemplo:
Se quiere representar el número de hombres y mujeres que escriben con la mano izquierda o la derecha.
Se comienza separando el sexo: hombre y mujer; luego se agrega un total para la suma en la primera fila. En las columnas se añade si es diestro, zurdo o ambidiestro y el total para hacer la suma.
Las tabulaciones cruzadas tienen como ventaja la fácil comprensión para el lector y la utilidad en la toma de decisiones gerenciales.
Dentro de los datos obtenidos también se desarrollan los test de asociación de los cuales se deriva la siguiente prueba.
Se considera que la distribución chi-cuadrado es asimétrica, pero su forma depende de los grados de libertad, es decir, entre mayor sea el coeficiente, mayor simetría presenta la curva.
Esta prueba también es usada para el ajuste entre modelos, pero se deben respetar las siguientes cuestiones.
Un ejemplo de esta prueba sería el siguiente:
Se considera una base de datos con dos variables para comprobar su relación con el tamaño de la empresa, ya sea pequeña, mediana o grande.
Periodicidad de las publicaciones en redes sociales con frecuencia baja, media y alta.
Para este ejemplo, la hipótesis es nula porque no existe relación entre el tamaño de la empresa y la periodicidad.
Otro ejemplo más es el siguiente; presta atención a las tablas.
Con los datos obtenidos se generaron las frecuencias marcadas en la segunda tabla.
De forma que lo anterior sirve para determinar si existe una relación entre o dos más variables; en el ejemplo se indica que no existe relación entre el sexo y el hábito de beber.
Dos elementos más importantes en los test de asociación son los siguientes:
Por su parte, el coeficiente eta no es lineal y se emplea para las tablas con variables con medida nominal u ordinaria que es igual a la variable independiente y el intervalo o razón variable dependiente. Su interpretación se realiza como la proporción de la variable dependiente que está explicada por la variable independiente.
Una joyería quiere saber cuál es el producto preferido por sus clientes, para ello, se realizó una encuesta con la que se obtuvieron los siguientes datos.
Se entrevistó a cien personas, siendo cincuenta de ellas hombres y las cincuenta restantes mujeres, después, la información se dividió en las categorías: Reloj, Anillo y Cadena. Con los resultados obtenidos en la encuesta se concluyó que el producto más demandado por los varones es el reloj, mientras que el público femenino prefería los anillos, siendo los relojes el producto más comercial; todo esto se obtuvo calculando la media de la frecuencia de los resultados y usando una tabulación cruzada. ¿Emplearías las medidas de tendencia central para encontrar otros datos en estos resultados?