Qué no te engañe el valor medio
¿Estamos seguros de que la media es un indicador suficientemente representativo? La mejora continua de los procesos en ITSM Software requiere su medición considerando distintos aspectos y en muchas ocasiones se utiliza el concepto de media como indicador.
La media es uno de los parámetros estadísticos más utilizados, principalmente por dos motivos: es fácilmente calculable y todo el mundo comprende su significado. Sin embargo, aunque no cumpla el propósito de cualquier parámetro estadístico, suele utilizarse por ser un valor representativo. Quizás nunca lo habíamos pensado, pero la media no describe correctamente cualquier población. Por ejemplo, si consideramos los sueldos de los empleados de una empresa y, la dirección tiene un sueldo muy alto, el salario medio resultante podría no ser representativo dado que la mayoría de los empleados cobran menos que ese sueldo.
La media (por ejemplo del tiempo de resolución) sólo es representativa de la población que se considera (el total de incidencias) cuando hay una dispersión muy baja de los valores, lo que estadísticamente requiere que la desviación estándar tome valores muy reducidos. Si buscamos un ejemplo más cercano a la Gestión de Servicios de TI, podría suceder que tengamos un tiempo medio de resolución muy alto provocado por un número muy pequeño de incidencias que se demoraron muchísimo respecto al resto.
Un criterio fácil para valorar si la media es representativa (m) es calcular también la desviación estándar (s) y calcular el intervalo [m-s, m+s]. La mayoría de los valores de nuestra población están en ese intervalo, pero la media sólo será representativa si ese intervalo no es demasiado grande. Por ejemplo, pensemos que tenemos un tiempo medio de resolución m = 30 minutos y que s = 60 minutos, entonces el intervalo anterior sería [30-60, 30+60] = [-30, 90] = [0, 90]. Con estos datos la media no parece muy representativa, porque lo que sabemos es que la mayoría de las incidencias se resuelven empleando entre 0 y 90 minutos. Sin embargo si s = 5 minutos entonces la media si es más representativa, porque el intervalo sería [30-5, 30+5] = [25, 35].
Por lo tanto, antes de lanzarnos a utilizar la media como parámetro estadístico sobre el que tomemos decisiones, deberíamos plantearnos otros criterios. Nosotros recomendamos dos:
- Si hemos calculado la media y la desviación típica descubriendo que existe mucha dispersión en los valores o, lo que es lo mismo, el intervalo [m-s, m+s] es muy grande, entonces podríamos plantearnos calcular la mediana, ya que seguramente sea un valor más representativo.
- En lugar de limitarnos a buscar un único número que represente la población (la media, la mediana o cualquier otro parámetro estadístico) quizás debamos utilizar un histograma.
La mediana es el valor que está en el medio de la población si esta se ordena. Por ejemplo, si los tiempos de gestión de las incidencias son (5, 5, 6, 7, 7, 7, 8, 10, 120) la mediana es 7 que es bastante más representativa que la media, cuyo valor sería aproximadamente 19.
Un histograma es una representación según frecuencias de repetición. Para el ejemplo anterior tendríamos: 5->2, 6->1, 7->3, 8->1, 10->1, 120->1 y, si lo ordenamos por número de repeticiones tendríamos (7, 5, 6, 8, 10, 120). Lo que nos permite ver que el valor más habitual es 7, el siguiente más habitual 5, y así sucesivamente. Además, con la información anterior podríamos calcular los percentiles, que nos darían una información más detallada. Por ejemplo podríamos saber que el 67% de las incidencias se resuelven en 7 minutos o menos y que el 89% se resuelven en 10 minutos o en menos.
Con esta información, podemos ver claramente que la media de 19 minutos no es en absoluto representativa y que está “viciada” por una única incidencia que necesitó 120 minutos para su resolución.
Por lo tanto, cuando construyas un sistema de métricas ten presente estas consideraciones y no te limites a calcular medias por el mero hecho de ser fáciles de calcular.
José Luis Fernández Piñero