lunes, 16 de julio de 2018

La Estadística y la Corrupción

Tenia pensado agregar un post referido a la Estadística y la Corrupción, pero me di cuenta que la corrupción esta en todo, desde lo más simple de las cosas que hacemos hasta lo más complejo.  De repente no iba poder terminar el post por la cantidad de información o detalles que tendría que haber considerado. Por eso decidí mejor presentar el siguiente video.


viernes, 29 de junio de 2018

Capacidad Estadística de un País

El BID ha desarrollado el Índice de Capacidad Estadística Nacional (ICEN), este índice permite medir de forma cuantitativa la capacidad de los sistemas estadísticos de los países de América Latina; la capacidad estadística es “la existencia de una estructura o sistema permanente que disponga de los recursos necesarios para generar de manera sostenida datos estadísticos relevantes y de calidad, y para difundirlos adecuada y oportunamente”.

El ICEN, es una medición compuesta de cuatro dimensiones principales: recursos, normas y prácticas institucionales, metodologías y difusión.

La primera se refiere a los recursos financieros (presupuesto), humanos (empleados y salarios), tecnológicos (software) y físicos (equipos, infraestructura) con los que cuenta una entidad de estadística para producir la información. Estos son centrales, debido a que en cantidades adecuadas otorgan capacidad operativa a las oficinas.

En segundo lugar, las normas y prácticas institucionales son aquellas que regulan la existencia y organización de la entidad estadística y del sistema en su conjunto, así como su rol de coordinador y articulador del mismo.

Las metodologías, que componen la tercera dimensión, hacen referencia a las técnicas mediante las cuales se recoge y procesa la información siguiendo estándares internacionales validados, controles de calidad, y métodos que generen información coherente y comparable de forma longitudinal y transversal.

Finalmente, la dimensión de difusión se refiere a las metodologías usadas para hacer accesible la información a los diversos usuarios, de forma transparente, oportuna y resguardando la confidencialidad de los datos.

Para medir el ICEN se aplicaron cuestionarios a diferentes actores en los 10 países. Un cuestionario fue llenado exclusivamente por funcionarios de la entidad estadística, mientras que otros fueron aplicados a funcionarios del Sistema de Estadística Nacional (SEN), académicos, periodistas y usuarios del sector privado. La información provista por estos dos tipos de actores, productores y usuarios permitió estimar de forma más integral la capacidad de los sistemas estadísticos nacionales. El puntaje resultante se encuentra en un rango de 1 a 10, donde 1 indica un bajo nivel de capacidad y 10 uno muy alto.

La herramienta se ha aplicado para medir la capacidad estadística de 10 países en el año 2015 y 2016, sus componentes y su forma de aplicación. Asimismo, se ha presentado el ranking de países. Se observa que, este ranking se encuentra asociado con los niveles de capacidad generales de los Estados, pero al mismo tiempo se confirma que en algunos casos los niveles de capacidad estadística son superiores a lo que se esperaría por su entorno.

El informe completo puede descargarse de este enlace:¿A quién le importa saber? .

lunes, 25 de junio de 2018

La Estadística y el Científico de Datos


Artículo de Enrique Saldivar, El Comercio 17/06/2018

La transformación digital exige una profunda re­flexión sobre la empresa, pero también plan­tea retos muy importantes para poder llevar con éxito el proceso y la comprensión de la tecno­logía que se requiere: Machine Learning, Internet of Things y Blockchain, teniendo como base el uso, ac­ceso y explotación de datos.
Según datos de Excelacom. firma de consultoría y análisis tecnológico, cada 60 segundos se envían 150 millones de correos electrónicos, se real izan 1.389 viajes en UBER, se efectúan 2.4 millones de búsquedas en Google, son publicadas 38.194 fotos en Instagram, se crean más de 120 nuevos perfiles en Linkedln y son descargadas 51.000 aplicaciones en dispositivos inteligentes.

Tiene sentido entonces que, hoy por hoy, el análisis del Big Data se haya vuelto el motor fundamental en la economía de la información. Sin embargo, pa­ra que las empresas obtengan el máximo valor de los datos, no solo se necesitan tener las herramien­tas adecuadas, sino también se requiere contar con personal capacitado. Es por esta razón que es de su­ma importancia potenciar el capital humano, prepa­rando a profesionales para transformarlos en lo que hoy se conoce como Científicos de Datos.

Aunque esta profesión no tiene una definición exacta, el Científico de Datos se centra en un profesional dedicado a analizar e interpretar grandes volúmenes de información, con el fin de diseñar una estra­tegia de inteligencia de negocios e identificar nue­vas oportunidades para las compañías. No es coincidencia entonces que, en el Perú, las carreras relacio­nadas con Estadística, Informática y Ciencias Mate­máticas hayan mostrado un crecimiento sostenido en los últimos años.

Lo expuesto supone un gran reto para las organiza­ciones, ya que deben identificar la necesidad de con­tar con científicos de datos y reconocer el potencial del Big Data, y abre una oportunidad para futuros profesionales que buscan nuevos campos laborales.

lunes, 18 de junio de 2018

Estadísticas y Futbol


Dicen que en el futbol las estadísticas no juegan. Sin embargo, ayudan a describir y establecer patrones de juego, incluso se puede llegar a ensayar su relación con la economía de un país, revisar el reporte: The World cup and Economics 2018. Incluso se puede realizar análisis sociológico como es el caso del Libro “Ese gol existe” de Aldo Panfichi.
Pero hay que hacer una diferencia, una cosa son las “Estadísticas” y otra cosa es la “Estadística”, incluso habría que previamente hacer otra diferencia, el que se ocupa de la (ciencia) Estadística se le conoce como Estadístico (sea licenciado o Ingeniero) y no “Estadista” como erróneamente se le suele llamar.

Las estadísticas permiten ordenar, clasificar y describir detalles a través del conteo que se hace de la ocurrencia de hechos de una variable, en el fútbol puede ser partidos ganados, perdidos o empatados; goles que hace un equipo o un jugador, en un partido o en varios en un campeonato o torneo.

A partir de los datos que generan las estadísticas, se puede establecer ratios, tasas, proporciones o porcentajes e incluso medidas de tendencia central o de variabilidad y tal vez algunos estadígrafos de correlación o relación de interés que indiquen el comportamiento de un jugador o un equipo.

Más complicado es utilizar estas estadísticas para establecer inferencias o modelos más complejos, ya que cada partido e incluso cada jugador tienen una performance diferente al tener un oponente diferente y cada ambiente o condiciones de cada partido no es igual a otro, por tanto los resultados o estadísticas van a ser diferentes.

Esta frecuencia de las estadísticas nos permiten construir distribuciones de probabilidades, ya que son hechos aleatorios que son singulares en cada partido, y estas probabilidades son tendencias que se pueden o no cumplir aún si es cercano al 0.99 (que implica probabilidad de un suceso seguro de ocurrir).

Todos los deportes usan estadística, las cuales les permitirá en el futuro medir las tendencias o patrones de los jugadores de los equipos de un país o de un club; pero, estos deben ser tomados con cuidado ya que son productos del azar. Como todo en la vida (y el futbol) muchas de las cosas que suceden están determinados por la aleatoriedad de las cosas que lo rodean.

lunes, 4 de junio de 2018

Los Pronósticos Cualitativos


Los diversos métodos estadísticos para realizar pronósticos están en su mayor parte dirigidos hacia los pronósticos económicos, de mercadotecnia, financieros y otras formas de predicción empresarial. Estos métodos se centran fundamentalmente en el corto y mediano plazos.
En el campo de los pronósticos tecnológicos y ambientales existen varias formas de predicción, que se enfocan al largo plazo. Dichos métodos cubren la predicción poblacional o demográfica, disponibilidad y costo de materias primas, evaluación del riesgo político, pronósticos gubernamentales y legislativos, predicción competitiva y, la predicción tecnológica.

La predicción tecnológica y ambiental no siempre proporciona un procedimiento detallado, ni presenta sus pronósticos como una respuesta numérica sencilla. El uso de tales métodos requiere de un entendimiento de los factores implicados en cada situación y una necesidad para adaptar el método a esa situación. Con dichos métodos es el experto quien es el procesador de hechos, conocimiento e información, más que algún conjunto de reglas matemáticas, como sería el caso con los métodos cuantitativos.

Los métodos de predicción tecnológica y ambiental se utilizan en tres tipos de situaciones:

La primera es la predicción cuando un nuevo proceso o producto dado llegará a ser ampliamente adoptado. Por ejemplo, una organización puede estar consciente de un cierto número de descubrimientos científicos que todavía no han sido aplicados y puede pretender pronosticar el momento en el cual su aplicación se hará más amplia. O una empresa puede interesarse en el horizonte temporal para la adopción de un nuevo proceso. Como un ejemplo, se puede considerar el desarrollo de la robótica y el problema de pronosticar el punto en que dicha tecnología tendrá amplio reconocimiento en las aplicaciones industriales. Esta información sería de interés para las empresas que manufacturan o venden robots y para quienes pueden explotar las oportunidades disponibles a través del uso de la robótica para mejorar su producción y reducir sus costos.

La segunda es predecir qué nuevos avances y descubrimientos se harán en un área específica. Por ejemplo, ciertas organizaciones podrían interesarse en lo que sucedería con los nuevos descubrimientos y avances médicos. Las corporaciones podrían desear pronosticar nuevos procesos y tecnologías que serán desarrolladas en su industria durante los próximos años, para ayudar en la planificación de los programas de ampliación de planta física, el desarrollo del mercado de largo plazo y las inversiones en investigación y desarrollo a largo plazo. También es importante ser capaz de pronosticar el costo de la energía y otras materias primas, porque los aumentos de tales costos podrían tener graves consecuencias en algunos países o empresas.

La tercera es la predicción de los tipos de cambios y patrones que podrían surgir de un área que está sufriendo o está a punto de sufrir un cambio primordial. Un objetivo principal es romper paradigmas e identificar la gama de posibilidades futuras. Aislar patrones y relaciones emergentes en tal situación es también deseable ya que los cambios tecnológicos afectarán inevitablemente las actitudes sociales, las que a su vez afectarán la demanda de productos y servicios y las innovaciones tecnológicas.

lunes, 28 de mayo de 2018

Estadística y Ciencias Sociales


El estudio de la realidad social y política se realiza cada vez con mayor frecuencia mediante análisis de encuestas y exploraciones de campo. En una investigación la Estadística se utiliza para: a) Diseñar el tamaño de la muestra; b) Decidir el tipo de muestreo en función de la población a investigar y c) Analizar los datos obtenidos. Además, nuevas preguntas, resultado del análisis de encuestas, ha llevado a nuevos desarrollos de modelos estadísticos.
Durante la mayor parte del siglo XX los investigadores, entre ellos los estadísticos trabajando en estas investigaciones, se concentraron en el análisis de datos de tablas de contingencia, que ha sido la forma más habitual para presentar los resultados de una encuesta.

A mediados del siglo XX, se desarrollaron técnicas de medición de la asociación entre variables categóricas que a través del coeficiente de correlación miden la dependencia en contextos más amplios. Los avances en el tratamiento estadístico de las variables cualitativas se han venido impulsado por las necesidades propias del análisis.

Un avance importante en este campo fue encontrar la relación entre el análisis de correspondencias, herramienta introducida por Benzecri para representar datos multivariantes de frecuencias. El Análisis de Correspondencias puede verse como una generalización para variables cualitativas de una técnica estadística clásica para reducir la dimensión de variables continuas, como la técnica de Componentes Principales, esta técnica tiene muchas aplicaciones en diferentes campos de la ciencia. Por ejemplo, los índices de desarrollo humano de la ONU, muchos sistemas de compresión de imágenes o video para su envío por Internet, o los factores que explican la inteligencia humana, utilizan esta herramienta introducida por Hotelling en 1933. Matemáticamente, se trata de buscar combinaciones lineales de un conjunto de variables, que contengan la máxima información, lo que se traduce en que tengan varianza máxima.

Goodman en 1985 relacionó los modelos log-lineales y el análisis de correspondencias, estableciendo una metodología unificada para el análisis de encuestas.

El modelo LISREL es otro desarrollo importante en el campo de la sociología, está técnica generaliza el modelo factorial clásico introducido por Spearman en Psicometría para analizar la inteligencia humana. Los modelos mencionados construyen un sistema de ecuaciones estructurales, similares a los modelos econométricos multiecuacionales, pero que en vez de relacionar variables observadas, relacionan variables no observadas o factores. Además, permite incorporar ecuaciones similares a un modelo factorial clásico para relacionar los factores con las variables observadas. Estos modelos se han convertido en una herramienta habitual en la sociología.

Otro aspecto que ha estimulado la investigación estadística es el análisis de datos faltantes. En alunas encuestas es frecuente que los entrevistados no respondan a parte de las preguntas y se debe enfrentar con el problema de cómo utilizar esta información incompleta. Este problema ha impulsado la creación de nuevos métodos de estimación, como los métodos de cadenas de Markov que permiten una utilización efectiva de toda la información disponible.

En resumen, se tiene que el papel de la estadística es un soporte para la adquisición de conocimiento científico en el mundo actual. En las ciencias sociales la Estadística,  es una herramienta que permite convertir los hechos observables en conocimiento e información, si bien es cierto su desarrollo cuantitativo es menor, así como en las humanidades, donde todavía se encuentra en sus inicios, es previsible que en este siglo se producirán avances importantes en la cuantificación de estas disciplinas.

lunes, 21 de mayo de 2018

Análisis Multivarial (II)


Las técnicas multivariadas más utilizadas son las siguientes:

Componentes Principales
Este método permite obtener componentes o combinaciones lineales de las variables originales y permiten simplificar el universo de estudio, centrándose en las componentes que sintetizan la máxima variabilidad residual. Los objetivos más importantes son:
  • Generar nuevas variables que expresen la información contenida en el conjunto original de datos.
  • Reducir las dimensiones o factores del problema que se está tratando, como paso previo para futuros análisis.
  • Eliminar algunas de las variables originales que aportan poca información o variables que contiene parte de información ya suministrada por otras variables.

El análisis por componentes principales debe ser aplicado cuando se desea conocer la relación entre los elementos de una población y se sospeche que en dicha relación influye de manera desconocida variables subyacentes o características de los elementos.

Análisis factorial
Este término engloba varias técnicas que buscan explicar la correlación de un conjunto grande de variables en términos de un conjunto reducido de variables subyacentes denominadas factores. Al reducir el número de variables, los procedimientos tratan de retener la mayor cantidad de información posible y de hacer de las variables restantes tan significativas y tan fáciles de manipular como sea posible. El propósito del análisis factorial es generar una comprensión de la estructura fundamental de las preguntas, variables u objetos y combinarlos en nuevas variables.

El análisis factorial permite generar varias soluciones para un mismo conjunto de datos, cada solución es generada por un esquema de rotación de factores, es decir, cada rotación tiene una interpretación diferente y esto se lo hace en términos de cargas o puntajes de factores.

Análisis Discriminante
Si el objetivo del análisis factorial es generar dimensiones que maximicen la interpretación y expliquen la varianza, el objetivo del análisis discriminante es generar dimensiones que discriminen o separen los objetos tanto como sea posible, es decir, identificar grupos o conglomerados de atributos sobre los cuales difieren los objetos. Al igual que en el análisis factorial, cada dimensión se basa en una combinación de los atributos fundamentales.

Clasificación
Una opción de analizar y estudiar un conjunto de individuos es clasificándolos en subconjuntos de acuerdo con algún objetivo predeterminado. La clasificación trata el problema de dividir un conjunto en subconjuntos, de tal modo que la diferencia entre elementos de un mismo subconjunto sea mínima y sea máxima para los elementos de diferentes subconjuntos. La formulación matemática y estadística se realiza mediante métodos como: modelos probabilísticos, teoría de grafos o criterios de optimización y algoritmos.

El uso de las técnicas de clasificación se basa en ideas generales concernientes a las observaciones. Busca revelar una partición que realmente exista (esta existencia es conjeturada antes del análisis estadístico o es revelada después del análisis). De modo inverso, la partición se emplea como instrumento para explorar los datos. Este último caso, es una generalización de histogramas unidimensionales, que con el objeto de facilitar el análisis, las observaciones se agrupan en clases homogéneas.

Las técnicas de clasificación recurren a métodos algorítmicos. Se consideran dos tipos de métodos de clasificación: los métodos jerárquicos y los métodos no jerárquicos.

Las técnicas de clasificación jerárquica presentan una estructura de árbol. Todos los individuos forman una clase, luego dos, tres, etc. clases y finalmente cada individuo forma una clase. Si se parte de “n” clases, con un individuo cada una y se van agrupando por pasos sucesivos hasta formar una sola clase, la técnica es aglomerativa, en caso contrario es divisiva.

En el caso de los métodos de clasificación no jerárquicos el número de clases se establece a priori y el algoritmo de clasificación asigna los individuos a las clases, partiendo de algunos valores iniciales y buscando optimizar algún criterio establecido previamente.

Correlación Canónica
Esta técnica consiste en buscar las máximas correlaciones posibles en un conjunto de variables.

El análisis de correlación canónica tiene ciertas propiedades similares al análisis de componentes principales, sin embargo, éste considera relaciones dentro de un conjunto de variables, la correlación canónica lo hace entre dos conjuntos de variables. El análisis de correlación canónica es una extensión de la técnica de regresión múltiple, que busca estimar las relaciones entre las variables independientes y la variable dependiente.

Actualmente existen otras técnicas multivariadas que se han desarrollado paralelo a la evolución de las TICs. Algunos de estas técnicas son: Escala Multidimensional, Análisis Path, Análisis de Series Cronológicas, Mapas Multidimensionales, Correspondencia Binaria y Múltiple.

lunes, 14 de mayo de 2018

Análisis Multivariado (I)


Cuando se requiere analizar situaciones complejas, muchas veces no basta una sola variable, es el caso para investigaciones en educación, salud, seguridad social, justicia o economía; entonces, en esta situación se hacer necesario utilizar múltiples variables, para lo cual se requiere utilizar el análisis multivariado.

El análisis multivariado es un conjunto de métodos, los cuales pueden analizar simultáneamente la relación existente entre variables correlacionadas.

Cuando se analizan varias características (variables) de un mismo individuo, estas variables por lo general están correlacionadas. El análisis estadístico univariado realizado separadamente para cada característica puede conducir a interpretaciones erróneas de los resultados, ya que se ignora la correlación entre variables.

Las técnicas multivariadas son herramientas eficaces para analizar los datos expresados en de muchas variables y permiten obtener la máxima información posible de los datos. En la actualidad existen programas estadísticos que permiten utilizar estas técnicas.

En el campo multivariado pueden utilizarse diferentes enfoques, tanto por las distintas situaciones que se presentan al obtener los datos, como por el objetivo específico del análisis. Entre las más importantes se tiene:

Clasificación
Este tipo de análisis permite ubicar las observaciones dentro de grupos o bien concluir que los individuos están dispersos de manera aleatoria en el espacio multivariable. También pueden agruparse variables. Las técnicas empleadas son: a) los métodos de clasificación jerárquicos, b) los métodos de clasificación no jerárquicos y c) el análisis discriminante.

Simplificación de la Estructura o Reducción de Datos.
El objetivo es encontrar una manera simplificada de representar el universo de estudio. Esto se logra mediante la transformación de un conjunto de variables interdependientes en otro conjunto de variables independientes o en otro conjunto de menor dimensión. Las técnicas que se utilizan con mayor frecuencia son: a) el análisis por componentes principales y b) el análisis factorial.

Dependencia entre variables
Para ello se seleccionan del conjunto ciertas variables (una o más) y se estudia su dependencia de las restantes. Entre los métodos para detectar dependencia comprenden a) el análisis de regresión múltiple, b) análisis de correlación canónica y c) análisis discriminante.

Análisis de la Interdependencia
El objetivo es analizar la interdependencia entre variables, la cual abarca desde la independencia total hasta la colinealidad, cuando alguna de ellas es combinación lineal de las otras. Entre las técnicas para analizar la interdependencia entre variables o individuos se incluyen el análisis de factores, clasificación, el análisis de correlación canónica, el análisis por componentes principales.

Formulación y Prueba de Hipótesis
A partir de un conjunto de datos es posible encontrar modelos que permitan formular hipótesis en función de parámetros estimables. La prueba de este nuevo modelo requiere una nueva recopilación de datos a fin de garantizar la necesaria independencia y validez de las conclusiones. Una de las técnicas empleadas es el MANOVA (Análisis Multivariado de la Variancia).

lunes, 7 de mayo de 2018

El buen uso de la Ciencia Estadística


Una elección adecuada de las pruebas estadísticas según las variables de interés, un correcto análisis de datos y una adecuada presentación de los resultados, ajustadas al contexto del área de conocimiento y los objetivos del estudio tendrán un impacto positivo en los trabajos que se lleven a cabo en una investigación científica.
La aplicación de los conceptos de la ciencia estadística es un tema  común en la mayoría de las investigaciones científicas cuantitativas, ya que permiten establecer parámetros poblacionales, determinar el compartimiento temporal y espacial de los fenómenos sociales y económicos y sus factores críticos, entre otros aspectos; entendiendo que la mala selección de una determinada prueba o una interpretación errada de los resultados puede desencadenar consecuencias negativas para la población, sea esta la sociedad, los clientes, usuarios o pacientes.

Los investigadores jóvenes tienden a prescindir de la estadística en sus investigaciones, debido a la falta de conocimiento acerca del tema y la importancia que reviste su uso como un soporte matemático de los resultados que busca obtener. Este poco uso de la estadística, los lleva a pensar que no es necesario.

Entre los aspectos que llevan al poco uso de las estadísticas se cuentan: a) la dificultad para seleccionar las pruebas adecuadas según las variables de estudio, b) mala interpretación de los resultados obtenidos por los programas estadísticos o c) no saber manejar los programas estadísticos.

Es necesario definir cuáles serán las variables a estudiar y tener un claro conocimiento del tipo de cada una de ellas. Esto permitirá seleccionar adecuadamente las pruebas estadísticas a aplicar y evitar un mal uso de las pruebas estadísticas.

La falta de asesoramiento por parte de un estadístico o de un investigador experimentado puede ocasionar la elección de pruebas por ejemplo, analizar variables cuantitativas con la prueba de Chi cuadrado de Pearson; aplicar comparaciones de medias a variables cualitativas binomiales; realizar análisis de variancia cuando no se cumplan el supuesto de normalidad de las variables, etc.

Algunos investigadores emplean de manera adecuada análisis de inferencia estadística en los datos obtenidos en sus investigaciones; sin embargo, hay un cierto abuso de la estadística, cuando enfatizan la presentación de sus resultados con las salidas de los paquetes estadísticos, restándole importancia a los resultados reales del estudio.

Es común que en los trabajos de investigación, se presenten como resultados tablas o cuadros con valores de la prueba t de Student, valores F, de Chi cuadrado, grados de libertad, etc.; aunque lo interesante para cualquier investigador y más aún, para los futuros lectores  del trabajo que se presenta, son los valores obtenidos en el contexto del área de conocimiento específico, como serian por ejemplo: promedios, frecuencias de casos con determinada característica según la procedencia, frecuencia del consumo de sustancias o tipos de alimento entre la población, etc. Está claro que no se debe dejar de indicar el valor de significancia estadística (p-valor), colocando las salidas del programa estadístico en un anexo.

También es necesario indicar si los resultados obtenidos corresponden a una muestra o una población, indicando el tamaño respectivo. Haciendo la diferencia con un dato estadístico obtenido en un periodo de tiempo, que no necesariamente es toda la población, sobre todo cuando se trata de los servicios públicos (acceso a la salud, educación y programas sociales), ya que podrían dar a entender que es toda la población, cuando sólo es una parte.

lunes, 30 de abril de 2018

Metodología Estadística en una Investigación Cuantitativa




Los elementos estadísticos más utilizados para realizar una investigación con enfoque cuantitativo, son las siguientes:
El análisis de los datos se efectúa utilizando una matriz de datos.

Las pruebas estadísticas a realizar dependen del nivel de medición de las variables, las hipótesis y el interés del investigador.

Los análisis estadísticos pueden realizarse a nivel descriptivo para cada variable, y a nivel de la estadística inferencial (pruebas paramétricas y no paramétricas) y análisis multivariados.

Las principales medidas de tendencia central son la moda, mediana y media.

Las principales medidas de la variabilidad son el rango, la desviación estándar y la varianza.

Otras estadísticas descriptivas de utilidad son las asimetría y la curtosis.

Una razón es la relación entre dos categorías y una tasa es la relación entre el número de casos de una categoría y el número total de casos.

La estadística inferencial permite generalizar las estimaciones de la muestra. Se utiliza para probar hipótesis y estimar parámetros. Se basa en el concepto de distribuciones de probabilidad teórica como la Normal, t, F y Chi-cuadrado.

La distribución normal es un modelo teórico sumamente útil.

El nivel de significancia es el nivel de probabilidad de cometer un error en la prueba de hipótesis y estimación de parámetros. Los niveles más comunes son el 0.05 y 0.01.

Los análisis o pruebas estadísticas paramétricas más utilizadas son:
  • Coeficiente de correlación de Pearson.
  • Regresión lineal simple y múltiple.
  • Prueba “t” para deferencia de grupos.
  • Contraste de la diferencia de proporciones Diferencia de grupos.
  • Análisis de varianza (ANOVA).
  • Análisis de covarianza (ANCOVA).

Para las pruebas estadísticas paramétricas las variables deben estar medidas en un nivel por intervalos o razón.

Las pruebas estadísticas no paramétricas más utilizadas son:

  • Chi_cuadrado.
  • Coeficiente de correlación e independencia de Pearson.
  • V de Cramer.
  • Lamda.
  • Gamma.
  • Tau b.
  • D de Somers y Eta.

Las pruebas no paramétricas utilizan variables nominales u ordinales.

Los análisis multivariados más utilizados son:

  • Análisis de regresión múltiple.
  • Análisis de Factores.
  • Análisis multivariado de variancias (MANOVA) y correlación canónica.
  • Análisis discriminante.
  • Análisis de Jerarquización.

Los análisis estadísticos se llevan a cabo mediante computadora, utilizando programas estadísticos, los programas más conocidos son: SPSS, Minitab, Statgraphics y SAS.

lunes, 23 de abril de 2018

Margen de Error



Hice una apuesta con el presidente. Él estimó que la población del Perú llega a 32 millones; yo que apenas somos 30 millones. La apuesta se dio durante una exposición ante el Consejo de Ministros acerca del censo nacional que se realizará el próximo 22 de octubre.


Tramposamente, me aproveché de información que aún no es de dominio público. Habiendo transcurrido casi diez años desde el último censo, nadie sabe a ciencia cierta el tamaño exacto de la población, pero los expertos saben que se vive una desaceleración, consecuencia de una reducción en la natalidad. La familia peruana promedio ya no consiste en cinco sino en tres y medio personas pero el efecto de esa tendencia no se ha incorporado aún en las estimaciones de población publicadas. En Internet, por ejemplo, hay afirmaciones oficiales recientes que respaldan la apuesta del presidente, y señalan una población del orden de 32 millones.

Hace dos o tres décadas, el dato poblacional era interesante pero poco relevante en la vida nacional. Hoy, gracias a las nuevas tecnologías de procesamiento digital los datos están en el centro de la conducción, tanto del Estado como de los negocios. Los medios se llenan de números, los censos y las encuestas se multiplican, y no sorprende entonces que el censo motive una larga discusión por parte del Gabinete. Hoy, los planes y presupuestos de cada sector del Gobierno se formulan y se aprueban en base a diversas estadísticas que, en su mayoría, son provistas por el INEI, y que en gran parte se sustentan en los datos del censo.

Ese nuevo apetito por los datos nos obliga a una reflexión acerca de su calidad, en especial acerca del famoso “margen de error”. Este término aparece cada vez que se publican encuestas, creando una impresión de exactitud. Pero es engañoso porque induce a pensar que el pequeño error técnico que dicen medir es el único posible error. Sin embargo, las encuestas pueden contener una variedad de errores no sospechados por el lector, derivados de un inadecuado diseño del cuestionario o de un trabajo de campo imperfecto. La posibilidad del error no se limita a las encuestas sino que abarca todo tipo de estadística, y la guerra para minimizarlo es una parte central del oficio de los expertos estadísticos.

Un resultado del esfuerzo continuo de perfeccionamiento es que la exactitud de cada dato no se logra de inmediato sino gradualmente, según se va obteniendo información adicional que permite afinar las estimaciones originales. De allí la incómoda necesidad de publicar continuas revisiones de los números, práctica común de los INEI de la mayoría de los países. Estados Unidos, por ejemplo, publica revisiones anuales de sus cifras del PBI de años anteriores, sorprendiendo al público que debe reacomodar sus explicaciones teóricas y políticas.

La nueva importancia de la estadística plantea un reto de gobernanza. Cada día es más necesaria la calidad y la autonomía de los proveedores de datos. El público debe comprender las limitaciones técnicas de ese oficio y respetar la honestidad de los técnicos, así como respeta a los meteorólogos que predicen la ruta de un huracán, aunque sabemos que también pueden equivocarse y deben estar continuamente revisando sus proyecciones.

lunes, 16 de abril de 2018

Consideraciones Metodológicas en la Investigación


A fin de lograr una aceptable organización en una investigación, se debe tener en cuenta los pasos del método científico y los elementos de la metodología que la describirá con detalle y claridad, ya que el proceso de investigación nunca es rígido.
Existen diferencias entre la investigación cualitativa y la cuantitativa. En la investigación cualitativa, el investigador da mayor énfasis a la descripción minuciosa de los antecedentes, hasta las posibles raíces del problema que se estudia. Se formula un marco teórico que fundamenta el método y desarrollo de la investigación, ajustando los datos y averiguaciones, en un proceso de retroalimentación entre el investigador y los investigados; su participación en la investigación, no los involucra en la etapa previa o planificación del estudio.

La investigación cuantitativa presenta un largo desarrollo y se aplica en forma general al estudio de las ciencias tanto naturales como humanas. En la actualidad, estas dos ramas de la investigación no se consideran antagónicas sino complementarias.

El primer paso del proceso investigativo, es la pregunta que identifica el problema y la definición específica del mismo; para establecer una relación entre las variables identificadas.

El paso siguiente consiste en realizar una lista de términos o descriptores, que permitan al investigador profundizar en la revisión de fuentes y antecedentes adecuadas, y determinar un marco teórico. Plantearse preguntas que surgen al tener un conocimiento más completo del problema a investigar.

Existe una relación entre los pasos descritos anteriormente. Al revisar la teoría y los estudios de investigación pertinentes se puede reafirmar la teoría o elaborar una nueva. El investigador puede plantear una hipótesis que debe probar. La investigación se fundamenta en el conocimiento teórico para plantear hipótesis y la comprobación de ésta significa un avance del conocimiento con una permanente evolución y dependencia entre ambos.

Luego de formular el problema, propósitos y objetivos, e hipótesis del estudio, el paso siguiente es determinar las técnicas e instrumentos necesarios para obtener datos que contribuyan al logro de los propósitos y objetivos, y permitan aceptar o rechazar (estadísticamente) la hipótesis planteada.

A continuación, el investigador seleccionará el diseño más apropiado para el estudio. Estos pasos se describen secuencialmente, pero requieren un cuidadoso análisis de las relaciones lógicas que existen entre ellos.

lunes, 9 de abril de 2018

Estadísticas y Sistema de Justicia

Para conocer el alcance de un sistema de justicia penal, se requiere identificar a los usuarios y los usos de los datos estadísticos. ¿Quiénes son los usuarios potenciales, actuales y pasados del sistema? ¿Cuáles son las cuestiones políticas claves que deberían incluirse en un programa de mejoramiento de las estadísticas sobre justicia penal? ¿Quiénes deberían remitir datos al sistema nacional? ¿Quién debería recibir los datos? ¿Qué datos deberían remitirse, en qué forma, en qué intervalos y, para qué fines?
Los datos estadísticos se reúnen para contestar preguntas, entonces para la elaboración de un programa de mejoramiento del sistema nacional de estadísticas sobre justicia penal se deben determinar las interrogantes más importantes que deben ser respondidas. A continuación se sugieren algunas posibles preguntas:
¿Cuál es la prevalencia o frecuencia de los diversos delitos?
¿Cuál es la tasa de criminalidad? ¿Qué regiones del país tienen los mayores índices de delincuencia?
¿Algunos tipos de delitos están aumentando o disminuyendo?
¿Cuál es el grado de prevalencia de la violencia doméstica?
¿Cuántos delincuentes hay?
¿En qué medida hay una correspondencia entre los delincuentes y las víctimas?
¿Quién es el delincuente “típico”?
¿Qué tipos de delitos se cometen y por qué delincuentes?
¿Cuáles son las características de los delincuentes habituales?
¿Qué parte de la delincuencia es atribuible a los jóvenes?
¿En qué medida participan en la delincuencia personas de distintos grupos étnicos?
¿Se está incrementando la participación de la mujer en la delincuencia?
¿Cuáles son los antecedentes familiares, socioeconómicos y educacionales de los reclusos?
¿Cuál es el papel de las drogas y el alcohol en la vida de los delincuentes?
¿Cómo tramita los casos el sistema de justicia penal?
¿Qué es la discrecionalidad y cómo se ejerce en la tramitación de los casos penales?
¿Qué relaciones hay entre la cantidad de funcionarios policiales en las distintas partes del país?
¿Cuál es la relación entre la cantidad de policías y la delincuencia en una región?
¿Cuántas personas son detenidas en un año y por qué delitos?
¿Qué porcentaje de los delitos dan lugar a una detención?
¿Qué efectos tiene sobre las detenciones la tardanza de la víctima en formular la denuncia?
¿Cuál es el papel del fiscal?
¿Cuántas detenciones dan lugar a enjuiciamiento?
¿Cuántos enjuiciamientos culminan en declaración de culpabilidad?
¿Cuál es la proporción de procesados que obtienen la libertad provisional?
¿Cuántos procesados liberados provisionalmente no comparecen en el juicio o cometen nuevos delitos?
¿Los infractores juveniles reciben un tratamiento distinto al de los adultos?
¿Cómo están organizados los tribunales?
¿Qué grado de interacción existe entre los diversos tribunales?
¿Cuáles son las principales diferencias entre los tribunales de adultos y de menores?
¿En cuántos casos en que el fiscal pide el procesamiento se declara culpable el acusado? ¿Cuántos casos culminan con una determinación de culpabilidad?
¿Cuánto tiempo dura la tramitación completa de una causa penal en el sistema de justicia penal?
¿Son parecidas las condenas que se imponen para delitos análogos?
¿Se está incrementando la cantidad de causas sometidas a los tribunales de apelación?
¿Cuántas personas están sometidas a alguna forma de supervisión penal?
¿Qué diferencia existe entre la duración de las penas que se imponen y el tiempo de cumplimiento efectivo de la condena?
¿Cuántos presos están recluidos en establecimientos penales?
¿Se está incrementando la población carcelaria?
¿Cuántas personas están cumpliendo sus condenas en libertad vigilada?
¿En qué tipo de establecimientos están recluidos los presos?
¿Cuántas personas puestas en libertad condicional regresan a la cárcel?
¿Cuánto gasta el gobierno en la justicia penal?
¿Cuál es el costo del sistema policial, del ministerio público, los tribunales y del sistema carcelario?
¿Qué se compra con los fondos destinados a la justicia?
¿Cómo se gastan esos fondos?
¿Cuánto cuesta mantener a una persona en la cárcel o en libertad vigilada?
¿Cuánto cuesta construir una prisión o una cárcel?
¿Cuánto se gasta por cápita en el sistema de justicia penal?
¿Cuáles son las relaciones entre el gasto por cápita en justicia y la tasa de criminalidad de un país?
¿Qué proporción del gasto total del gobierno se dedica a la policía, los tribunales y el sistema carcelario?
¿Cómo ha variado esa proporción anualmente?

Además de las prioridades en información estadística sobre la delincuencia y la justicia penal del país, es importante que se puedan hacer comparaciones con países relativamente similares de la región o del mundo y considerar la situación nacional en un contexto mundial.

Con la potencialidad que tiene las técnicas estadísticas, permitirán que estos datos sirvan para elaborar diagnósticos cada cierto tiempo, tendencias, simulaciones y proyecciones, que ayudaran a tomar decisiones, a fin de combatir la delincuencia y garantizar la seguridad ciudadana.

lunes, 2 de abril de 2018

Datos individuales vs. Datos agregados


Los datos cuantitativos implícitamente brindan mayor información respecto a los datos categóricos o cualitativos. Por eso es necesario precisar la diferencia de trabajar los datos agregados y datos unitarios o individuales.
Por ejemplo, qué información podríamos obtener de una base de datos si se quisiera saber cuál es el tiempo que tarda un caso en el sistema judicial.

Con un enfoque de datos agregados se dispondría de la cantidad de casos comprendidos en las distintas categorías de tiempo predeterminados, si por ejemplo, supongamos que se definieron tres categorías de tiempo: menos de seis meses, de seis meses a un año y más de un año. Con esas tres categorías es posible determinar la distribución del tiempo que duraría los casos según las categorías definidas.

En otras palabras, habría una cantidad total de casos que concluyeron en menos de seis meses, pero no sería posible determinar cuántos concluyeron en un mes, o cuántos demoraron cinco meses antes de concluir. Análogamente, habría una cantidad total de casos que demoraron más de un año en concluir, pero no sería posible determinar cuántos demoraron dos o tres años.

A diferencia de los datos agregados, los datos individuales contienen información sobre cada uno de los registros. Siguiendo con el ejemplo del tiempo que tarda cada caso, el enfoque de datos individuales permitiría reunir información sobre la fecha de inicio a la primera comparecencia ante los tribunales y la fecha de la decisión final del caso.

Al disponerse de esas dos fechas respecto de todos los casos en proceso en los tribunales, sería posible calcular el tiempo que tardó cada caso y luego el total de casos en cualquier período que se desee, basta con definir los períodos que interesan y luego determinar los casos comprendidos en diferentes categorías que se tenga un interés particular.

En caso se requiera información sobre la distribución de casos resueltos en seis meses o menos, se podría hacer una consulta a la base de datos para encontrar la cantidad de casos concluidos dentro de un, dos, tres, cuatro, cinco y seis meses; incluso si se necesitaran más detalles, mediante una consulta se podría averiguar la cantidad de casos concluidos en cinco, en diez, o en 15 días.

Del mismo modo se puede proceder con datos individuales referidos a las edades, ingresos, ahorros, talla, peso, etc.; es decir a datos cuantitativos continuos que se requieren sean agregados o categorizados en cualquier momento en varios grupos, y en diferentes rangos.

Una de las ventajas de los datos individuales radica en que facilita la verificación de los datos y la calidad de los mismos. Ésta consideración es importante para el logro de la confiabilidad de las estadísticas obtenidas. El mejor mecanismo para promover la confianza en la generación de datos, consiste en facilitar la verificación y el análisis de los datos al nivel más detallado posible.

lunes, 26 de marzo de 2018

Estadística y Decisiones


Hace apenas unas décadas, disponer de los datos y luego analizarlos eran actividades costosas y laboriosas, ya que se basaba en labores manuales. Hoy se cuenta con computadoras veloces y económicas, y existe software y aplicaciones potentes y flexibles, por lo cual las organizaciones obtienen diferencia competitiva en relación a su competencia, y podrán mejorar continuamente la performance de sus indicadores de los procesos y las actividades que se gestionan en una organización.
Pero no se puede gestionar lo que no se mide. Si no se puede medir, no se puede controlar. Si no se puede controlar, no se puede gestionar. Si no se puede gestionar, no se puede mejorar. La falta de estadísticas en las organizaciones impide su administración. Decidir en base a datos del pasado, predecir por intuición o en simples extrapolaciones, y tomar decisiones desconociendo las probabilidades de ocurrencia, son sólo algunos de los problemas más comunes que ocurren en las organizaciones.

Cuando los procesos de cambios eran lentos, los cuales resultaban casi imperceptibles en el tiempo, se podía administrar una organización con pocos datos estadísticos. Hoy, en una era de profundos y veloces cambios en todos los órdenes, ya no es posible actuar con desinterés. Hoy un tomador de decisiones necesita predecir a tiempo diversos indicadores, necesita reconocer a tiempo los cambios de tendencia.

Para negociar, para corregir problemas de calidad, para aumentar la productividad, para fijar precios, para eliminar los “cuellos de botella”, para invertir, para contratar nuevo personal, para diseñar y evaluar políticas públicas, para elaborar presupuestos, para priorizar proyectos, etc., se requiere contar con datos estadísticos. Toda decisión, todo análisis, está en el aire si no se cuenta con datos estadísticos suficientes y fiables.

Toda organización pública o privada, de avanzada, son aquellas que hicieron de las estadísticas una herramienta fundamental. Sin estadísticas una organización carece de capacidad para reconocer qué actividades o productos se cumplen a tiempo y cuáles no. No gestionar datos ni interpretarlos correctamente es para los administradores como caminar a oscuras. Gestionar datos, permite ver lo que está aconteciendo y en consecuencia tomar las medidas más eficientes y oportunas.

Cada día se exige ser más productivos y eficientes, ello es posible a partir de información estadística debidamente analizada.

Pretender dirigir una organización como hace un par de décadas atrás ya no es posible. El tomador de decisiones tiene en sus manos la decisión de mejorar su institución a través de una gestión moderna con base en datos estadísticos o seguir en la oscuridad.

lunes, 19 de marzo de 2018

El Idioma y la Estadística


Cada vez es mayor la influencia de la estadística, no existe profesión o actividad humana que no reciba los beneficios de su aplicación, hasta el extremo de que rara es la actividad humana moderna, en que no se utilice. En economía, en biología, en sociología, en urbanística, en derecho, en astronáutica, en las más diversas fases de la tecnología, e inclusive en ciencia militar, la estadística realiza una labor sumamente útil, proporcionando una base real y altamente eficiente para sus estimaciones a un corto, mediano y largo plazo.
Puede afirmarse hoy, en virtud de tal circunstancia, que la estadística es el pilar en que se apoya el normal y correcto desarrollo de las actividades humanas de este siglo de progreso, y que todo lo que a ella se refiere es de suma utilidad para el hombre moderno, en cualquier faceta.

Por otra parte, no se puede negar que los mayores progresos en estadística, y consecuentemente las obras y estudios más útiles, provienen de Inglaterra, Estados Unidos y los países europeos, así como las técnicas estadísticas más modernas y fehacientes, de donde se desprende que el idioma más empleado en dichos trabajos, y el que más se utiliza como medio de consulta, es el inglés.

La excepcional importancia que ha adquirido la estadística, que crece de día en día, en países cuyo idioma es diferente al español, es una poderosa razón para que al usar y aplicar dichos avances y al realizar la traducción de los conceptos y términos, se creen muchos anglicismos o se utiliza combinando los conceptos en el idioma nativo y el inglés indistintamente.

Igualmente al utilizar libros y literatura estadística producida, traducida y desarrollada en México, Colombia o Argentina, el vocabulario y por ende los conceptos, sean más afines al entendimiento de los profesionales de esos países, luego se crean palabras diferentes para un mismo concepto o palabras parecidas para conceptos diferentes.

Por tal razón se debe recurrir a los glosarios o diccionarios de los textos de estadística, o a aplicaciones que aparecen en la Internet (p.e. Divestadistica, Comunidad Andina), para precisar algún concepto, pero es necesario revisar dos o más fuentes.

Conforme vamos aplicando las técnicas estadísticas, vamos a encontrar dificultades en entender en aplicar los conceptos, y seguramente revisando varios textos o artículos, vamos a lograr entender las razones y muchas veces están se deben al concepto no ha sido traducido (Bootstrapping o Simular muestreo, skewness o Asimetría).

El reto esta entonces de leer en inglés y revisar trabajos donde se aplique las técnicas estadísticas que no tienen traducción o esta traducción nos parece que no tiene correlato con lo que hacemos.