martes, 27 de noviembre de 2018

Día del Estadístico



A propósito de estar próximo a celebrarse el día del estadístico (5 de diciembre), vale recordar que en noviembre de 2013, como parte de la celebración del Año Internacional de Estadística, se realizó un Taller sobre el Futuro de Estadística y al final se presentaron las siguientes observaciones: (www.statisticsviews.com).
  • El análisis de los datos mediante los métodos estadísticos es de fundamental importancia para la sociedad. Lo sustenta la ciencia, guías decisiones de negocios, y permite a los funcionarios públicos para hacer su trabajo.
  • Todos los datos vienen con algún grado de incertidumbre, y la correcta interpretación de los datos en el contexto de incertidumbre no es simple rutina. Este es uno de los más importantes servicios que prestan a la sociedad los estadísticos.
  • La Sociedad esta generando datos a un nivel sin precedentes y a cada vez mayores tasas. Los Estadísticos deben participar en el análisis de estos datos.
  • Los estadísticos deben ser conscientes de la amenazas a la privacidad y confidencialidad que plantean la gran cantidad de datos. Seguirá siendo un reto el problema de equilibrar los beneficios sociales de mejora de la información con el costo potencial a la privacidad individual.
  • Los nuevos datos vienen de formas no tradicionales, como imágenes y las redes sociales. La Continua evolución de los métodos estadísticos será necesaria para manejar estos nuevos tipos de datos.
  • Los Estadísticos están en la necesidad de volver a evaluar la capacitación de los estudiantes y el sistema de recompensas dentro su propia profesión para asegurarse de que estos todavía están funcionando apropiadamente en un cambiante mundo.
  • En particular, los estadísticos están lidiando con la cuestión de lo que es un "científico de datos", si es diferente de un estadístico, y cómo asegurarse de que los científicos de datos no tienen que "reinventar la rueda", cuando se enfrentan a cuestiones de incertidumbre y calidad de los datos.
  • En un mundo donde el público todavía tiene muchas percepciones erróneas acerca de las estadísticas, el riesgo y la incertidumbre, la comunicación es parte importante de los trabajos estadísticos. Soluciones creativas para la visualización de datos y la comunicación de masas tienen para recorrer un largo camino.
En los Estados Unidos, el número de graduados en estadística y la inscripción en cursos de introducción a la estadística, está aumentando fuertemente. Las licenciaturas y maestrías otorgadas en estadísticas casi se han duplicado en los últimos 10 años. La representación de las mujeres en los programas de estadísticas es mucho mejor de lo que es en disciplinas comparables tales como las matemáticas, la física y la ingeniería. Al nivel de pregrado, la matrícula en cursos de introducción a la estadística ha aumentado en un 90 por ciento desde 1995 para el año 2010.

Los departamentos de estadística tienen que hacer un mejor trabajo de preparar a los estadísticos para los futuros puestos de trabajo que están realmente disponibles y no necesariamente para convertirse en copias de sus profesores. Algunas sugerencias incluyen las siguientes:
  • Trabajar en las habilidades de comunicación. Los Estadísticos deben tener un profundo conocimiento y familiaridad con el concepto de incertidumbre, que muchos otros científicos carecen. Sólo estarán capaz de difundir su conocimiento de este concepto crítico si pueden transportarlo fácilmente y con facilidad.
  • Formación en habilidades de liderazgo. Hay un fuerte sentimiento, entre algunos estadísticos, que se encasillan como personas que apoyan la investigación de otros, en lugar de subir con originales ideas mismas.
  • Formación fuerte en un campo de aplicación. Este aspecto, puede ayudar a preparar a los estudiantes para dirigir la dirección de la investigación, en lugar de solo ser parte de ella.
  • Más de la exposición a los datos "en vivo" de verdad. Muchos estudiantes aprenderán mejor si pueden ver la aplicabilidad a los problemas del mundo real.
  • Más exposición a grandes volúmenes de datos (BigData) que no puede ser analizada utilizando otros métodos estadísticos tradicionales o en un solo ordenador. Los estudiantes deben estar preparados para el mundo que van a estar entrando y BigData parece haber llegado para quedarse.
  • Mayor énfasis en algoritmos informáticos, simulación, etc. Prepararse para la ingeniería y escribir trabajos, los estudiantes necesitan aprender a pensar como ingenieros.
Existe una enorme responsabilidad para los estadísticos. Si los estadísticos han de ser los futuros protagonistas, deben mantenerse humildes, la incertidumbre siempre se presenta como una parte integral de sus previsiones. Tienen que estar dispuestos a decir verdades impopulares. Tienen que ser ingeniosos e innovadores en el aprovechamiento de las nuevas tecnologías y nuevas fuentes de información. Todo lo mencionado, quizás es parte de la historia de la estadística, y, con un poco de suerte, también será parte del futuro.

!!! FELIZ DÍA A LOS ESTADÍSTICOS !!!



lunes, 5 de noviembre de 2018

¿Por qué es importante estudiar estadística?


Interesante artículo que vale la pena tomar en cuenta, publicado en la web de la PUCP.

lunes, 29 de octubre de 2018

Precisión y Exactitud


Precisión y exactitud, son dos condiciones que deben reunir los datos y las conclusiones para dar como válido un estudio. Existen dos amenazas para la validez: el error aleatorio y el error sistemático.
El error aleatorio, se expresa en la diferencia que existe entre una medición y la media de todas las mediciones, y es que cada vez que se realiza una medida de la población a partir de una muestra, se encuentra un resultado distinto, mientras menor sea la distancia entre una medición y otra, se verificará que los resultados son más precisos.

La única forma de acercar estos resultados de cada medición es incrementando el tamaño de la muestra; la única forma de reducir el error aleatorio es incrementando el número de los elementos muestrales, incluso se puede eliminar el error aleatorio, si es que se estudia a toda la población.

La estimación de parámetros, que son características de la población, a partir de muestras requiere de identificar los límites donde se encontraría el valor verdadero. A esto se le conoce como intervalo de confianza, la distancia entre los límites del intervalo de confianza es más corta, si es que se incrementa el tamaño de la muestra y está distancia es puntual, es decir, es un valor único si es que se estudia a toda la población.

La precisión, es un atributo deseable, tanto en la medición puntual, como en la estimación de parámetros a partir de muestras. El error aleatorio de la estimación desaparece sólo en los casos en que se puede estudiar a toda la población.

El error sistemático, se expresa en la diferencia que existe entre la media de todas las mediciones y el verdadero valor, no porque todas las mediciones coincidan significa que se ha encontrado el verdadero valor, existe una distancia entre el valor real y la media de todas las mediciones. Esta distancia, es evaluada por el error sistemático.

Mientras más grande sea la distancia hay mayor error sistemático, mientras más corta sea la distancia, se dice que hay más exactitud. Pero para ello se requiere de antes haber contado con la precisión, no se puede hablar de que se está cerca al valor real, en términos de exactitud, si es que antes no se cuenta con el pre-requisito de la precisión. La reducción del error sistemático se logra mediante el método, controlando los sesgos de selección y de medición.

Sólo es posible estimar los límites donde se encontraría el valor verdadero, a partir de una medición, si se ha controlado el error sistemático, al cual se le denomina también como sesgo. Se ha generalizado al término “validez”, como la carencia de error sistemático, aunque esta no se pueda eliminar y que requiere de contar con la precisión antes de evaluar la exactitud.

Si las conclusiones obtenidas a partir de los sujetos que conforman la muestra, se pueda trasladar hacia los sujetos que pertenecen a la misma población pero que no fueron incluidos en la muestra, entonces el estudio tiene validez de inferencia, conocido también como validez interna.

Para asegurar la validez interna en un estudio, se debe realizar control y el control se plantea desde el punto de vista metodológico y desde el punto de vista estadístico; en un primer momento, el método trata de controlar el error sistemático, pero si no es posible identificar los elementos que integran el sesgo o no es posible eliminar aquellas características que están generando sesgo en las mediciones, entonces se incluyen al análisis estadístico, para ello se debe recolectar estas variables que interfieren con el estudio e incluirlas para realizar un análisis multivariado o de acuerdo a la naturaleza de las variables a las que correspondan los datos.

lunes, 22 de octubre de 2018

La relación entre variables


En la relación entre las variables, por lo menos se debe contar con dos de ellas, para realizar un estudio analítico.
De acuerdo a los niveles de la investigación, en el nivel descriptivo, se realiza un análisis estadístico univariado, en el nivel investigativo relacional un análisis bivariado, es decir, de dos variables y en el nivel investigativo explicativo se realiza el análisis multivariado o más de dos variables, es aquí donde surge la necesidad de clasificar a las variables según su relación; recordando que dentro del nivel explicativo se puede realizar estudios observacionales y experimentales. La estadística cumplirá el papel de realizar el control estadístico, agregando al control metodológico los criterios de causalidad.

Las variables según su relación son la variable independiente, la variable dependiente, la variable de confusión, la variable intermedia, la variable control, estas tres últimas son consideradas como variables intervinientes.

La variable independiente, representa los factores que constituirían la causa, debido a que previamente se ha demostrado ser factores de riesgo para el problema que se está estudiando en el nivel investigativo relacional. En los estudios observacionales se plantea solamente una variable independiente como estrategia para demostrar la relación de causalidad.

La variable dependiente, representa a la variable de estudio, mide o describe el problema que se está estudiando, para su existencia y desenvolvimiento depende de otra u otras variables independientes, pero su variabilidad está condicionada no solamente por la variable independiente, sino por el resto de las variables intervinientes.

La variable dependiente es la variable más importante del estudio, porque determina la línea de investigación.

La variable de confusión, aparece en los estudios observacionales, su aparición puede intensificar o antagonizar la relación aparente entre el problema y una posible causa, es decir, entre la variable independiente y la variable dependiente. Su influencia se percibe tanto sobre la variable independiente como en la variable dependiente, el control que debemos realizar en este caso es el análisis estadístico estratificado.

La variable intermedia, aparece de manera inesperada y por tanto es metodológicamente incontrolable entre el factor causal y el efecto, su naturaleza es aleatoria, es imposible conocer su distribución antes de ejecutar la recolección de datos, en los estudios observacionales se neutraliza su participación mediante el análisis multivariado y en los estudios experimentales mediante el análisis de la covarianza. En la mayoría de los casos la variable intermedia suele ser numérica.

La variable de control, posee fuerte influencia sobre la variable dependiente y ningún efecto reconocido sobre la variable independiente, se la identifica en el momento de la planeación. En los estudios observacionales su control se realiza mediante los criterios de elegibilidad, es decir, criterios de inclusión y criterios de exclusión. En los estudios experimentales el control se realiza mediante la construcción de bloques, es decir, se le Integra al análisis estadístico, pero en ningún caso se busca su interacción con la variable independiente, y aunque tiene influencia sobre la variable dependiente no se le estudia como factor causal.

lunes, 24 de septiembre de 2018

Cultura Estadística

En las últimas décadas, los métodos y aplicaciones de la Estadística han permeado la mayoría de las áreas de la ciencia. La realidad es que se ha convertido en una disciplina que evolucionó para quedarse e incorporarse a la cultura de la sociedad moderna.

Actualmente la estadística está mucho más relacionada con otras disciplinas que las matemáticas. Se ha usado como lenguaje y método de investigación científica en áreas tan diferentes como la lingüística, geografía, física, psicología, economía y en todas las demás.

Sin embargo, en contextos más generales, es común encontrar información con errores en la presentación y valoración de los datos. Del mismo modo, en documentos académicos se pueden encontrar representaciones gráficas y tablas mal elaboradas.

Para el ciudadano común el saber estadística se ha convertido en una necesidad y una obligación de su educación integral porque implica más que una herramienta, técnica o método. 

En las últimas décadas se ha venido forjando el término statistical literacy o cultura estadística. En eventos académicos y en múltiples publicaciones especializadas, es constante el uso de este término para referirse al hecho de que la estadística forma parte de la herencia cultural necesaria para un ciudadano educado.
.
Desde hace buen tiempo la UNESCO ha venido implementando políticas de desarrollo económico y cultural para todas las naciones, incluyendo la alfabetización numérica. En esta última menciona que es importante difundir la estadística entre los ciudadanos no solo como técnica para manipular datos cuantitativos sino también como cultura, en términos de capacidad de comprensión lógica.

El término cultura estadística. se ha empleado de varias maneras y lo definen como la habilidad para entender y evaluar críticamente los resultados que impregnan la vida de los ciudadanos, a la par de la habilidad para apreciar las aportaciones que el pensamiento estadístico puede hacer en la toma de decisiones en el ámbito personal y profesional. Garfield, lo describe como el entendimiento del lenguaje estadístico en función de palabras, símbolos y términos, que permitirán a su vez interpretar gráficos y tablas.

También implica la habilidad para interpretar y evaluar críticamente información, argumentos, fenómenos estocásticos, así como la habilidad para comunicar y comprender significados e implicaciones en la toma de decisiones y la representatividad de las conclusiones obtenidas.

La cultura estadística se refiere a la habilidad de las personas para interpretar y evaluar críticamente información en el campo de la estadística. Menciona que esta información puede encontrarse en diversos contextos, como los medios de comunicación pero sin circunscribirse a ellos.

En suma, el término cultura estadística ha evolucionado en los últimos años. Cada vez es mayor la necesidad de que los ciudadanos sean estadísticamente cultos. Por tanto, diversos organismos promueven adecuaciones a los currículos escolares y universitarios, sugiriendo que la enseñanza de la estadística asuma un papel acorde a las necesidades actuales de la sociedad.

lunes, 17 de septiembre de 2018

Minería de Datos


El concepto “Minería de Datos” es un término que engloba resultados de investigación, técnicas y herramientas usadas para extraer información de grandes bases de datos. La Minería de Datos es una parte del proceso completo de Knowledge Discovery in Databases (KDD, en español Proceso no trivial de identificación en los datos de patrones válidos), en mucha bibliografía los términos Minería de Datos y KDD se identifican como si fueran lo mismo. 
Concretamente, el término Minería de Datos es usado comúnmente por los estadísticos, analistas de datos, y por la comunidad de administradores de sistemas informáticos, mientras que el término KDD es utilizado más por los especialistas en Inteligencia Artificial.

El análisis de la información es habitual que sea un proceso manual, basado en técnicas estadísticas. Sin embargo, cuando la cantidad de datos que disponemos, dificulta el tratamiento manual, aquí entra en juego el conjunto de técnicas KDD de análisis automático al que nos referimos al hablar de Minería de Datos.

Los mayores éxitos en Minería de Datos se pueden atribuir directa o indirectamente a avances en bases de datos. No obstante, muchos problemas de representación del conocimiento y de reducción de la complejidad de la búsqueda necesaria (con conocimiento a priori) están aún por resolver.
Otras definiciones de Minería de Datos:
  • “La Minería de Datos es la extracción no trivial de información implícita, desconocida previamente, y potencialmente útil desde los datos”.
  • “La Minería de Datos es el proceso de extracción y refinamiento de conocimiento útil desde grandes bases de datos”.
  • “La Minería de Datos es el proceso de extracción de información previamente desconocida, válida y procesable desde grandes bases de datos para luego ser utilizada en la toma de decisiones”.
  • "La Minería de Datos es la exploración y análisis, a través de medios automáticos y semiautomáticos, de grandes cantidades de datos con el fin de descubrir patrones y reglas significativos".
  • "La Minería de Datos es el proceso de planteamiento de distintas consultas y extracción de información útil, patrones y tendencias previamente desconocidas desde grandes cantidades de datos posiblemente almacenados en bases de datos”.
  • “La Minería de Datos es el proceso de descubrir modelos en los datos”.

lunes, 20 de agosto de 2018

¿Media aritmética o Mediana?


La media aritmética y la mediana son las medidas de tendencia central más utilizadas que se conoce y que se obtienen de un conjunto de datos numéricos.
La media aritmética, es fácil de entender, de calcular y es muy utilizada. La mediana, es menos usada, pero tiene propiedades de las que carece la media, por lo que es un buen complemento para analizar los datos y en algunos casos puede ser más útil que la media. Estas propiedades son:

  • Es más robusta que la media aritmética frente a la presencia de anomalías, ya que no depende de los valores, sino de su posición, por tanto no interesa que existan valores extremos o anómalos.
  • La mediana divide al conjunto de datos en 50% de las observaciones por encima y otro 50% por debajo y esto le da unas ventajas que la media no tiene.

Si la distribución de los datos es simétrica, la media y la mediana coincidirán, entonces todo es ventaja.

Hoy en día se dispone de herramientas que permiten el cálculo fácil de los estadígrafos, de un conjunto de datos, debemos aprovechar esta ventaja y analizar las dos mediciones y tendremos un mejor análisis de los datos.

lunes, 13 de agosto de 2018

Los Valores Atípicos


Cuando se obtienen datos, para un estudio, sea de cualquier fuente, puede ocurrir que se tenga valores atípicos. ¿Qué hacer con estos valores atípicos? Podemos ignorarlos o eliminarlos inmediatamente.
Es frecuente no prestarle atención de su existencia, realizando directamente las pruebas estadísticas correspondientes. Esto implica correr riesgos, ya que trabajar con valores que podrían estar errados (por cualquier razón), puede conducirnos a resultados no válidos.

Pero, puede  darse  el  caso  en  que  los  valores  sean  correctos  pero  no  es conveniente considerarlos. ¿Qué hay que hacer con estos valores? Lo primero es preguntarse a qué corresponden, mo es que se han producido. En este caso, después de una simple reflexión y análisis, se llega a la conclusión que lo s razonable es excluirlos del estudio.

En algunas situaciones, la identificación y el análisis de las anomalías es la parte más interesante del estudio y de la que más deducciones se pueden obtener. Ya que si los valores están bien medidos, no encontramos la explicación de por qué sucede o son completamente contradictorios los resultados obtenidos. ¿Qué hacer con estos valores? ¿Eliminarlos y olvidarse de ellos?

Estos valores se deben analizar, para no perder la oportunidad de incorporar información valiosa a nuestro conocimiento del proceso. Lo más adecuado sería preguntarnos: ¿Por qué se han dado estas situaciones?, ¿qué ha ocurrido para que se hayan producido esos valores?, es posible que la respuesta a estas preguntas nos aporte información que puede ser muy útil para nuestro mayor dominio y conocimiento del proceso.

Entonces, ¿qué hacer ante una anomalía? Debe servir para averiguar el por qué se ha producido. Si la causa es un error, se elimina el valor y asunto resuelto. Si no es un error habrá que valorar la conveniencia de incluirla en el estudio, según sea la razón por la que se ha producido, la frecuencia con que se esperan valores similares y otras razones.

En algunos casos uno no sabe si mantener el valor atípico o quitarlo. Cuando se da esta situación, es necesario es hacer un análisis con y sin la presunta anomalía,  y  si  se  obtienen  las  mismas  conclusiones  la  disyuntiva  deja  de  tener importancia. En caso contrario quizá se puede salir de dudas recogiendo más datos, o también pueden aplicarse técnicas específicas de análisis en presencia  de anomalías.

lunes, 30 de julio de 2018

Aprender y Enseñar Estadística


La enseñanza de la Estadística en el mundo se desarrolla en un contexto de nuevos enfoques que intentan aportar a las concepciones existentes y por el reconocimiento de las limitaciones que presentan los alumnos y profesores antes, durante y al terminar un curso de estadística.
Uno de los aspectos de la enseñanza de la Estadística es precisamente su base Matemática y de cálculo. A pesar del desarrollo tecnológico alcanzado en los últimos años, el enfoque que se le da a la enseñanza de la Estadística ha evolucionado poco, manteniendo el énfasis en muchos casos en los procedimientos utilizados cuando no existían las computadoras personales e incluso antes de que existieran las calculadoras. Sin embargo, la Estadística como ciencia, se aleja cada vez más de la Matemática pura y se convierte en una "ciencia de los datos" (Batanero).

Autores, como Garfield, Godino y Batanero, han coincidido en que los cursos de Estadística han sobrevalorado y hasta abusado de los algoritmos de cálculos y expresiones matemáticas.  Esto implica que se le ha dedicado la mayor parte del tiempo y de los esfuerzos a los cálculos, dejando poco tiempo para el tratamiento de los conceptos de manera empírica y teniendo en cuenta su comprensión, significado y aplicación a situaciones prácticas concretas.

Admitimos la importancia de los símbolos en el aprendizaje. El lenguaje matemático es un instrumento indispensable, sin embargo, el uso apropiado de la notación Matemática reviste especial dificultad constituyendo uno de los obstáculos importantes para el razonamiento, y estas dificultades tienen repercusiones, tanto en el plano del aprendizaje como en el afectivo.

Varios autores, como Batanero, Garfield y Benzvi, señalan otras dificultades en relación al tratamiento de los conceptos. Se ha reconocido que en algunas ocasiones los conceptos son tratados de manera aislada sin tener en cuenta la relación que debe establecerse entre ellos, ni la relación de los conceptos propios de la Estadística y la investigación con los de las otras materias.

Por otro lado, es interesante y necesario utilizar datos reales y casos prácticos para conseguir un aprendizaje significativo de la Estadística, ya que esa estrategia favorece una mayor implicación del estudiante en el proceso de enseñanza-aprendizaje. Asimismo, es conveniente generar situaciones de aprendizaje referidas a temas de interés al alumno y trabajar con datos elaborados previamente, para analizarlos mediante las técnicas y procedimientos estudiados. El mundo se dirige rápidamente hacia una sociedad cada vez más informatizada. Cada día es más importante la comprensión de las técnicas básicas de análisis de datos y su interpretación adecuada.

Un elemento a destacar en la enseñanza actual de la Estadística consiste en atribuir importancia a las ideas previas que poseen los alumnos acerca de aleatoriedad, variable aleatoria, medidas de tendencia central, medidas de dispersión, estimación y tamaño muestral, independencia y probabilidad condicional, relación, asociación, la determinación de la veracidad de las hipótesis estadísticas y causalidad, etc.

La Didáctica Estadística tiende a ocuparse más de las ideas de los estudiantes que ignorar, subvalorar o desaprobar sus ideas, ya que solo se consigue dejarlas esencialmente intactas. En lugar de suplantar unas nociones por otras, se debe proceder a una búsqueda creativa por parte de cada alumno, para que se instalen en su mentalidad.

Se puede deducir, según estos planteamientos, la individualidad en la apropiación del conocimiento, no da lugar a la existencia de una única dimensión óptima para el aprendizaje. Sugerimos un modelo en el cual el profesor es un facilitador y el estudiante es el protagonista, que puede elegir entre una gama amplia de oportunidades disponibles de aprendizaje, de acuerdo con sus condiciones particulares. Existen una variedad de actividades, asociados con los distintos estilos de aprendizaje: lecturas, conferencias, ejercicios, resúmenes, videos, metáforas, experimentos, proyectos, discusiones y otras.

lunes, 23 de julio de 2018

El Análisis Exploratorio de Datos (AED)


El Análisis Exploratorio de Datos (AED) es un enfoque que prioriza el análisis de datos y sobre este particular existen múltiples criterios.
Monterde y Perea, menciona que el AED es, “por una parte, una perspectiva o actitud sobre el análisis de datos, en la que se exhorta a que el investigador adopte una actitud activa en y hacia el análisis de los mismos, como un medio para sugerir nuevas hipótesis de trabajo. Por otra parte, se compone de un renovado utillaje conceptual e instrumental respecto a lo que podríamos llamar Estadística Descriptiva “clásica”, con el fin de optimizar la cantidad de información que los datos recogidos puedan ofrecer al investigador, mediante representaciones gráficas, a base de reducir la influencia de las puntuaciones extremas en los estadísticos con el empleo de, los que por ello se ha convenido en llamar, “estadísticos resistentes”.

Ante lo mencionado surge una pregunta, ¿cómo se inserta lo que ya se conoce de estadística?  La respuesta no puede darse en pocos párrafos, se requiere la revisión y lectura, desde el desarrollo de la teoría y la ejemplificación correspondiente para comprender la concepción de AED y sus similitudes y diferencias con la estadística clásica.

Muchos coincidirán en que no se exagera si se dice que el objeto de la Estadística es el estudio de métodos científicos para organizar, presentar y analizar datos estadísticos, pero el problema está en cómo empezar a organizar los datos, todos los que han pasado  por un curso básico de Estadística recordará la prioridad que se da a las tablas de frecuencia, al estudio de la distribución normal o la correlación lineal que describen de una manera simple el comportamiento de los datos.

Estos temas, que la AED no los desecha, representan estructuras a gran escala que resumen las relaciones entre todos los datos y que liberan a los investigadores de la búsqueda minuciosa de modelos, para el entendimiento de las estructuras que subyacen en grandes conjuntos de datos; esta es una primera idea de la concepción del AED.

Desde su comienzo, el AED ha tenido como finalidad la revisión de los datos previo a la aplicación de cualquier técnica estadística para alcanzar primero un entendimiento básico de los mismos y de las relaciones existentes entre las variables analizadas. Es decir, cualquier cálculo, (promedios, desviaciones, correlaciones, etc.) debe estar precedido por un análisis visual de los datos, dicho de otro modo, mientras la Estadística Descriptiva clásica se ocupa de recoger, ordenar y representar los datos en forma de tablas, agrupándolos por intervalo y calculando estadísticos basados principalmente en la distancia y con datos centrados en la media (promedio); el AED se preocupa primero por detectar anomalías y errores en las distribuciones univariadas de los datos, intentando descubrir en ellos patrones o modelos, pero empleando variadas técnicas gráficas y buscando estimadores no paramétricos o estimadores libres de distribución o simplemente estimadores robustos, según el término acuñado por Box, tratando de llevar el estudio de la información que se tiene, hacia una modelización más completa que la establecida por la Estadística Clásica, basados principalmente en el orden y centrados en la mediana.

Los programas estadísticos como el SPSS, Minitab, Statgraphs, Statsoft, SAS, IDAMS y otros, ofrecen muchas posibilidades a partir de interaccione simples y amigables, con diálogos dinámicos tanto de la Estadística Clásica como las de AED, debiendo tener en cuenta que una buena gráfica informa más que un conjunto de números disgregados.

En resumen el AED, permite que hablen los datos y a partir de ellos encontrar los patrones y modelos indicados, con esto se logra que en muchas situaciones, el AED puede preceder a una situación de inferencia formal, mientras que en otras, puede sugerir preguntas y conclusiones que se podrían confirmar con un estudio adicional, por esto el AED es una herramienta de utilidad en la generación de hipótesis, conjeturas y preguntas de investigación acerca de una realidad que los datos fueron obtenidos.

En la investigación de diferentes áreas, donde intervienen numerosas variables y donde los datos no abundan, el AED bien utilizado se convierten en instrumento que complementan los diseños de investigación y dan validez, confiabilidad y rigor científico a los resultados.

lunes, 16 de julio de 2018

La Estadística y la Corrupción

Tenia pensado agregar un post referido a la Estadística y la Corrupción, pero me di cuenta que la corrupción esta en todo, desde lo más simple de las cosas que hacemos hasta lo más complejo.  De repente no iba poder terminar el post por la cantidad de información o detalles que tendría que haber considerado. Por eso decidí mejor presentar el siguiente video.


viernes, 29 de junio de 2018

Capacidad Estadística de un País

El BID ha desarrollado el Índice de Capacidad Estadística Nacional (ICEN), este índice permite medir de forma cuantitativa la capacidad de los sistemas estadísticos de los países de América Latina; la capacidad estadística es “la existencia de una estructura o sistema permanente que disponga de los recursos necesarios para generar de manera sostenida datos estadísticos relevantes y de calidad, y para difundirlos adecuada y oportunamente”.

El ICEN, es una medición compuesta de cuatro dimensiones principales: recursos, normas y prácticas institucionales, metodologías y difusión.

La primera se refiere a los recursos financieros (presupuesto), humanos (empleados y salarios), tecnológicos (software) y físicos (equipos, infraestructura) con los que cuenta una entidad de estadística para producir la información. Estos son centrales, debido a que en cantidades adecuadas otorgan capacidad operativa a las oficinas.

En segundo lugar, las normas y prácticas institucionales son aquellas que regulan la existencia y organización de la entidad estadística y del sistema en su conjunto, así como su rol de coordinador y articulador del mismo.

Las metodologías, que componen la tercera dimensión, hacen referencia a las técnicas mediante las cuales se recoge y procesa la información siguiendo estándares internacionales validados, controles de calidad, y métodos que generen información coherente y comparable de forma longitudinal y transversal.

Finalmente, la dimensión de difusión se refiere a las metodologías usadas para hacer accesible la información a los diversos usuarios, de forma transparente, oportuna y resguardando la confidencialidad de los datos.

Para medir el ICEN se aplicaron cuestionarios a diferentes actores en los 10 países. Un cuestionario fue llenado exclusivamente por funcionarios de la entidad estadística, mientras que otros fueron aplicados a funcionarios del Sistema de Estadística Nacional (SEN), académicos, periodistas y usuarios del sector privado. La información provista por estos dos tipos de actores, productores y usuarios permitió estimar de forma más integral la capacidad de los sistemas estadísticos nacionales. El puntaje resultante se encuentra en un rango de 1 a 10, donde 1 indica un bajo nivel de capacidad y 10 uno muy alto.

La herramienta se ha aplicado para medir la capacidad estadística de 10 países en el año 2015 y 2016, sus componentes y su forma de aplicación. Asimismo, se ha presentado el ranking de países. Se observa que, este ranking se encuentra asociado con los niveles de capacidad generales de los Estados, pero al mismo tiempo se confirma que en algunos casos los niveles de capacidad estadística son superiores a lo que se esperaría por su entorno.

El informe completo puede descargarse de este enlace:¿A quién le importa saber? .

lunes, 25 de junio de 2018

La Estadística y el Científico de Datos


Artículo de Enrique Saldivar, El Comercio 17/06/2018

La transformación digital exige una profunda re­flexión sobre la empresa, pero también plan­tea retos muy importantes para poder llevar con éxito el proceso y la comprensión de la tecno­logía que se requiere: Machine Learning, Internet of Things y Blockchain, teniendo como base el uso, ac­ceso y explotación de datos.
Según datos de Excelacom. firma de consultoría y análisis tecnológico, cada 60 segundos se envían 150 millones de correos electrónicos, se real izan 1.389 viajes en UBER, se efectúan 2.4 millones de búsquedas en Google, son publicadas 38.194 fotos en Instagram, se crean más de 120 nuevos perfiles en Linkedln y son descargadas 51.000 aplicaciones en dispositivos inteligentes.

Tiene sentido entonces que, hoy por hoy, el análisis del Big Data se haya vuelto el motor fundamental en la economía de la información. Sin embargo, pa­ra que las empresas obtengan el máximo valor de los datos, no solo se necesitan tener las herramien­tas adecuadas, sino también se requiere contar con personal capacitado. Es por esta razón que es de su­ma importancia potenciar el capital humano, prepa­rando a profesionales para transformarlos en lo que hoy se conoce como Científicos de Datos.

Aunque esta profesión no tiene una definición exacta, el Científico de Datos se centra en un profesional dedicado a analizar e interpretar grandes volúmenes de información, con el fin de diseñar una estra­tegia de inteligencia de negocios e identificar nue­vas oportunidades para las compañías. No es coincidencia entonces que, en el Perú, las carreras relacio­nadas con Estadística, Informática y Ciencias Mate­máticas hayan mostrado un crecimiento sostenido en los últimos años.

Lo expuesto supone un gran reto para las organiza­ciones, ya que deben identificar la necesidad de con­tar con científicos de datos y reconocer el potencial del Big Data, y abre una oportunidad para futuros profesionales que buscan nuevos campos laborales.