jueves, 2 de mayo de 2013

Estadística y Datamining

Existen instituciones complejas que realizan miles de transacciones diarias para lo cual es necesario  tomar una cantidad similar o mayor de decisiones individuales o agregadas; estas instituciones por lo general trabajan con personas y atienden a personas, entre las instituciones a las que me refiero están los hospitales, clínicas, colegios, universidades, bancos, supermercados y empresas que brindan múltiples servicios o venden determinados productos.


El servicio o producto que se brinda, no sólo implica la entrega de este como tal, sino que además en su consecución hay un conjunto de datos que se generan a su alrededor: por ejemplo si se brinda un servicio de salud, se tiene todos los datos del paciente y del  mal que lo aqueja, está el médico que lo atiende, personal auxiliar y administrativo, la infraestructura que se debe usar, equipos,  materiales, sala de operaciones, servicios intermedios etc., es decir cuando un paciente ingresa a un establecimiento de salud de cualquier nivel, pone en funcionamiento todo su  sistema de atención y su sistema de información que va registrando datos.

Estos datos en conjunto pueden servir para a posteriori evaluar y conocer como se viene dando nuestro servicios a través de indicadores, con lo cual se pueden hacer las correcciones necesarias ahí donde hay falencias, demoras o muestras de poca eficiencia.

Si se cuenta con bases de datos corporativas (Datawarehouse) o por áreas específicas (Datamart), no solo podemos obtener información sino también conocimiento de lo que pasa en nuestra institución, para lo cual podemos extraer  información oculta y predecible de esas bases de datos, esto es lo que se denomina Datamining o Mineria de datos, el Datamining es una poderosa tecnología con gran potencial que ayuda a concentrarse en la información más importante de las bases de datos corporativas de por si complejas.  Las herramientas de Datamining predicen tendencias  y comportamientos, permitiendo a las instituciones tomar decisiones proactivas, conducidas por un conocimiento cercano de lo que acontece.

Las herramientas de Datamining pueden responder a preguntas de negocios que tradicionalmente consumen mucho tiempo para ser resueltas y a los cuales los usuarios de esta información casi no están dispuestos a aceptar. Estas herramientas exploran las bases de datos en busca de patrones ocultos, encontrando información predecible que un experto no puede llegar a encontrar porque se encuentra fuera de sus expectativas. Muchas instituciones y empresas colectan miles de datos y no saben qué hacer con estos. Las técnicas de Datamining pueden ser implementadas en plataformas ya existentes de software y hardware para acrecentar el valor de las fuentes de datos y puedan ser integradas a nuevos sistemas.

Las técnicas de Datamining ya están listas para su aplicación, ya que está soportado por tres tecnologías que son suficientemente maduras: a) Recolección masiva de datos b) Potentes computadoras y c) Algoritmos de Datamining.

Las técnicas más comúnmente (ver otras herramientas) usadas en el análisis en el Datamining son:
·         Redes neuronales artificiales.
·         Arboles de decisión.
·         Algoritmos genéticos.
·         Método del vecino más cercano
·         Regla de inducción (fuerte uso de la ciencia Estadística y las probabilidades)

Pero sin las técnicas de la Estadística no existe un análisis efectivo, sin análisis efectivo no existe inteligencia de negocios, explicación de los hechos o generación de conocimiento de una realidad concreta. Y entones ¿cómo se puede esperar sacar algo de la ingente cantidad de gigabytes o terabytes de datos y tomar buenas decisiones y consistentes que permitan hacer bien las cosas de mi institución? Con la Estadística, se puede transformar los datos en conocimiento sobre los procesos de su institución y su negocio.