En el mundo, cada vez más informatizado y conectado entre sí a través del Internet, se generan grandes cantidades de datos digitales de todo tipo. El volumen de información que generamos se incrementa constantemente, acumulándose. Desde la información de nuestros teléfonos móviles, hasta los sensores en ciudades y coches, pasando por tarjetas de crédito y ordenadores. Esta información espera ser analizada, y el resultado de este análisis mejora la gestión de los negocios, realizando predicciones en muchos campos. Por este motivo, el perfil del Data Scientist es uno de los más solicitados en Silicon Valey.
El análisis de estos datos requiere del uso de ordenadores y programas informáticos, y en gran medida de intuición, por lo que el papel humano es muy importante. Los analistas deciden los datos a analizar y las relaciones que establecen entre estas.
Un grupo de ingenieros del Instituto Tecnológico de Massachusetts ha desarrollado un nuevo sistema llamado Data Science Machine o DSM. Es un Software capaz de encontrar patrones en las relaciones entre los datos y realizar predicciones mejor que la mayoría de humanos y en un tiempo muy inferior.
“A partir de nuestra experiencia realizando análisis de datos hemos visto que uno de los pasos críticos es identificar las variables que se van a extraer de la base de datos”, explica Kalyan Veeramachaneni, investigador en el Laboratorio de Informática e Inteligencia Artificial del Instituto Tecnológico de Massachusetts y co-creador del DSM junto con Max Kanter, estudiante de un máster del mismo. El Software busca las relaciones inherentes en el diseño de las bases de datos, clasificadas en tablas separadas con etiquetas numéricas, las cuales usa como guía. Una vez buscado, comienza a ver las relaciones numéricas entre el conjunto de las características y, si existe una relación, el programa probará una serie de operaciones para dar lugar a predicciones, que se recombinarán de distintas formas para optimizar su precisión.
Para poner a prueba el sistema, Veeramachaneni y Kanter se inscribieron en tres competiciones de análisis de los datos, en los que se enfrentaron a equipos humanos. El DSM quedó por delante de más de la mitad de los participantes en todas ellas, sin conseguir el mejor resultado en ningún caso, pero logró unas predicciones casi tan acertadas como las de los ganadores. En lo que el DSM arrasó fue en el tiempo empleado en realizar su trabajo: entre dos y doce horas mientras que los otros equipos tardaron entre uno y dos meses. “Si el resultado es adecuado para los objetivos del problema no es necesario trabajar más en ello” concluyen Kanter y Veeramachaneni, en un artículo presentado en la International Data Science and Advanced Analytics Conference, celebrada recientemente en París.
A pesar del éxito, los creadores insisten en que su sistema no está desarrollado con la idea de reemplazar a los humanos: “el DSM puede producir un primer modelo que los humanos pueden refinar. En el mundo real lo primero que hace el analista es realizar un estudio preliminar para determinar si los datos tienen algún poder predictivo de cara a un resultado concreto. En estas circunstancias el DSM puede dar una respuesta de manera muy rápida”.
“Vemos el Data Science Machine como un complemento natural a la inteligencia humana”, recalca Kanter, “hay muchísimos datos esperando ser analizados y ahora mismo no se hace nada con ellos. Ya hemos recibido ofertas de compañías interesadas en utilizar nuestra tecnología, que hemos comenzado a comercializar a través de una compañía llamada FeatureLab”.