¿Qué es la Ciencia de datos?
La data science combina el método científico, las matemáticas y la estadística, la programación especializada, la analítica avanzada, la IA e incluso la narración de historias para descubrir y explicar las ideas empresariales ocultas en los datos.
¿En qué consiste la Ciencia de datos?
La ciencia de los datos es un campo interdisciplinar centrado en la extracción de información significativa de grandes conjuntos de datos. Para descubrir patrones ocultos, los científicos de datos utilizan las matemáticas, la ciencia, los algoritmos y los sistemas para identificar oportunidades para aumentar la eficiencia, la productividad y la rentabilidad.
En términos más sencillos, la data science utiliza las matemáticas y la tecnología para encontrar patrones ocultos (y formas de ser más productivos y rentables) en los datos brutos. Para encontrar esos patrones, un data scientist pasa mucho tiempo recopilando, limpiando, modelando y examinando los datos, desde numerosos ángulos, algunos de los cuales no se han mirado antes.
Esencialmente, la data science consiste en la creación de conocimiento: hace uso de las técnicas y herramientas más avanzadas que ofrecen los campos de la informática y la estadística para convertir un revoltijo de datos en conocimiento que una organización pueda utilizar para informar sobre sus prácticas empresariales.
Entre las técnicas más destacadas que utiliza un Científico de Datos están el análisis causal predictivo, el análisis prescriptivo y el machine learning. La primera, la analítica causal predictiva, utiliza los datos para predecir la probabilidad de diferentes resultados posibles de un evento futuro. La analítica prescriptiva va un paso más allá, sugiriendo una serie de acciones diferentes basadas en esas posibilidades, con la vista puesta en optimizar los resultados.
El machine learning, a diferencia de las dos técnicas que acabamos de mencionar, no es el «qué» sino el «cómo» de la data science: es la práctica de utilizar algoritmos basados en datos que mejoran automáticamente en función de las experiencias pasadas -esencialmente aprendiendo a hacer mejor su trabajo- para descubrir patrones y hacer predicciones.
Dicho esto, en el mundo real, la práctica de la data science implica mucho más que el simple uso de ordenadores para hacer números. De hecho, los científicos de datos pueden estar muy implicados en el proceso de toma de decisiones en todos los departamentos, lo que significa que, en la práctica, la ciencia de los datos también implica colaborar con otras personas y, sobre todo, saber comunicar los hallazgos importantes a otras personas.
¿Qué hacen los científicos de datos?
La percepción común de que los científicos de datos hacen números no está muy lejos de la realidad; trabajan con grandes conjuntos de datos, decidiendo qué datos se necesitan, limpiando los datos, construyendo modelos de lo que los datos pueden mostrar y organizándolos para revelar información latente, y este esfuerzo siempre está dirigido a algún tipo de objetivo.
En particular, esos conjuntos de datos no siempre son números. Aunque la mayoría de los Científicos de Datos trabajan con datos numéricos (el 73 por ciento, según distintas encuestas de Habilidades Digitales), también hay otros tipos de datos. Según la misma encuesta, el 61 por ciento de los encuestados trabaja con texto, el 44 por ciento con datos estructurados, el 13 por ciento con imágenes y el 12 por ciento con gráficos, e incluso el vídeo y el audio se prestan al análisis, con un 6 y un 4 por ciento (respectivamente) de los encuestados que trabajan con estos medios con regularidad.
Estos resultados indican que la data science se está expandiendo más allá del mundo de las tablas financieras, y ejerce su influencia en áreas como la maximización de la satisfacción del cliente y la extracción de información valiosa de las redes sociales.
Como resultado, cada industria tiene sus propios tipos de datos, y sus propias formas de aprovechar esos datos para ayudar a conseguir los resultados deseados. Sin embargo, en todos los casos, la data science sirve para ayudar a la dirección a tomar decisiones mejores y más informadas, ya sea para mejorar un producto, comprender un nuevo mercado, retener a los clientes, desplegar eficazmente la mano de obra o realizar mejores contrataciones.
Los científicos de datos, por tanto, utilizan una combinación de técnicas y conceptos, entre ellos:
Análisis descriptivo
Estudia grandes conjuntos de datos para comprender cómo son las cosas, incluidas las correlaciones e incluso las causalidades que no son inmediatamente obvias.
Análisis causal predictivo
Extrae inferencias de los datos utilizando una serie de técnicas estadísticas -como la minería de datos, el modelado predictivo y el aprendizaje automático- para predecir las posibilidades de un acontecimiento futuro.
Analítica prescriptiva
Proporciona recomendaciones basadas en la inteligencia para producir un resultado deseado o acelerar los resultados de una determinada aplicación o proceso empresarial.
Machine Learning
En pocas palabras, el machine learning -o el proceso por el que un ordenador aprende a realizar mejor una tarea a medida que adquiere más experiencia haciéndolo- utiliza algoritmos para hacer predicciones y encontrar patrones. El machine learning abarca una amplia gama de ideas, herramientas y técnicas utilizadas por los científicos de datos y otros profesionales, y es uno de los métodos más populares para procesar grandes cantidades de datos en bruto.
Lo más fácil es considerar el aprendizaje automático como una parte de la ciencia de los datos. El machine learning libera a los Científicos de Datos de la tediosa tarea de escudriñar volúmenes masivos de datos mediante complejos algoritmos y métodos de resolución de problemas, como el aprendizaje supervisado y no supervisado, la regresión, la clasificación, la agrupación y las redes neuronales.
Los ejemplos de machine learning están a tu alrededor. Facebook, por ejemplo, utiliza el aprendizaje automático para analizar tu comportamiento anterior y presentarte contenidos y notificaciones acordes con tus intereses. Del mismo modo, cuando Netflix te recomienda de algún modo un programa que te encantaría ver, es un ejemplo de aprendizaje automático.
Tal vez el ejemplo más sencillo de machine learning en movimiento sea la forma en que se aborda la tarea de reconocer la escritura a mano. Para entrenar a una máquina con ejemplos de pares correctos de entrada-salida -lo que se denomina aprendizaje automático supervisado- se muestran al ordenador imágenes de números escritos a mano junto con las etiquetas correctas de esos dígitos. A continuación, el ordenador intenta averiguar las características compartidas de cada dígito, y gradualmente capta los patrones entre las imágenes y las etiquetas.
En general, el machine learning es eficaz para resolver problemas de naturaleza estadística o probabilística, profundamente complejos, y que pueden manejarse adecuadamente con una solución aproximada. Por ejemplo, el problema de la detección de fraudes con tarjetas de crédito cumple esas condiciones: las soluciones son probabilísticas porque no se tomará una determinación hasta que la empresa llegue a su cliente; las reglas en torno al fraude son complejas; y las soluciones aproximadas son adecuadas, ya que simplemente estamos marcando las transacciones para una revisión posterior.
Aunque muchas de las herramientas de machine learning más avanzadas requieren cierta experiencia y conocimientos, los fundamentos pueden seguir siendo útiles para quienes deseen profundizar. Muchos modelos de aprendizaje supervisado y no supervisado se implementan en R y Python, y se pueden utilizar modelos sencillos como la regresión lineal o logística para realizar tareas informativas de aprendizaje automático.