¿Qué es un científico de datos y cual es su labor?
Trabajar como científico de datos puede ser intelectualmente desafiante, analíticamente satisfactorio y ponerte a la vanguardia de los nuevos avances tecnológicos. Los científicos de datos son cada vez más comunes y demandados, ya que los grandes datos son cada vez más importantes para la toma de decisiones de las organizaciones. He aquí un vistazo a lo que son y hacen, y cómo llegar a serlo.
¿Qué es un científico de datos?
Un científico de datos es un experto en datos con las habilidades analíticas y técnicas necesarias para resolver problemas complejos. El papel de un científico de datos consiste en utilizar las ciencias de la computación, las matemáticas y la estadística para encontrar patrones en los datos y desarrollar estrategias procesables para las organizaciones.
Los científicos de datos pasan mucho tiempo recopilando, organizando, modelando y examinando los datos desde varios ángulos, incluidos algunos que no se han visto antes. Si parece que la ciencia de los datos no ofrece una hoja de ruta singular desde el problema hasta la solución, es porque no es así. Como explica el profesor de bioestadística Jeff Leek, «la palabra clave de la ‘ciencia de los datos’ no es ‘datos’; es ‘ciencia'», es decir, por definición, la ciencia de los datos es un campo de exploración.
Dado que los científicos de datos suelen tener un pie en cada uno de los mundos de la empresa y de la informática, son muy solicitados y están muy bien remunerados. La mayoría de las empresas se han dado cuenta recientemente del tremendo poder y valor de la ciencia de los datos, y de que ya no pueden permitirse ignorar la masa de datos no estructurados que tienen a su alcance sobre sus usuarios y clientes. Pero alguien tiene que extraer oro de ese desorden, y ahí es donde entra un científico de datos.
Dada la creciente demanda de la ciencia de los datos debido a la repentina prominencia de los grandes datos, la gran mayoría de los científicos de datos no comenzaron su carrera en este campo. Muchos empiezan como analistas de datos o estadísticos antes de hacer la transición. De hecho, una famosa Encuesta de Habilidades Digitales de 2020 se descubrió que el 76% de los encuestados no comenzó su carrera en el ámbito de los datos, y el 68% lleva trabajando cinco años o menos.
Esto se debe a que la ciencia de los datos, en su forma actual, es un campo relativamente nuevo.
Historia de la ciencia de los datos
De hecho, la historia de la ciencia de los datos moderna y el interés general por los grandes datos se inició a mediados de los años 90, cuando Business Week publicó un artículo de portada sobre el «marketing de bases de datos», señalando que las empresas estaban recopilando grandes cantidades de datos sobre sus clientes y utilizándolos para predecir la probabilidad de que compraran un producto y para elaborar un mensaje de marketing que les hiciera más propensos a hacerlo.
Dos años más tarde, los miembros de la Federación Internacional de Sociedades de Clasificación se reunieron para celebrar su reunión bienal y, por primera vez, se incluyó la «ciencia de los datos» en el título de la conferencia («Ciencia de los datos, clasificación y métodos relacionados»). Ese mismo año, se publicó un influyente artículo titulado «De la minería de datos al descubrimiento de conocimientos en las bases de datos», y al año siguiente se lanzó la revista Data Mining and Knowledge Discovery. También en 1997, C.F. Jeff Wu pronunció una conferencia inaugural para la Cátedra H. C. Carver de Estadística de la Universidad de Michigan, en la que pidió que la estadística pasara a llamarse ciencia de los datos y los estadísticos, científicos de los datos.
En 2002, se lanzó la revista Data Science Journal, seguida del Journal of Data Science al año siguiente. Y en 2007 se creó el Centro de Investigación para la Dataología y la Ciencia de los Datos en Shanghai.
Aun así, los que no estaban al tanto de las tendencias de la ciencia de los datos podrían haberse sorprendido cuando, en 2009, el economista jefe de Google, Hal Varian, dijo al McKinsey Quarterly que «el trabajo más sexy de los próximos 10 años será el de estadístico» El tiempo le ha dado la razón. Sería difícil encontrar una empresa de éxito que no esté invirtiendo dinero en encontrar formas creativas y eficientes de aprovechar el poder de los grandes datos, y los científicos de datos están en el centro de ello.
Cómo ser un científico de datos
Las vías para convertirse en un científico de datos también han cambiado a lo largo de los años. Originalmente, el papel de Científico de Datos tenía un origen académico, y todavía muchos Científicos de Datos tienen una gran formación. De hecho, el 88 por ciento tiene al menos un máster, y el 46 por ciento tiene un doctorado. A menudo, la carrera de científico de datos comienza con una licenciatura en informática, matemáticas o estadística
También hay programas universitarios que han surgido específicamente relacionados con la ciencia de los datos, como el Instituto de Analítica Avanzada de la Universidad Estatal de Carolina del Norte. Y donde los aspirantes a Científicos de Datos solían quedar relegados en gran medida a estudiar informática, ahora hay muchas universidades que por fin ofrecen una titulación en Ciencia de Datos. La Universidad de Syracuse, la Universidad de Berkeley, la Universidad John Hopkins, la Universidad de Columbia y la Universidad de Michigan son algunas de las escuelas de primera categoría que ahora ofrecen un máster en ciencia de datos.
Aun así, ese elevado nivel de educación -o un título en ciencia de datos- no es un requisito indispensable para aprender ciencia de datos. Un portafolio pulido y un currículum que muestre algunas habilidades técnicas serias pueden ser suficientes para conseguir un trabajo de nivel de entrada en la ciencia de los datos.
También hay un número creciente de campamentos de iniciación y cursos certificados que enseñan habilidades de ciencia de datos y analítica. Para los que cambian de carrera y quieren sumergirse en un campo nuevo y prometedor con rapidez, o para los que simplemente no tienen tiempo o dinero para cursar años de universidad, esta puede ser una opción atractiva. Estos programas centrados y de inmersión prometen dar a los graduados todas las habilidades técnicas que necesitan, además de una serie de servicios profesionales para garantizar que sus ex alumnos formen parte de la próxima generación de estrellas de la ciencia de los datos. También es un método eficaz para garantizar que tu cartera brille, ya que tendrás a los veteranos del sector vigilando tu espalda.
Características de un científico de datos de éxito
Independientemente de su formación, los buenos científicos de datos comparten una serie de características.
En primer lugar, no se puede obviar el hecho de que hay ciertas habilidades que debes adquirir para convertirte en un Científico de Datos. Todo Científico de Datos debe saber manejarse con Python, R, SQL, Hadoop y Spark. Todos los científicos de datos deben conocer también lo siguiente: análisis de datos, recopilación de datos, análisis de datos, análisis estadístico, tecnologías de visualización de datos y de elaboración de informes, bases de datos como Postgres y MySQL, análisis predictivo, aprendizaje automático, inteligencia artificial y programación.
Y sí, el papel del Científico de Datos implica ciertamente números. Trabajan con grandes cantidades de datos y conjuntos de datos. Los científicos de datos deciden qué datos son necesarios, limpian los datos, construyen modelos de lo que los datos pueden mostrar y los organizan para revelar ideas latentes. Todo esto se hace para servir a un objetivo empresarial mayor.
Aunque los científicos de datos trabajan con números, es importante señalar que los conjuntos de datos también pueden estar compuestos por texto, datos estructurados, imágenes, vídeo, audio y gráficos. El tipo de datos que un Científico de Datos utiliza en su día a día dependerá en gran medida del sector. Pero desde un alto nivel, el trabajo de un Científico de Datos es tomar esos datos -en la forma que sea- y, en última instancia, aprovecharlos para ayudar a los dirigentes a tomar decisiones más inteligentes. Esto puede consistir en introducir mejoras en un producto o servicio, encontrar flujos de trabajo más eficaces, descubrir nuevos conocimientos del mercado o mejorar la experiencia de sus clientes.
Habilidades blandas de la ciencia de los datos
Un buen científico de datos también será experto en la visualización y presentación de datos, un área que combina las habilidades técnicas y las habilidades sociales. Convertir los datos de las tablas en diagramas, gráficos y cuadros de mando puede lograrse con una serie de herramientas, como Tableau, Plotly, Bokeh y Matplotlib, y el dominio de estas herramientas satisface el aspecto técnico de la visualización de datos.
Las habilidades blandas relacionadas con la ciencia de los datos entran en juego cuando intentas determinar qué tipo de visualización comunicará de forma más eficaz tus hallazgos, así como cuando tienes el gusto estético para saber cómo presentar tus hallazgos de forma que tengan el mayor y más persuasivo impacto en los responsables de la toma de decisiones a los que se les presenta la información.
Además, los grandes Científicos de Datos necesitan un amplio espectro de habilidades blandas para destacar en sus funciones. Por un lado, es importante entender el negocio. Puedes tener todas las habilidades técnicas del mundo, pero si no entiendes los principios empresariales o los objetivos de tu empresa, esas habilidades no se utilizarán de forma productiva y eficiente.
Las habilidades de comunicación también son cruciales a la hora de presentar tus descubrimientos, exponer tus argumentos para la aplicación de cambios relacionados con esos descubrimientos e intentar tener voz dentro de la estrategia organizativa general de tu empresa.
Según la encuesta de BrainStatoin, el 83% de los profesionales de los datos calificaron la alfabetización general en materia de datos como intermedia o baja, y el 89% dijo que esta carencia afectaba al éxito de los proyectos de su organización. Además, el 59 por ciento dijo que su empresa tendría más éxito si sus empleados tuvieran conocimientos de datos.
Esto ilustra dos cosas: los profesionales de los datos están muy solicitados y en este campo, trabajarás con personas que probablemente no entiendan mucho de datos, y encontrar la forma de transmitir tu mensaje de forma convincente y accesible será crucial para tu éxito.
Un científico de datos también tiene que ser un buen jugador de equipo. Tratarás con equipos grandes y multidisciplinares, y un Científico de Datos eficaz no puede limitarse a trabajar de forma aislada en los proyectos que elija. Tendrá que coordinar y colaborar con una serie de personas que desempeñan otras funciones técnicas y no técnicas.
Lenguajes de programación para la ciencia de los datos
Python, R, SQL y Java son algunos de los lenguajes de programación más populares que utilizan los científicos de datos.
Python
Accesible, fácil de usar y versátil, Python es el principal lenguaje de programación para muchos científicos de datos.
R
R ofrece una serie de paquetes específicos para satisfacer las aplicaciones estadísticas y de visualización de datos que puedan necesitar los científicos de datos.
SQL
SQL, o «Structured Query Language» (lenguaje de consulta estructurado), es un lenguaje específico del sector que se utiliza para gestionar datos en bases de datos relacionales.
Java
Parte de la utilidad de Java radica en su popularidad: muchas empresas utilizan Java para crear sistemas y aplicaciones backend para escritorio, móvil y web. Saber utilizar Java te permite entrelazar el código de producción de la ciencia de los datos directamente con una base de datos existente.
Scala
Fácil de usar y flexible, Scala es el lenguaje de programación ideal para tratar con grandes volúmenes de datos.
Julia
Julia está diseñado para el análisis numérico y la ciencia computacional, y es útil para resolver operaciones matemáticas complejas.
MATLAB
MATLAB se utiliza en la industria y el mundo académico gracias a su intensa funcionalidad matemática.
Trabajos en Ciencia de Datos
Entender la distinción entre los distintos papeles relacionados con los datos y los datos que puedes encontrar en un equipo de datos típico puede ser difícil. He aquí algunos títulos de trabajo en la ciencia de los datos y cómo se diferencian:
-
Científico de datos. A diferencia de los analistas de datos, los científicos de datos deben comprender los retos a los que se enfrenta una empresa y ofrecer las mejores soluciones mediante el análisis y el procesamiento de datos. Se espera que los científicos de datos realicen análisis predictivos y criben los datos no estructurados para ofrecer perspectivas procesables. También pueden hacerlo identificando tendencias y patrones que puedan ayudar a las empresas a tomar mejores decisiones.
-
Analista de datos. Un analista de datos es responsable de la visualización, la manipulación y el procesamiento de grandes cantidades de datos. En ocasiones también tienen que realizar consultas en las bases de datos. Una de las herramientas más importantes de un analista de datos es la optimización, con la que crean y modifican algoritmos que pueden utilizarse para extraer información de algunas de las mayores bases de datos sin corromper los datos.
-
Ingenieros de datos. Los ingenieros de datos construyen y prueban ecosistemas de big data escalables para que los científicos de datos tengan sistemas de datos estables y optimizados en los que ejecutar sus algoritmos. Los ingenieros de datos también se encargan de actualizar los sistemas existentes con versiones mejoradas de las tecnologías actuales para mejorar la eficiencia de las bases de datos.
-
Administrador de bases de datos. Los administradores de bases de datos son responsables del buen funcionamiento de las bases de datos de una empresa. Además, pueden conceder o revocar sus servicios a los empleados de la empresa en función de sus necesidades. También se ocupan de las copias de seguridad y las recuperaciones de las bases de datos.
-
Ingeniero de aprendizaje automático. Un papel muy demandado, los ingenieros de aprendizaje automático realizan pruebas A/B, construyen canalizaciones de datos e implementan algoritmos comunes de aprendizaje automático como la clasificación y la agrupación. Deben tener un profundo conocimiento de potentes tecnologías, como SQL y las API de REST.
-
Arquitecto de datos. Para garantizar que las bases de datos sean seguras y estén centralizadas, el Arquitecto de Datos crea los planos de la arquitectura de datos para la gestión de la información. También se aseguran de que los Ingenieros de Datos tengan las mejores herramientas y sistemas para trabajar.
-
Ingeniero de Inteligencia Artificial. Los ingenieros de inteligencia artificial trabajan con técnicas tradicionales de aprendizaje automático, como el procesamiento del lenguaje natural y las redes neuronales, para crear modelos que impulsen las aplicaciones basadas en la IA.
-
Informático. La informática es el estudio de cómo se pueden utilizar los ordenadores para resolver una amplia gama de problemas. En pocas palabras, la informática integra temas como las matemáticas, la física, la ingeniería y el diseño para estudiar cómo utilizar los ordenadores para transmitir y transformar la información. Los informáticos utilizan la tecnología para resolver problemas y prepararse para el futuro, escriben y programan software para crear aplicaciones, y validan y desarrollan modelos de interacción entre las personas y diversos dispositivos.
Además de las personas que desempeñan todas las funciones anteriores, los Científicos de Datos suelen colaborar con una amplia variedad de partes interesadas en toda la organización, incluyendo a todos, desde el marketing hasta las ventas, pasando por la informática y la alta dirección, especialmente en el nivel de un Científico de Datos Senior. Sin embargo, normalmente el equipo de datos inmediato es un grupo más pequeño; encuestas hechas por expertos descubrieron que la mayoría de los profesionales de los datos están en equipos pequeños, con un 37 por ciento en equipos de menos de cinco personas, y un 26 por ciento en equipos de cinco a diez personas.
Demanda de ciencia de datos
Colaborar con una serie de personas de diferentes orígenes -en lugar de estar atrapado en un silo tecnológico- es una de las muchas razones por las que tanta gente está buscando convertirse en un científico de datos.
Otra es la seguridad laboral. Desde 2012, los puestos de Científico de Datos han aumentado un 650%, y la Oficina de Estadísticas Laborales de EE.UU. predice que la demanda de conocimientos de ciencia de datos aumentará otro 28% para 2026. Un informe de McKinsey predice una escasez de entre 140.000 y 190.000 personas con habilidades analíticas en los EE.UU., con otro millón y medio de gerentes y analistas que necesitarán actualizarse para entender mejor cómo tomar decisiones basadas en datos.
Hay otras razones por las que los profesionales de los grandes datos están tan contentos y son tan optimistas sobre sus futuras perspectivas profesionales. Con un salario base medio de más de 120.000 dólares (según Indeed), más el habitual bufé de atractivas ventajas, como ayudas al transporte, opciones sobre acciones y membresías en gimnasios, los científicos de datos están bien compensados y son bien tratados por los empleadores, que saben que tienen muchas opciones si quieren buscar en el mercado laboral.