Cómo convertirse en un científico de datos
¿Te gustaría ser un Data Scientist? Nuestra guía profesional pretende ayudarte a dar los primeros pasos hacia una lucrativa carrera en la ciencia de datos. La guía ofrece una visión en profundidad de las habilidades de datos que debes aprender, las mejores opciones de formación en datos, las trayectorias profesionales en data science, cómo convertirse en un Científico de Datos, y mucho más.
Hay muchas formas de llegar a ser un Data Scientist, pero como generalmente es un puesto de alto nivel, los Científicos de Datos han tenido tradicionalmente una buena formación, con títulos como matemáticas, estadística e informática, entre otros. Sin embargo, esto ha empezado a cambiar. Cómo convertirse en profesional del Data Science en ocho pasos.
1. Desarrolla las habilidades de datos adecuadas
Si no tienes ninguna experiencia laboral en el campo de los datos, puedes convertirte en Científico de Datos, pero tendrás que desarrollar la formación adecuada para trabajar en la carrera de ciencia de datos. El data scientist es un puesto de alto nivel; antes de alcanzar ese grado de especialización, querrás desarrollar una amplia base de conocimientos en un campo asociado. Pueden ser las matemáticas, la ingeniería, la estadística, el análisis de datos, la programación o la informática; algunos científicos de datos han empezado incluso en las finanzas y en la búsqueda de jugadores de béisbol.
Pero sea cual sea el campo en el que empieces, debe incluir los fundamentos: Python, SQL y Excel. Estas habilidades serán esenciales para trabajar y organizar los datos en bruto. Tampoco está de más que estés familiarizado con Tableau, una herramienta que utilizarás a menudo para crear visualizaciones. Estate atento a las oportunidades que te ayuden a empezar a pensar como un científico de datos; cuanto más te permita esta formación trabajar con datos, más te ayudará en el siguiente paso.
2. Aprende los fundamentos de la ciencia de datos
Un curso de ciencia de datos o un master puede ser una forma ideal de adquirir o ampliar los fundamentos de la ciencia de datos. Espera aprender lo esencial, como la forma de recopilar y almacenar datos, analizar y modelar datos, y visualizar y presentar los datos utilizando todas las herramientas de la ciencia de datos, incluidas las aplicaciones especializadas como los programas de visualización Tableau y PowerBI, entre otros.
Al final de tu formación, deberías ser capaz de utilizar Python y R para construir modelos que analicen el comportamiento y predigan incógnitas, y ser capaz de reempaquetar los datos en formas fáciles de usar.
Muchas ofertas de empleo enumeran los títulos avanzados como requisito para los puestos de Ciencia de los Datos. A veces, eso no es negociable, pero a medida que la demanda supera a la oferta, la prueba está cada vez más en el pudín. Es decir, las pruebas de las habilidades requeridas a menudo superan el mero credencialismo.
Lo más importante para los responsables de la contratación es la capacidad de demostrar el dominio del tema de alguna manera, y cada vez se entiende más que esta demostración no tiene por qué seguir los canales tradicionales.
3. Aprende los lenguajes de programación clave para la ciencia de datos
Los científicos de datos dependen de una serie de herramientas y programas especializados desarrollados específicamente para la limpieza, el análisis y el modelado de datos. Además del Excel de uso general, los Científicos de Datos deben estar familiarizados con un lenguaje de programación estadística como Python, R o Hive, y con lenguajes de consulta como SQL.
Una de las herramientas más importantes de un Científico de Datos es RStudio Server, que soporta un entorno de desarrollo para trabajar con R en un servidor. Jupyter Notebook, de código abierto, es otra aplicación muy popular, que incluye modelización estadística, visualización de datos, funciones de aprendizaje automático, etc.
La ciencia de los datos también implica cada vez más el aprendizaje automático: herramientas que aplican la inteligencia artificial para dar a los sistemas la capacidad de aprender y ser más precisos sin ser programados explícitamente. Las herramientas utilizadas para el aprendizaje automático dependen en gran medida de la aplicación, es decir, si estás entrenando al ordenador para que identifique imágenes, por ejemplo, o para que extraiga tendencias de las publicaciones de las redes sociales.
Dependiendo de sus objetivos, los científicos de datos pueden elegir entre una amplia gama de herramientas, como h2o.ai, TensorFlow, Apache Mahout y Accord.Net.
4. Trabaja en proyectos de Ciencia de Datos para desarrollar tus habilidades prácticas en materia de datos
Una vez que hayas aprendido los fundamentos de los lenguajes de programación y las herramientas digitales que utilizan los científicos de datos, puedes empezar a ponerlos en práctica, practicando tus habilidades recién adquiridas y desarrollándolas aún más. Trata de emprender proyectos que se basen en una amplia gama de habilidades – utilizando Excel y SQL para gestionar y consultar bases de datos, y Python y R para analizar datos utilizando métodos estadísticos, construir modelos que analicen el comportamiento y produzcan nuevos conocimientos, y utilizar el análisis estadístico para predecir incógnitas.
A medida que practiques, intenta tocar diferentes etapas del proceso, empezando por la investigación inicial de una empresa o sector del mercado, luego definiendo y recopilando los datos adecuados para la tarea en cuestión, limpiando y probando esos datos para optimizar su utilidad. Por último, puedes crear y aplicar tus propios algoritmos para analizar y modelar esos datos, y finalmente empaquetarlos en visuales o cuadros de mando fáciles de leer que permitan a los usuarios interactuar con tus datos y consultarlos de forma sencilla. Incluso puedes practicar la presentación de tus conclusiones a otras personas para mejorar tus habilidades de comunicación.
También querrás practicar el trabajo con diferentes tipos de datos: texto, datos estructurados, imágenes, audio e incluso vídeo. Cada sector utiliza sus propios tipos de datos para ayudar a la dirección a tomar decisiones mejores y más informadas. Como data scientist en activo, es probable que te especialices en uno o dos, pero como principiante que está construyendo su conjunto de habilidades, querrás conocer los fundamentos de tantos tipos como sea posible.
Abordar proyectos más complejos te dará la oportunidad de explorar todas las formas en que se pueden utilizar los datos. Una vez que hayas dominado el uso de la analítica descriptiva para examinar los datos en busca de patrones, estarás en una posición más fuerte para intentar utilizar técnicas estadísticas más complicadas como la minería de datos, el modelado predictivo y el aprendizaje automático para predecir resultados futuros o incluso generar recomendaciones.
5. Desarrolla visualizaciones y practica su presentación
Utilizando programas como Tableau, PowerBI, Bokeh, Plotly o Infogram, practica la construcción de tus propias visualizaciones desde cero, encontrando la mejor manera de dejar que los datos hablen por sí mismos. Excel entra en juego incluso durante este paso: aunque la premisa básica de las hojas de cálculo es sencilla -hacer cálculos o gráficos correlacionando la información de sus celdas-, Excel sigue siendo increíblemente útil después de más de 30 años y es prácticamente inevitable en el campo de la ciencia de datos.
Pero crear hermosas visualizaciones es sólo el principio. Como data scientist, también tendrás que ser capaz de utilizar estas visualizaciones para presentar tus conclusiones a un público en directo. Puede que estas habilidades de comunicación te resulten naturales, pero si no es así, ten por seguro que cualquiera puede mejorar con la práctica. Empieza con algo pequeño, si es necesario, haciendo presentaciones a un solo amigo, o incluso a tu mascota, antes de pasar a un entorno de grupo.
6. Construye una cartera para mostrar tus habilidades en la ciencia de datos
Una vez que hayas hecho tu investigación preliminar, hayas recibido la formación y hayas practicado tus nuevas habilidades construyendo una impresionante gama de proyectos, tu siguiente paso es demostrar esas habilidades desarrollando el portafolio pulido que te hará conseguir el trabajo de tus sueños. De hecho, tu portafolio puede ser el elemento más importante en tu búsqueda de empleo.
Un curso o master en ciencia de datos debería está diseñado para ofrecer una experiencia basada en proyectos que ayude a los estudiantes a crear una impresionante cartera de proyectos realizados en el mundo real. Es una de las mejores maneras de destacar en el mercado laboral.
Cuando solicites un puesto de Científico de Datos, considera la posibilidad de mostrar tu trabajo en GitHub además de (o en lugar de) tu propio sitio web. GitHub muestra fácilmente tu proceso, tu trabajo y tus resultados, a la vez que impulsa tu perfil en una red pública. Pero no te detengas ahí. Tu portafolio es tu oportunidad de mostrar tus habilidades comunicativas y demostrar que puedes hacer algo más que hacer números. Es útil mostrar una serie de técnicas diferentes, ya que la ciencia de los datos es un campo bastante amplio, lo que significa que hay muchas maneras de abordar un problema, y una variedad de enfoques que puedes poner sobre la mesa.
Acompaña tus datos con una narración convincente y demuestra los problemas que estás tratando de resolver para que el empleador entienda tu mérito. GitHub te permite mostrar tu código dentro de un contexto más amplio, y no de forma aislada, lo que facilita la comprensión de tus contribuciones.
Cuando solicites un trabajo concreto, no incluyas todo tu trabajo. Destaca sólo algunas piezas que se relacionen más estrechamente con el puesto al que te presentas, y que muestren mejor tu gama de habilidades a lo largo de todo el proceso de la ciencia de datos: empezando por un conjunto de datos básicos, definiendo un problema, haciendo una limpieza, construyendo un modelo y, finalmente, encontrando una solución.
7. Aumenta tu perfil
Un proyecto bien ejecutado que lleves a cabo por tu cuenta puede ser una gran manera de demostrar tus habilidades e impresionar a los posibles directores de contratación. Escoge algo que te interese realmente, haz una pregunta sobre ello e intenta responder a esa pregunta con datos. Como se ha mencionado anteriormente, también deberías considerar la posibilidad de mostrar tu trabajo en GitHub.
Documenta tu viaje y presenta tus hallazgos -bien visualizados- con una explicación clara de tu proceso, destacando tus habilidades técnicas y tu creatividad. Tus datos deben ir acompañados de una narración convincente que demuestre los problemas que has resuelto -destacando tu proceso y los pasos creativos que has dado- para garantizar que un empleador entienda tu mérito.
Convertirse en miembro de una red de ciencia de datos en línea como Kaggle es otra gran manera de demostrar que estás comprometido con la comunidad, mostrar tus habilidades como aspirante a Científico de Datos, y seguir aumentando tanto tu experiencia como tu alcance.
8. Solicita puestos de trabajo de científico de datos relevantes
Hay muchas funciones dentro del campo de la ciencia de datos. Después de adquirir las habilidades esenciales, la gente suele especializarse en varios subcampos, como ingenieros de datos, analistas de datos o ingenieros de aprendizaje automático, entre muchos otros.
Averigua a qué da prioridad una empresa, en qué está trabajando, y confirma que se ajusta a tus puntos fuertes, a tus objetivos y a lo que te ves haciendo más adelante. Y asegúrate de mirar más allá de Silicon Valley: ciudades como Boston, Chicago y Nueva York están experimentando una escasez de talento técnico, por lo que las oportunidades abundan
Los mejores trabajos en Data Science
Dado que el trabajo de los científicos de datos afecta a tantos sectores y disciplinas diferentes, las funciones que pueden desempeñar los científicos de datos reciben muchos nombres diferentes, como por ejemplo
- Científico de datos
- Analista de datos
- Arquitecto de datos
- Ingeniero de datos
- Estadístico
- Administrador de bases de datos
- Analista de negocios
- Gestor de datos y análisis
- Investigador
- Ingeniero de aprendizaje automático
- Analista cuantitativo
Hay muchas otras variantes, y éstas seguirán evolucionando a medida que la ciencia de los datos sea cada vez más frecuente. Pero aunque la lista de títulos de trabajo en la ciencia de datos puede parecer interminable, hay cuatro categorías principales que describen las diferentes funciones que los científicos de datos suelen desempeñar:
Ingenieros de datos
Los ingenieros de datos recogen, almacenan y organizan los datos. Los anuncios de empleo para ingenieros de datos suelen enumerar una serie de responsabilidades, como la capacidad de obtener datos externos, construir almacenes de datos y diseñar modelos de datos, tres tareas que también sientan las bases para el análisis de datos y el aprendizaje automático. El ingeniero de datos es un puesto profesional relativamente avanzado, por lo que suele requerir una formación en informática, matemáticas o ingeniería, así como conocimientos de SQL, Python, Java o Ruby, y la capacidad de gestionar y diseñar bases de datos.
Analistas de datos
Los analistas de datos utilizan los datos organizados y accesibles por el trabajo de un ingeniero de datos, convirtiéndolos en ideas que pueden resolver problemas, optimizar productos y ayudar a tomar decisiones basadas en pruebas. Los analistas de datos pueden tomar información compleja y convertirla en estadísticas que los ejecutivos de las empresas pueden utilizar para informar sobre la estrategia y la planificación, a menudo en forma de visualizaciones de datos fáciles de entender, como tablas y gráficos. Entre los títulos de trabajo relacionados se encuentran los analistas de investigación de operaciones y los analistas de inteligencia empresarial. SQL es la base para una carrera en el análisis de datos, junto con el conocimiento de Python o R, y la capacidad de crear visualizaciones de datos utilizando software como Tableau.
Científicos de datos
Dependiendo de la empresa, las personas con el título de «Científico de Datos» pueden tener que hacer el trabajo de un Ingeniero de Datos y de un Analista de Datos (recopilar, organizar y analizar datos), así como un trabajo de datos más estratégico. La diferencia entre el papel del data scientist y el del analista e ingeniero de datos radica en la capacidad del científico de datos para dirigir la estrategia de big data de una empresa formulando las preguntas adecuadas y desarrollando nuevas ideas, productos y servicios. Aquí, el conocimiento de Python, SQL y Tableau es clave, junto con otros lenguajes de programación, la comprensión de cómo se construyen y mantienen las bases de datos, fuertes habilidades de comunicación y visión de negocio.
Ingenieros de machine learning
Hay bastante solapamiento entre los Científicos de Datos y los Ingenieros de Machine Learning; ambos trabajan con datos para producir ideas. La diferencia es que los científicos de datos descubren ideas para presentarlas a las personas (por ejemplo, los directores generales y otros líderes empresariales), mientras que los ingenieros de machine learning diseñan el software que puede descubrir ideas y aprender de los resultados a medida que se recopilan más y más datos.
Los Ingenieros de machine learning dependen de los conocimientos matemáticos avanzados, de las habilidades de programación (en Python, R y Java), del conocimiento de Hadoop, de la experiencia en el modelado de datos y de la experiencia de trabajo en un entorno ágil.
La buena noticia es que casi todos estos puestos tienen una gran demanda. Si tienes conocimientos y experiencia en ciencia de datos, ya estás en una gran posición en lo que respecta al desarrollo y la progresión de la carrera.
¿Es la ciencia de datos un campo en crecimiento?
Sí, el campo de la ciencia de los datos es uno de los de más rápido crecimiento en la tecnología, con una previsión de creación de más de 2,7 millones de nuevos puestos de trabajo en el sector de los datos.
Este crecimiento también parece que va a continuar si se tiene en cuenta la creciente importancia de las habilidades de datos. Según la Encuesta de Habilidades Digitales 2020, el 89% de los profesionales cree que la mejora de las habilidades de datos mejorará el éxito en su organización, y el 78% cree que la IA es la tecnología que tendrá el mayor impacto en los próximos años.
¿Cuál es el salario de un data scientist?
En 2020, Glassdoor informó de que el salario medio de un data scientist es de 84.000 dólares al año en Canadá y de más de 113.000 dólares en EE.UU.
¿Cómo puedo convertirme en un científico de datos sin experiencia?
Incluso si no tienes experiencia laboral en datos, es posible convertirse en un Científico de Datos. Pero antes de empezar a explorar las especializaciones dentro del campo de la ciencia de datos, tendrás que desarrollar una amplia base de conocimientos en un campo relacionado. Pueden ser las matemáticas, la ingeniería, la estadística, el análisis de datos, la programación o la informática; algunos Científicos de Datos han empezado incluso en las finanzas y el scouting de béisbol.
Sea cual sea el campo por el que empieces, debe incluir los fundamentos: Python, SQL y Excel. Estas habilidades serán esenciales para trabajar con datos en bruto y organizarlos. Para pasar de un campo adyacente a la ciencia de datos a la ciencia de datos propiamente dicha, tendrás que adquirir un conjunto específico de habilidades, y la forma más eficaz de hacerlo es inscribiéndote en un curso de ciencia de los datos o en un master con un programa de aprendizaje estructurado. Una formación en ciencia de datos te garantiza que cubrirás todos los aspectos básicos, sin perderte en la maleza de áreas de estudio irrelevantes o desfasadas.
Espera aprender lo esencial de la ciencia de datos, como la recopilación y el análisis de datos, el modelado de datos, la visualización de datos y las herramientas de visualización de datos más utilizadas por los científicos de datos. Al final de tu curso de ciencia de datos, deberías saber cómo usar Python, R y Hadoop, y cómo construir modelos que analicen el comportamiento, predigan incógnitas y sean capaces de reempaquetar los datos en formas fáciles de usar.
Con la formación de habilidades y un sólido portafolio, puedes empezar a trabajar para establecer tu perfil público como Científico de Datos. Un proyecto bien ejecutado que lleves a cabo por tu cuenta es una gran manera de hacerlo. Elige un tema que te interese mucho, haz una pregunta sobre él e intenta responder a esa pregunta con datos. A continuación, publica tu trabajo en GitHub para presentar tu proceso, tu trabajo y tus hallazgos y así destacar tus habilidades técnicas y tu creatividad en una narración convincente.
Guía para trabajar en data science
De profesión, data scientist
Basicos
¿Diferencias entre mineria de datos y ciencia de datos?
Como ser un data scientist
El empleo
Funciones de un científico de datos
Como es un día de trabajo de un data scientist
¿Qué herramientas utilizan los data scientists?
¿Un data scientist debe saber programar?
Habilidades
¿Qué habilidades necesita un data scientist?
¿La ciencia de datos es difícil de aprender?
¿Necesitas un grado o licenciatura para ser un data scientist?
¿Vale la pena realizar un bootcamp o curso intensivo?
Carrera profesional
¿El data science es una buena carrera profesional?
¿Cuánto gana un data scientist?
¿Cuánto se tarda en convertirse en científico de datos?
Encontrar trabajo como científico de datos
Portfolio para un data scientist