Preguntas de la entrevista para científico de datos

La data science es un campo interdisciplinar que extrae datos en bruto, los analiza y obtiene patrones que se utilizan para extraer información valiosa de ellos. La estadística, la informática, el aprendizaje automático, el aprendizaje profundo, el análisis de datos, la visualización de datos y otras tecnologías diversas forman la base de la data science.

Los procesos de entrevista para la data science pueden variar según la empresa y el sector. Normalmente, incluirán una selección telefónica inicial con el director de contratación, seguida de una o varias entrevistas in situ.

Tendrás que responder a preguntas técnicas y conductuales de la entrevista de ciencia de datos y probablemente completarás un proyecto relacionado con tus habilidades. Antes de cada entrevista, debes revisar tu currículum y tu cartera, así como prepararte para las posibles preguntas de la entrevista.

Las preguntas de la entrevista de data science pondrán a prueba tus conocimientos y habilidades de estadística, programación, matemáticas y modelado de datos. Los empleadores evaluarán tus habilidades técnicas y blandas y lo bien que encajarías en su empresa.

Si preparas algunas preguntas y respuestas comunes de las entrevistas de ciencia de datos, podrás entrar en la entrevista con confianza. Hay varios tipos de preguntas sobre ciencia de datos que puedes encontrar durante tu entrevista de ciencia de datos.

Los empleadores buscan candidatos que tengan un sólido conocimiento de las técnicas y conceptos de la ciencia de datos.
Las preguntas de la entrevista relacionadas con los datos variarán en función del puesto y de las habilidades requeridas.

Ejemplos de preguntas y respuestas para tu entrevista de ciencia de datos

Aquí tienes algunos ejemplos de ejemplos de preguntas y respuestas de entrevistas relacionadas con los datos:

¿Cuál es la diferencia entre el aprendizaje supervisado y el no supervisado?

La mayor diferencia entre el aprendizaje supervisado y el no supervisado consiste en el uso de conjuntos de datos etiquetados y no etiquetados. El aprendizaje supervisado utiliza datos de salida y entrada etiquetados, y los algoritmos de aprendizaje no supervisado no. Otra diferencia es que el aprendizaje supervisado tiene un mecanismo de retroalimentación, mientras que el aprendizaje no supervisado no lo tiene. Por último, los algoritmos de aprendizaje supervisado más utilizados son la regresión logística, la máquina de vectores de apoyo y los árboles de decisión, mientras que los algoritmos de aprendizaje no supervisado son la agrupación de k-means, la agrupación jerárquica y el algoritmo apriori.

¿Cuál es la diferencia entre el aprendizaje automático y el aprendizaje profundo?

Esta pregunta puede ser difícil de responder con claridad, porque es evidente que hay cierto solapamiento. Empieza por explicar que el aprendizaje profundo es esencialmente un subcampo del aprendizaje automático y que ambos se encuentran bajo el paraguas de la inteligencia artificial. Mientras que el aprendizaje automático utiliza algoritmos para analizar los datos y, en última instancia, aprender a tomar decisiones basándose en lo que saca de los datos, el aprendizaje profundo coloca esos algoritmos en capas para crear redes neuronales artificiales capaces de aprender y tomar decisiones informadas.

  • Explica en detalle el algoritmo del Árbol de Decisión.
  • ¿Qué es el muestreo? ¿Cuántos métodos de muestreo conoces?
  • ¿Cuál es la diferencia entre el error de tipo I y el de tipo II?
  • ¿Qué es la regresión lineal? ¿Qué significan los términos valor p, coeficiente y valor r-cuadrado? ¿Cuál es la importancia de cada uno de estos componentes?
  • ¿Qué es una interacción estadística?
  • ¿Qué es el sesgo de selección?
  • ¿Cuál es un ejemplo de conjunto de datos con una distribución no gaussiana?
  • ¿Qué es la fórmula de la probabilidad binomial?
  • ¿En qué se diferencia k-NN de la agrupación k-means?
  • ¿Cómo crearías un modelo de regresión logística?
  • Explica la regla del 80/20, y habla de su importancia en la validación de modelos.
  • Explica qué son la precisión y el recuerdo. ¿Cómo se relacionan con la curva ROC?
  • Explica la diferencia entre los métodos de regularización L1 y L2.
  • ¿Qué es el análisis de la causa raíz?
  • ¿Qué son las colisiones de la tabla hash?
  • ¿Cuáles son algunos de los pasos para el tratamiento y la limpieza de los datos antes de aplicar los algoritmos de aprendizaje automático?
  • ¿Cuál es la diferencia entre un gráfico de caja y un histograma?
  • ¿Qué es la validación cruzada?
  • Explica qué son un falso positivo y un falso negativo. ¿Es mejor tener demasiados falsos positivos o demasiados falsos negativos?
  • En tu opinión, ¿qué es más importante a la hora de diseñar un modelo de aprendizaje automático: el rendimiento del modelo o la precisión del mismo?
  • ¿En qué situaciones falla un modelo lineal general?
  • ¿Crees que 50 árboles de decisión pequeños son mejores que uno grande? ¿Por qué?

Lista de preguntas de entrevistas sobre ciencia de datos: Preguntas sobre habilidades técnicas

Las preguntas sobre habilidades técnicas en una entrevista de ciencia de datos se utilizan para evaluar tus conocimientos, habilidades y capacidades en ciencia de datos. Estas preguntas estarán relacionadas con las responsabilidades específicas del puesto de Científico de Datos.

Las preguntas técnicas de la entrevista de ciencia de datos pueden tener una respuesta correcta o varias soluciones posibles. Querrás mostrar tu proceso de pensamiento al resolver los problemas y explicar claramente cómo has llegado a una respuesta.

Algunos ejemplos de preguntas de entrevista sobre habilidades técnicas de la ciencia de datos son

¿Cuáles son las herramientas y habilidades técnicas más importantes para un científico de datos?

La data science es un campo muy técnico y querrás demostrar al director de contratación que eres experto en todas las herramientas, el software y los lenguajes de programación más recientes del sector. De los diversos lenguajes de programación estadística utilizados en la data science, R y Python son los más utilizados por los científicos de datos. Ambos pueden utilizarse para funciones estadísticas como la creación de un modelo no lineal o lineal, el análisis de regresión, las pruebas estadísticas, la minería de datos, etc. Otra herramienta importante de la ciencia de datos es RStudio Server, mientras que Jupyter Notebook se utiliza a menudo para el modelado estadístico, las visualizaciones de datos, las funciones de aprendizaje automático, etc. Por supuesto, hay una serie de herramientas dedicadas a la visualización de datos que los científicos de datos utilizan mucho, como Tableau, PowerBI, Bokeh, Plotly e Infogram. Los científicos de datos también necesitan mucha experiencia en el uso de SQL y Excel.

Tu respuesta debe mencionar también cualquier herramienta o competencia técnica específica que exija el puesto para el que te entrevistas. Revisa la descripción del puesto y, si hay alguna herramienta o programa que no hayas utilizado, puede valer la pena que te familiarices con él antes de la entrevista.

¿Cómo se pueden tratar los valores atípicos?

Algunos tipos de valores atípicos pueden eliminarse. Los valores basura o los valores que sabes que no pueden ser ciertos, se pueden eliminar. También se pueden eliminar los valores atípicos con valores extremos muy alejados del resto de los puntos de datos agrupados en un conjunto. Si no puedes eliminar los valores atípicos, podrías reconsiderar si has elegido el modelo correcto, podrías utilizar algoritmos (como los bosques aleatorios) que no se vean tan afectados por los valores atípicos, o podrías intentar normalizar tus datos.

  • Háblame de un algoritmo original que hayas creado.
  • ¿Cuáles son los pros y los contras de tu software estadístico favorito?
  • Describe un proyecto de ciencia de datos en el que hayas trabajado con un importante componente de programación. ¿Qué aprendiste de esa experiencia?
  • ¿Cómo representarías eficazmente los datos con cinco dimensiones?
  • Supón que tienes que generar un modelo predictivo utilizando la regresión múltiple. Explica cómo pretendes validar este modelo.
  • Al modificar un algoritmo, ¿cómo sabes que tus cambios suponen una mejora respecto a no hacer nada?
  • ¿Cuál es una forma de manejar un conjunto de datos desequilibrado que se utiliza para la predicción (es decir, con muchas más clases negativas que positivas)?
  • ¿Cómo validarías un modelo que has creado para generar un modelo de predicción de una variable de resultado cuantitativa mediante regresión múltiple?
  • Tengo dos modelos de precisión y rendimiento computacional comparables. ¿Cuál debería elegir para la producción y por qué?
  • Te dan un conjunto de datos formado por variables con más de un 30% de valores perdidos. ¿Cómo los tratarás?

Lista de preguntas de la entrevista sobre la data science: Preguntas personales

Además de poner a prueba tus conocimientos y habilidades en ciencia de datos, es probable que los empleadores también te hagan preguntas generales para conocerte mejor. Estas preguntas les ayudarán a entender tu estilo de trabajo, tu personalidad y cómo podrías encajar en la cultura de su empresa.

Las preguntas de la entrevista a un científico de datos personal pueden incluir:

¿Qué crees que hace a un buen Científico de Datos?

Tu respuesta a esta pregunta dirá mucho al director de contratación sobre cómo ves tu papel y el valor que aportas a una organización. En tu respuesta, podrías hablar de cómo la data science requiere una combinación poco común de competencias y habilidades. Un buen científico de datos debe combinar la destreza técnica necesaria para analizar los datos y crear modelos con el sentido empresarial necesario para comprender los problemas que están abordando, así como para reconocer las ideas procesables en sus datos. En tu respuesta, también podrías hablar de un Científico de Datos al que admires, ya sea un colega al que conozcas personalmente o una figura perspicaz del sector.

  • Háblame de ti.
  • ¿Cuáles son algunos de tus puntos fuertes y débiles?
  • ¿A qué científico de datos admiras más?
  • ¿Cómo te interesaste por la ciencia de los datos?
  • ¿Qué habilidades únicas crees que puedes aportar al equipo?
  • ¿Por qué dejaste tu último trabajo?
  • ¿Qué tipo de compensación buscas?
  • Da algunos ejemplos de las mejores prácticas en la data science.
  • ¿Cuál es el proyecto de ciencia de datos en el que te gustaría trabajar en nuestra empresa?
  • ¿Trabajas mejor solo o como parte de un equipo de científicos de datos?
  • ¿Dónde te ves dentro de cinco años?
  • ¿Cómo manejas las situaciones de estrés?
  • ¿Qué te motiva?
  • ¿Cómo evalúas el éxito?
  • ¿Qué tipo de entorno de trabajo prefieres?
  • ¿Qué te apasiona fuera de la data science?

Lista de preguntas de la entrevista sobre la data science: Liderazgo y comunicación

El liderazgo y la comunicación son dos habilidades valiosas para los científicos de datos. Los empleadores valoran a los candidatos a un puesto de trabajo que pueden mostrar iniciativa, compartir su experiencia con los miembros del equipo y comunicar los objetivos y estrategias de la ciencia de datos.

He aquí algunos ejemplos de preguntas de entrevista sobre liderazgo y comunicación en ciencia de datos:

Cuéntame una experiencia de trabajo en un equipo multidisciplinar.

Un científico de datos colabora con una gran variedad de personas en funciones técnicas y no técnicas. No es raro que un Científico de Datos trabaje con desarrolladores, diseñadores, especialistas en productos, analistas de datos, equipos de ventas y marketing, y ejecutivos de alto nivel, por no hablar de los clientes. Así que en tu respuesta a esta pregunta, tienes que demostrar que eres un jugador de equipo que disfruta de la oportunidad de conocer y colaborar con personas de toda la organización. Elige un ejemplo de una situación en la que hayas informado a las personas de más alto nivel de una empresa para demostrar no sólo que te sientes cómodo comunicándote con cualquiera, sino también para mostrar lo valiosas que han sido tus ideas basadas en datos en el pasado.

  • ¿Puedes contarme algún momento en el que hayas demostrado tu capacidad de liderazgo en el trabajo?
  • ¿Cómo resuelves los conflictos?
  • ¿Cómo prefieres establecer una relación con los demás?
  • Habla de una presentación exitosa que hayas hecho y por qué crees que salió bien.
  • ¿Cómo explicarías un problema técnico complicado a un colega/cliente con menos conocimientos técnicos?
  • Describe una ocasión en la que hayas tenido que tener cuidado al hablar de información sensible. ¿Cómo lo hiciste?
  • Valora tus habilidades de comunicación en una escala del 1 al 10. Da ejemplos de experiencias que demuestren que la calificación es correcta.

Lista de preguntas de la entrevista sobre la data science: Comportamiento

Con las preguntas de la entrevista conductual, los empleadores buscan situaciones específicas que muestren ciertas habilidades.
El entrevistador quiere saber cómo te has enfrentado a situaciones en el pasado, qué has aprendido y qué puedes aportar a su empresa.

Algunos ejemplos de preguntas de comportamiento en una entrevista de ciencia de datos son:

Cuéntame una ocasión en la que hayas tenido que limpiar y organizar un gran conjunto de datos.

Los estudios han demostrado que los científicos de datos dedican la mayor parte de su tiempo a la preparación de los datos, a diferencia de la minería de datos o el modelado. Así que si tienes alguna experiencia como Científico de Datos, es casi seguro que tienes experiencia en la limpieza y organización de un gran conjunto de datos. También es cierto que se trata de una tarea que pocas personas disfrutan realmente. Pero la limpieza de datos es también uno de los pasos más importantes para cualquier empresa. Así que deberías llevar al director de contratación a través del proceso que sigues en la preparación de los datos: eliminación de observaciones duplicadas, corrección de errores estructurales, filtrado de valores atípicos, tratamiento de los datos que faltan y validación de los datos.

  • Cuéntame un proyecto de datos en el que hayas trabajado y en el que te hayas encontrado con un problema difícil. ¿Cómo respondiste?
  • ¿Has ido más allá del deber? Si es así, ¿cómo?
  • Cuéntame alguna vez que hayas fracasado y qué has aprendido de ello.
  • ¿Cómo has utilizado los datos para elevar la experiencia de un cliente o parte interesada?
  • Pon un ejemplo de un objetivo que hayas alcanzado y cuéntame cómo lo lograste.
  • Proporciona un ejemplo de un objetivo que no hayas alcanzado y cómo lo has manejado.
  • ¿Cómo gestionaste el cumplimiento de un plazo ajustado?
  • Cuéntame una ocasión en la que hayas resuelto un conflicto.

Lista de preguntas de entrevistas sobre ciencia de datos de las principales empresas (Amazon, Google, Facebook, Microsoft)

Para que te hagas una idea de otras preguntas que pueden surgir en una entrevista, hemos recopilado una lista de preguntas de entrevistas de ciencia de datos de algunas de las principales empresas tecnológicas.

  • ¿Cuál es la diferencia entre la regresión logística y las máquinas de vectores de apoyo? ¿Cuál es un ejemplo de una situación en la que utilizarías una sobre la otra?
  • ¿Cuál es la interpretación del área bajo la curva ROC como una integral?
  • Un disco está girando en un husillo y no sabes en qué dirección está girando el disco. Se te proporciona un conjunto de clavijas. ¿Cómo vas a utilizar las clavijas para describir en qué sentido está girando el disco?
  • ¿Qué harías si la eliminación de los valores perdidos de un conjunto de datos provoca un sesgo?
  • ¿Qué tipo de métricas querrías tener en cuenta al resolver preguntas sobre la salud, el crecimiento o el compromiso de un producto?
  • ¿Qué métricas evaluarías al tratar de resolver problemas empresariales relacionados con nuestro producto?
  • ¿Cómo sabrías si un producto está funcionando bien o no?
  • ¿Cómo detectas si una nueva observación es un valor atípico? ¿Qué es el equilibrio entre sesgo y varianza?
  • Discute cómo seleccionar aleatoriamente una muestra de la población de usuarios de un producto.
  • Explica los pasos para el tratamiento y la limpieza de los datos antes de aplicar los algoritmos de aprendizaje automático.
  • ¿Cómo tratarías la clasificación binaria desequilibrada?
  • ¿Cuál es la diferencia entre una buena y una mala visualización de datos?
  • ¿Cómo encuentras los percentiles? Escribe el código para ello.
  • Crea una función que compruebe si una palabra es un palíndromo.