Saltar al contenido

3 leyes matemáticas para aprender en ciencia de datos

3 leyes matemáticas para aprender en ciencia de datos

Un científico de datos necesita conocimientos en programación y tecnología en el día a día de su profesión. Pero las matemáticas en la ciencia de datos también tienen su importancia y un profesional en el campo debe conocer algunos conceptos.

Por tanto, explicaremos cuáles son las tres leyes matemáticas esenciales que un científico de datos debe conocer para trabajar en el área. ¡Síganos!

¿Qué importancia tienen las matemáticas para la ciencia de datos?

La ciencia de datos se basa en varios conceptos y normas matemáticos. Un científico de datos necesitará conocimientos de teorías estadísticas y probabilidades para realizar el análisis correcto y comprender los datos que se están estudiando.

También se puede decir que el éxito de un científico de datos radica precisamente en su capacidad para utilizar el conocimiento matemático en el análisis de datos.

Si bien las matemáticas no son el único conocimiento necesario para ser un científico de datos, sin duda es uno de los más importantes y necesarios.

Conozca las principales leyes matemáticas en ciencia de datos.

Hay muchas leyes matemáticas que se utilizan en la ciencia de datos, especialmente aquellas que involucran estadísticas y probabilidades.

Sin embargo, hemos elegido entre las tres leyes matemáticas que todo científico de datos debe conocer.

Ley de Benford

La ley de Benford o ley del primer dígito, como también se la conoce, es una de las leyes matemáticas útiles en el trabajo de un científico de datos. La ley establece la probabilidad de que aparezcan colecciones de números.

Las primeras ideas de la ley las hizo el astrónomo canadiense Simon Newcomb, también en 1881. Mientras leía un libro de logaritmos, se dio cuenta de que las primeras hojas estaban más gastadas que las otras. La «coincidencia» también ocurrió en otro tipo de libros.

Sin embargo, la ley solo se hizo popular después de los estudios del físico estadounidense Frank Benford en 1938, quien revisó las teorías de Simon. Precisamente por eso la ley recibió el apellido de Frank.

Benford analizó 20 contextos diferentes y encontró la misma «coincidencia». Encontró que había un patrón en números como el tamaño de la población, la mortalidad, la longitud del río, entre otros.

Según los resultados de Benford, se formuló la ley del primer dígito. La ley dice que la posibilidad de que el primer dígito de un número sea uno es mayor que la posibilidad de que sea dos, y así sucesivamente.

La ley también tiene una tabla que muestra la frecuencia de los 9 dígitos. Según la tabla, el número 1 tiene un 30% de probabilidad de ser el primer dígito de un número, mientras que la probabilidad del 2 es del 17,6%.

El porcentaje disminuye progresivamente hasta el dígito 9, que tiene solo un 4,6% de probabilidad de ser el primer dígito.

La ley de Benford se puede utilizar para descubrir fraudes contables, datos electorales o para calcular indicadores económicos.

Varias iniciativas, de hecho, han utilizado la ley del primer dígito para verificar la veracidad de los datos sobre la evolución de la pandemia en Brasil y en el mundo.

Ley de los grandes números

Ley de los grandes números

La ley de los grandes números (LGN) es el teorema fundamental de las teorías de probabilidad. La ley describe que cuando ejecuta repetidamente un experimento, más se acerca al resultado esperado.

Fue propuesto por primera vez por el matemático italiano Girolamo Cardano (1501-1567), sin embargo, en ese momento no presentaba pruebas convincentes. Solo años después, el matemático suizo Jakob Bernoulli (1654-1705) pudo demostrar la veracidad de la teoría.

Como se dijo al principio del argumento, de acuerdo con la ley de los grandes números, al analizar repetidamente una variable X es posible acercarse cada vez más a su valor esperado.

Puede parecer un poco confuso al principio, pero con un ejemplo, las cosas son más comprensibles.

Entonces, podemos usar el ejemplo de una moneda lanzada. Hay dos posibilidades, cara o cruz, lo que significa que ambas variables tienen un valor esperado del 50%. Sin embargo, al principio las reproducciones no siempre muestran esta proporción.

Los resultados de los movimientos se pueden repetir durante unos pocos intentos, por ejemplo, una corona puede aparecer en cuatro de cada cinco movimientos consecutivos. Por lo tanto, la proporción se desvía significativamente del valor esperado, siendo 75% para la corona.

Pero, considerando la ley de los grandes números, si la repetimos varias veces y tomamos el promedio, se acercará al valor esperado.

Los científicos de datos pueden utilizar la ley de los grandes números para realizar cálculos financieros, demográficos y de inteligencia artificial.

Ley zipf

Ley Zipf_

Otra de las leyes matemáticas en la ciencia de datos es la ley de Zipf. Lleva el nombre del lingüista estadounidense George Kingsley Zipf.

Aunque no afirmó haberlo creado, fue el responsable de divulgarlo y dar explicaciones al respecto.

La ley de Zipf es una ley de potencia sobre la distribución de valores basada en el número de orden en una lista.

En términos simples, la ley dice que el segundo elemento de una lista se repetirá aproximadamente con una frecuencia que corresponde a la mitad del primero, a su vez el tercero se repetirá con un tercio de la frecuencia del primero, y así sucesivamente.

Zipf realizó sus estudios analizando la obra literaria de James Joyce “Ulysses” (gráfico superior), contando y ordenando las palabras del libro por frecuencia.

Los resultados mostraron que la palabra más común apareció 8000 veces, ya la décima, 800 veces y la milésima solo 8 veces.

Con la ley de Zipf fue posible definir la palabra más común en el idioma inglés, el artículo “the”.

Pero mucho más allá de simplemente demostrar las palabras más utilizadas, la ley se puede utilizar en ciencia de datos, por ejemplo, para realizar análisis de sentimientos en redes sociales, clasificación de textos, y también es bastante común en indicadores demográficos.

Conclusión

Como puede ver, las leyes matemáticas en la ciencia de datos juegan un papel vital y pueden usarse en varios análisis de datos.

Entre los muchos, podemos citar Benford Laws, Great Numbers y Zipf como los más importantes para el trabajo del científico de datos. Conocerlos es de suma importancia para estos profesionales.

Así como es importante conocer las leyes matemáticas en la ciencia de datos, el conocimiento de los conceptos de programación también es esencial para un científico de datos.

Haga clic aquí e inicie sesión en Manual de lógica de programación y aprenda todo sobre la creación de secuencias lógicas que le ayudarán a programar.