[0:00]Muy buenas, les habla el profesor Julio, bienvenidos a nuestro laboratorio 6. Inicialmente vamos a ingresar a nuestro a nuestro Chrome, a nuestro Google, vamos a escribir GitHub. GitHub, Julio Hurtado, es JSEFERINO, y aquí en estadística inferencial vas a buscar dónde dice Laboratorio 6. Es nuestro Laboratorio 6, lo abres, lo despliegas y qué vas a hacer? Eh, lo que ya estamos acostumbrados, ¿verdad? Vienes aquí, una vez abierto, eh, abres el Colab. Ese es tu Colab y inmediatamente, eh, lo que haces es que, eh, guardas una copia en Drive. Y esa copia en Drive es la que tú vas a llamar tu Laboratorio 6, ¿okay? Mira, ahí se abrió la copia. Eh, le pones aquí el nombre, Laboratorio 6, le colocas tu nombre, ¿okay? Bien, ¿qué tenemos aquí? Simplemente Laboratorio 6, un viaje por Python, por Python y le quitas esta expresión, usando Colab. Después, usando Colab, ¿okay? Parte 1, realizado por Julio Hurtado. O sea, este, el laboratorio tiene dos partes. Qué hay, simplemente algo acerca de la estadística descriptiva con Python, usando Colab, exploración de datos. Recuerdan que las herramientas que se están usando son estas que aparecen aquí, que son Python, Pandas, NumPy, Matplotlib y Seaborn, o sea, que aquí hay una descripción de cada una. Entonces, estos son tus datos. Estos son tus datos. Aquí tenemos los datos con los cuales venimos trabajando. Eh, les hemos llamado así. Esto es lo que nosotros llamamos un, eh, un diccionario, ¿verdad? Esto es un diccionario donde eh, bueno, de etiquetas. Entonces, aquí hablamos, corremos nuestros datos. Mira, aquí están los datos, nuestra variable se llama Curso, Asistencia, Programa, Edad, Urbano, Peso, Estatura, Transporte, Sexo, Estrato, Grupo Sanguíneo. Estos son los datos y los datos los hemos llamado así, DF, ¿verdad? DF se llaman nuestros datos. Y así le hemos colocado, ¿okay? Si yo quiero visualizar mis datos, entonces simplemente muestro aquí, mira, ya se me muestran los datos. Cuando tú haces DF se te muestra, digamos, que, eh, como si tú tuvieras tus datos en, en filas y columnas, ¿verdad? Aquí aparecen las variables que estamos trabajando, ¿okay? Aquí me está diciendo que tengo un total de 76, eh, filas, filas, mira que va de 0 a 75, hay 76, y hay 11 variables, o sea, 11 columnas. 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11. Podría tener muchísimas más columnas, como muchísimas más filas. Cuando yo escribo aquí, eh, eh, DF.head, entonces me está mostrando, eh, los primeros 5. O sea, aquí, si quiero que me muestre las primeras 10, entonces tú escribes así. Perdón, aquí. ¿Ves? y corres. Vamos a quitarle aquí, simplemente colocamos el 10 y corremos. Y ya tenemos ahí, eh, nuestras primeras 10, ¿okay? Bien. ¿Qué te parezcan las 10? Escribe tú las 10 en tu, en tu Drive. Eh, con la, con la opción de DF.tail, recuerda que DF son los datos, punto, punto, cuando tú escribes punto y agregas, eh, algo, es que quieres saber algo de los datos. Tail significa cola. O sea, te va a mostrar los 5 últimos de la cola. Si tú escribes aquí, eh, 10, entonces ya aquí tendrías, los datos 10 de la cola, los últimos 10 datos de la cola, ¿okay? Bueno, no quiero que me muestre eso, entonces esto tú llegas y me lo borras para, para no estar mostrando tantas cosas. Mira, los últimos 10 de la cola, ahí estarían los últimos 10 de la cola, muy bien. Hay unas cosas que llamamos atributos y métodos. Estos que escribimos entre, entre paréntesis, así, o sea, después del punto, lo que tú escribes aquí se llama método y cuando no le escribo el paréntesis se llaman atributos. Por ejemplo, fíjate, cuando tú escribes, voy a escribir punto.shape, pero no escribí paréntesis, esto es lo que llamamos nosotros un atributo de los datos. Qué me está diciendo eso? Cuando yo lo, lo corro, me está diciendo que tengo 76 filas y 11 columnas. Ves, el Index también me está diciendo que mis datos inician desde 0 y terminan en 76 y va de uno en uno. Mira, 66, 67, 68. Eso es lo que significa. Cuando tú escribes DF.columns, DF.columns, me, tiene que correrlo, te está mostrando cuáles son las columnas que están ahí, ¿okay? DF.dtypes. Entonces, aquí te está diciendo qué tipo son estos datos. Mira, eh, aquí tenemos un problemita con los datos. Fíjate que ya tú sabes que hay unos datos, aquí son de cualitativo, cuantitativo, cualitativo, cuantitativo, cualitativo, cuantitativo y él los está mostrando todos como cualitativos.
[5:08]Ahora vamos a decir cómo hacemos para que él no los muestre todo bien, ¿okay? Con el método .info, fíjate, ahora hablo método. Método, ¿qué significa? Que coloco .info y coloco un paréntesis. Esto también me va a decir qué tipo son los datos. Mira, me está diciendo que tengo 11 columnas, aquí están, del 0 al 10, tengo 11 columnas, no hay ningún dato que esté vacío, o sea, todas las casillas están, están llenas en los datos. No hay datos perdidos y todas las variables son tipo Objects. Objects, ¿okay? Cuando tú haces un resumen de los datos, el resumen de los datos es haciendo uso de, del método describe, ¿verdad? Describe. Ahí te está diciendo cuántos, eh, cuál es el describe de datos. Si tú escribes aquí, por ejemplo, voy a colocar aquí 5, describe 5, eh, bueno, ves que no tiene sentido que tú escribas ningún número ahí. Entonces, está describe. Aquí te está describiendo todas las variables. Te está diciendo cuántas hay, este es el valor que te está diciendo cuántas hay. Cuántos valores únicos hay. Mira, aquí en la primera variable solamente hay dos valores únicos, o sea, Estadística y Probabilidad. Aquí te está diciendo cuántos valores hay para cada una de las variables. Mira, aquí está, eh, el último, el último valor, el, la última observación de la variable Curso es Probabilidad. La última observación es 60 y así. Y ahí te está diciendo con qué frecuencia están todos estos valores. Muy bien. Ahora, ¿qué vamos a hacer? Como nosotros sabemos que tanto Asistencia como Edad y como Peso y Estatura son variables cuantitativas, de categoría a numérica, entonces, simplemente le voy a hacer el cambio. A ver, ¿por qué inicialmente ella me las presenta así? ¿Por qué yo les, eh, los configuré de tal manera que me los mostrara como objeto? Para que cuando se presentara eso en la vida real, tú supieras cómo cambiar, mira, con esto, con estas instrucciones lo que hacemos es que cambiamos el tipo a, digamos, variables numéricas. Int significa entero, entero 64, mira, ya aquí lo cambié, y ahora sí puedo darme cuenta, ves, puedo darme cuenta que otra vez me muestra las variables aquí y me está diciendo cuáles son de tipo cualitativa. Mira, Curso es cualitativa, Asistencia es numérica, Programa cualitativa. Ya con esto arreglamos el asunto, ¿de acuerdo? Miren. Y esa vez, fíjate. Mira, aquí, aquí cuando hicimos describe, describe me mostró, eh, estas variables. Ahora cuando escribo, digo describe, ahora sí me da el resumen de mis variables numéricas. Ya sabes que mis variables numéricas son esas. Aquí me está diciendo cuántos valores hay, quién es la media, quién es la desviación estándar, quién es el mínimo, quién es el percentil 1, 25, quién es el, la mediana, mira, el percentil 50, el percentil 75. O sea, te está haciendo un resumen de las variables numéricas, porque eso es lo que hay, ¿okay? Yo ahora, ¿qué voy a hacer? A mi conjunto de datos le voy a agregar una nueva variable. La nueva variable se llama Definitiva. Mira, Definitiva. Aquí están todos los datos. Definitiva. Ves. Estos son los datos que sacaron los muchachos en ese orden. Lo coloco aquí y simplemente le digo que lo agregue y ya me agregó mi variable Definitiva. ¿Okay? Muy bien, entonces, cuando esta es mi variable Definitiva, todavía no la he agregado, simplemente aquí la definí en el, en el, en la entrada del, del banner, ¿okay? Definitiva. De acuerdo. Entonces, ¿qué voy a hacer? La voy a agregar a mi conjunto de datos. ¿Cómo hago eso para agregarla al conjunto de datos? Fácil. Mira, a mi Data Frame DF, en, entre corchetes, voy a escribir el nombre de la variable doble comilla, entre doble comilla, y la defino Definitiva. Definitiva es aquí el nombre que le coloco, y esto lo que está diciendo es que voy a agregar esa columna. Y nuevamente llamo, lo llamo aquí. Mira, aquí me aparecen los datos, ahora sí. Si te das cuenta, mira, aquí está nuevamente, me dice, ahora tengo 76, pero tengo 12 columnas porque apareció la variable Definitiva, ¿de acuerdo? Muy bien. Si quiero hacer otra vez el resumen de los datos, miro, me aparece la variable Definitiva. Perfecto. Mira, aquí me está diciendo que el mínimo es 0, o sea, que hay un estudiante que tiene 0, un valor. Pero, y, y el máximo 4, 4.8. Pero, revisando las notas, me di cuenta, revisando las notas, me di cuenta, que ese muchacho, que ese muchacho, eh, que se le puso 0, que se le puso 0, en verdad no tenía 0, sino que su nota era 4.2. Entonces, voy a hacer el cambio. Mira, ¿cómo hago el cambio? En la variable Definitiva, o sea, en esta variable Definitiva, donde esté el valor 0. Fíjate que aquí, aquí yo tendría que saber en qué parte está el valor 0, ¿verdad? Tendría que saber mis datos. Bueno, pero ahora no, eh, y vamos a irnos de largo para mirarlo. Lo que voy a hacer es que el valor 0 está ahí. Mira, si te das cuenta aquí, el dato sería ese, ¿verdad? Eh, vamos a ver dónde estaría el 0, eh, la observación que tiene el valor 0. Este, que está aquí. ¡Epa! ¡Epa! Ese. Tendría que contar. Mira, 76, 75, 74, 73, 72, 71, 70, 69, 68, 67, 66, 65, 64, 63, 62. Entonces, yo podría hacer así. Mira, cojo este código, armo aquí un código y yo quiero, perdón, acá. Aquí no, pero aquí sí. Eh, en la variable Definitiva, voy a colocar el código aquí. En esta variable, en esta variable Definitiva, aquí.
[10:54]Quiero que, quiero que me muestre, mira, te voy a decir, muéstrame quién ocupa la posición 61, por ejemplo. Voy a decir, si, si lo escribes así, ah, mira, otra vez. La variable Definitiva me está diciendo que 0, 0 era, mira, el dato que está en la posición 61 es 0, 0. Muy bien. Y si yo lo hubiera dicho 62, si buscara aquí el 62 sería 4, 8, mira, pues si escribo aquí 62, sería 4, 8. Mira, sí, ahí, 4, 8, perfecto. Entonces, ¿qué vamos a hacer? Lo que voy a hacer es, como solamente hay un valor 0, ese valor lo voy a reemplazar por 4, 2. Mira, aquí ya listo. Hago. Y si quiero y vuelvo a preguntar aquí, si quiere y vuelve y pregunto aquí en, donde dice Código, Definitiva, yo, puedo copiar esto. Puedo copiar esto y simplemente coloco aquí el valor, coloco la posición 61 y le digo que me diga quién es el valor. Esa, ya me colocó la, me colocó el 4, 2. Muy bien. Luego, nuevamente, pido el, el, el que me dé el resumen y ya el resumen ya no me aparece como mínimo 0. Perfecto. Bien, muy bien. Esto lo voy a borrar. Miren, para que no les aparezca. Ya saben que cuando estén revisando sé que esa, eso no va a estar ahí, esa es la manera de control con que puedo controlar que vayan haciendo los datos. Quiero saber, fíjate, ahora yo puedo saber, es va, hablar de funciones. ¿Cómo es una función? Una función es simplemente aquí, le coloco lo que quiero de los datos. Qué datos y coloco entre, entre el paréntesis los datos. Mira, que tengo 76, el máximo número de filas es 75. El mínimo número de filas es 1, que aquí lo representa con 0. Ya, listo. Muy bien. Listo.
[12:47]Entonces, voy a borrar esto porque esto lo tengo aquí como control. Ya tú sabes que cuando vayas a hacer tu cosa, eso no debe aparecer. Porque, eh, estaría mirando que no lo estás haciendo tú, ¿okay? Bien. Entonces, fíjate, variable edad, revisando la variable edad, voy a recordar aquí en esta posición, cómo es que me llamo yo. Yo me llamo Julio Hurtado. Muy bien, Julio Hurtado. En esa posición, ya yo sé que en esa posición debe aparecer tu nombre cuando yo lo revise, ¿de acuerdo? Muy bien. Voy a trabajar la variable edad. Esta es mi variable edad. Entonces, fíjate lo que hicimos ahorita, mira. Voy a colocar mi variable edad, esta es mi edad actual, 55 años, ¿de acuerdo? Entonces, ¿qué voy a hacer? En esta posición, donde aparece 19, voy a colocar el valor 55. Mira, en la posición 0, voy a reemplazar, en la posición 0 el número 55. Ves, aquí está. La posición 0 es 19. Tengo 2 estudiantes de 19 años. Ahora voy a cambiarlo por mi edad. ¡Ah! Muy bien, voy a cambiarlo por mi edad. Luego, nuevamente, yo puedo decir, hombre, es mejor lo voy a cambiar por, eh, por la edad de 25. Entonces, aquí nuevamente lo puse, cambié 0. O sea, cuando yo sé una posición de un dato, si quiero reemplazarla por otro, simplemente llego y la reemplazo. Bueno, para que no haya problema, vuelvo otra vez y coloco mi posición 019, ¿okay? Muy bien. Aquí, eh, quiero que, quiero que me hagas en, eh, para verificar que es, que estás haciendo el ejercicio, coloca la edad de tu papá aquí, y después, ese es el cambio, ¿de acuerdo? Por 19. Muy bien. Fíjate, aquí puedo hablar de la variable Definitiva, sola. Puedo hacer el resumen solo de esa variable. Muy bien. Aquí también puedo decirle que me dé la media. Mi, simplemente, ¿cómo le pido la media, la mediana? Simplemente coloco los datos y pongo punto mediana. Ya, fácil. Entonces, la mediana del, de, de la variable es igual a 18, ¿okay? Así, así me lo está dando, ¿de acuerdo? Muy bien, eso es una manera de pedir. Lo mismo, si quiero pedir la, la media, lo mismo, si quiero pedir la moda. Lo que tengo que saber es cómo se llama el valor que se necesita. Si quiero la desviación estándar, aquí tendría la desviación estándar, aquí tendría el percentil 75. Y aquí tendría, entonces, mira, eh, el, el percentil 85. Quiero saber cuál es el percentil 36, entonces, eh, les digo aquí el percentil 36. Ah, mira, puse 336. Ajá, percentil 336. Ajá. Entonces, mira lo que voy a escribir aquí. Voy a escribir aquí percentil. Percentil y voy a escribir aquí el número que yo quiero. Voy a escribir, colocar 36.
[16:00]Entonces, aquí voy a colocar en lugar del 85, voy a colocar dos paréntesis y voy a colocar la expresión percentil. Control C. Control V. Y aquí voy a colocar una F, ¿okay? Una F, listo. Ajá. Y aquí, eh, el percentil 36, ajá, es, listo.
[16:38]Y aquí voy a colocar también percentil. Percentil. Vamos a ver si lo cambia. Le digo, listo. Ahora sí, mira, otra vez. Percentil 36. Dónde está la F. La F. Ah, es que la F tendría que terminar aquí. Quito aquí y aquí voy a colocar donde está el último, son las comillitas, ¿verdad? Ve, ahora sí. Es que aquí sí. Yo mejor voy a dejar aquí el percentil. Voy a quitar aquí este mejor para que usted se den cuenta. Mejor, voy, coloco aquí la doble comilla, cómo estaba. Y aquí, simplemente voy a colocar percentil.
[17:37]Quito aquí, quito aquí. Todo esto yo lo tengo que verificar, ¿okay? Que ustedes lo están haciendo. Me hizo falta aquí. Ah, y aquí me está sobrando esta comilla. Listo. Listo. Tú corriges, mira, el percentil, el percentil 36 es 18. Ah, ahí sí quedó bacano. Eh, si coloco aquí el percentil 50, recuerda que la la mediana es el percentil 50. Dónde está aquí la mediana por aquí. La mediana, eh, es. Ah, bueno, el Okay. Ahí está la moda, ahí está la desviación estándar. Dónde está la mediana arriba, ¿verdad? Mediana era 18, ¿verdad? 18. Entonces, voy a poner aquí percentil 50 y me voy a dar cuenta que es 18. Mira, el percentil 50 es 18.
[18:20]Bueno, con eso también puedo saber quiénes son los máximos y los mínimos de las edades, ¿de acuerdo? Perfecto. Todo esto pendiente. Nuevamente, mira aquí, ah, ¿qué voy a hacer? Miren lo que vamos a hacer. Eh, voy a construir esta tablita, una tablita aquí, donde me aparezcan todas las variables que yo quiero, ¿de acuerdo? Primero lo que haces es que instalamos esta partecita aquí. Bien. Aquí se instala. Ese, esa es la herramienta para construir la tabla, y aquí voy armando la tabla. TestTable. ¿Qué quiero que tenga la tabla? Que me diga quiénes son cada uno. El mínimo, el máximo, el cuartil 1, la mediana, la media, el percentil 3, y aquí describo el valor. Mira, el 25%, aquí me está diciendo para las variables son cada uno, y por, para la edad es tal parte. Bueno, en esta parte, miren, el, el laboratorio 6 va a terminar aquí, pero ustedes me le van a agregar una nueva, una nueva fila. Ustedes van a agregar fila 2, fila 3, fila 4, fila 5, fila 6. ¿Qué quiero que aparezca en la fila 6? Para que no haya problema, voy a pedir el percentil 36. Quiero que, que me aparezca aquí el percentil 36, una nueva fila con el percentil 36. O sea, construye tú algo así, como está de esta manera, pero que tenga el percentil 36. Ahí termina el Laboratorio 6. Bueno, muchachos, ya saben cómo es, tienen que compartirme el laboratorio y a la vez, tienes que, eh, mandarme el link del, del, del Colab, ¿verdad? ¿Okay? Todo por hoy. Gracias.



