Thumbnail for LLAMA CPP 🚀 Ahorra la MITAD de VRAM sin perder CALIDAD by Nichonauta

LLAMA CPP 🚀 Ahorra la MITAD de VRAM sin perder CALIDAD

Nichonauta

12m 47s1,984 words~10 min read
Auto-Generated

[0:01]Y esta atención rotativa es un turboquant mini, que si bien no es el turboquant completo, prácticamente tenemos el 100% de sus bondades, que es, por ejemplo, aquí con la KV cache a 8 bits, aún con ello, prácticamente la calidad completa del modelo. Vamos a ver, KV cache, atención rotativa, llama CPP, GPT USS 20B. No es esto. Esto tampoco. Le borraron el enlace. Lo hemos visto en el pasado, básicamente es casi mantener la calidad completa, ocupando la mitad la KV cache. Ah, bueno, otra cosa, podemos cuantizar el modelo a 4 bits y seguiría siendo bueno. Aquí está. ¿Para qué nos vamos a otro fork, a otro invento raro cuando aquí ya hay algo estilo TurboQuant? Vamos a revisar, por ejemplo, aquí, cuando apenas estaban en desarrollo, estaban haciendo unas comparativas con esa atención rotativa. Y vemos, por ejemplo, que el modelo GPT USS 20B, a precisión completa, daba una, una puntuación de 37.9. Ahí no hay atención rotativa porque eso es cuando se cuantiza la KV cache, o sea, la KV cache ya se podía cuantizar. La ventaja ahora es que mantenemos calidad. Muy bien. A Q8, la KV cache, ese modelo en ese benchmark disminuía su puntuación. Pues en Q8 con la atención rotativa que se activa automáticamente, aún en algo que se intenta que falle el modelo en un benchmark, pues está prácticamente igual, o sea, algo se reduce, sí. Aún en tareas muy complicadas, muy poco se reduce, con lo cual en el uso diario menos le notaríamos. Pero es que hay otra cosa. ¿Cuál es esa otra cosa? Me ocupa la mitad. Y no pierdo ni el 1% aún en tareas complicadas. Me ocupa la mitad la KV cache, la ventana de contexto, y no pierdo ni el 1% en tareas complicadas. Ahora, a 4 bits, ahí está muy interesante. Sí, con la atención rotativa no mantenemos la calidad como en el original, pero me ocupa una cuarta parte y pasamos de 2% a 21. Entonces, TurboQuant completo no está aquí, pero pues esto bastante bien, ocupándome la mitad, sin hacer nada, simplemente cuantizando la KV cache y ya en los modelos eh compatibles se activa automáticamente eso que estábamos mencionando. Okay, pero tal como decíamos, nos queda algo de GPU. Voy a eh actualizar. Y bueno, de momento, en el peor de los casos, sigue funcionando bastante bien eh en cuanto a velocidad, en el peor de los casos de precisión de GPU, de limitarle los W y de estar en directo. Eh, apoyen el canal, es muy buen contenido, muchas gracias. La subida de precios trae fama al canal. Jajaja. ¿Qué opinas de las ARC? El problema no es el hardware, el problema es el software. Si no, simplemente tienes un fierro conectado a tu PC que no puedes utilizar. Entonces, a pesar de que la gráfica sea buena, desgraciadamente casi todo lo de IA se hace nativamente para CUDA, para GPUs en Nvidia. Es en lo que son originalmente desarrollados, y lo que es en donde comúnmente se puede ejecutar de manera sencilla. En todo lo demás va a haber muchas cosas que no vas a poder ejecutar, y más si vas a más allá de modelos de lenguaje. Modelos de lenguaje quizás sea más o menos sencillo, pero generación de imágenes, vídeo, audio, va a ser más complicado. Entonces, aunque el hardware que no sea Nvidia, o sea, AMD o Intel, sea bueno, el problema no es el hardware, el problema es el software que hay para ese hardware. Buenas, buenas, Terricola, ¿qué tenemos hoy? Hola, hola, estamos eh, hemos tocado tres temas diferentes. Lo primero algo decepcionante, después OPUS 4.7 y ahora Qwen 3.6, cómo ejecutarlo, y después de ejecutarlo, pues probar su calidad. Nada mal esa velocidad. Así es, y eso que estamos en directo y con el modelo a 8 bits y bla, bla, bla. Y limitada la gráfica. Me confundí en una cosa, hay que descargar el Vision B16 que pesa 70 GB. Ninguna visión pesa eso. No, ninguna visión pesa eso. Pesan como 1 GB o algo así. Así es. Ningún encoder de visión pesa 70. Eh, y otra cosa, veo que te consume casi 50 GB de RAM. Si mi placa tiene 24 y solo eh tengo 32 GB de RAM, ¿correrá? Depende, a lo mejor en Q8 no, en Q4. Eh, solo fíjate en cuánto consume y de que lo tendrías que dividir entre ambos hardware. Pero ten en cuenta que en la RAM, tengas 32 o lo que tengas, también una parte es para tus programas abiertos. Si comúnmente abres muchas cosas, seguramente ya de por sí te ocupe mucha RAM. Pero pues en vez de a 8 bits, a 4, te ahorras buena parte, 38, 22. Y a lo mejor ni se nota la diferencia en calidad, a lo mejor. Entonces, otra cosa, recordemos, si el modelo lo estamos cargando a 8 bits, y si a 4 bits teóricamente es la mitad de 8, ¿qué significa que estuviéramos obteniendo mucha más velocidad? De por sí funciona bien, pero o sea, pudiéramos. Eh, se puede hacer una configuración como esa en OYama o YAMALM Studio, Han, todos en el fondo utilizan llama CPP, pero una versión menos actualizada y menos configurable. Lo que te recomiendo es usar llama CPP. Te recomiendo ver los videos recientes del canal. Hay uno reciente de hace como 10 días en el que se habla de cómo hacer funcionar llama CPP, y listo. En el server de mi empresa tenemos dos 4090 de 24 GB, espero que con lo que te aprenda a sacarle mucho provecho. Oh, genial. Hola, vengo tarde, ya salieron los modelos de Qwen 3.6, el 35B. Hola, Juan, una pregunta, ¿este modelo que estás probando podría ejecutarse en una RTX 5070 12 GB, 5070 32 GB de DDR5 de RAM y Ryzen 9? A 4 bits seguramente sí te quepa. En 8 bits no. Vas a estar muy justo, pero a 4 bits sí. ¿Qué modelo estamos probando ahorita? Qwen 3.6, 35B a 3B. Nicho, hay un SMDP de 5, ¿cuál sería la diferencia con el razonamiento por defecto? Que no es una cadena de razonamiento dentro de unas etiquetas y después la respuesta, sino que es cadena de razonamiento y respuesta que forman a su vez otra gran cadena de razonamiento. Es darle más vuelta a lo mismo. No estoy seguro de que mejore tanto la calidad. En LM Studio se puede correr, pero la diferencia con OYama es que es más configurable y se puede dividir. También en LM Studio. De hecho, LM Studio es más configurable que OYama. LM Studio es mucho más configurable que OYama. Tiene más de todos los parámetros que estamos ejecutando. Por ejemplo, puedes hacerlo de CMoE y ese tipo de cosas fácilmente. OYama casi no permite ni desde variables de entorno ni desde Model File. Muy bien, si con estos parámetros de por sí, simplemente habiendo escrito esto, ya logramos algo interesante. Repito, RTX 3060 12 GB. Prácticamente la más gama baja de la generación antepasada de Nvidia. Solo hay una más gama baja que es la 3050. De la generación antepasada de Nvidia. No la actual, no la pasada, la antepasada, prácticamente la más gama baja. Que funciona a 170 W de forma nativa, yo la limité hasta 100 W. No significa que siempre consuma eso, significa que es el máximo que puede consumir. Para eso, dentro de nichonauta.com, tenemos un script gratuito que pueden descargar. Pero ya está. Lo limitamos hasta 100 W, con lo cual teóricamente estamos perdiendo algo de velocidad por eso. Además, con RAM DDR4, y no un procesador muy bueno, es un Ryzen 5 5600G. No está mal, pero no es el mejor. La GPU conectada a un puerto PCI Express 3.0, no 4.0, y además en directo. Con todo esto negativo, de por sí está funcionando bien, ¿cierto? Pues ahora, si en vez de escribir este comando, escribimos este otro. Para nosotros indicar cuántos expertos completos queremos pasar a RAM. Ojo, aquí el número entre más alto, más están en RAM. Entre más bajo, más están en GPU. Ahora, ¿qué número? Pues bonita pregunta, ¿no? Eh, para ello, lo primero que quizás pudiéramos revisar es esto. No vamos a pasar 100% un número determinado de expertos, sino capas completas con sus expertos completos. Entonces, si el total aquí es 41 para que todo esté en CPU y RAM, todos los expertos, esto era lo mismo que poner esto. Pues entonces, en vez de intentar pasar todo eso a RAM, vamos a probar con 40, por ejemplo. Para tratar de que un cachito se venga a GPU, una cantidad de expertos. En este caso, al ser una GPU de 12 GB y con el modelo en Q8 y también eh en vez de en Q4, y con el encoder de visión y con toda la ventana de contexto, pues no nos queda mucho margen para maniobrar, de por sí ya funcionaba bien. Pero bueno, a ver, pasando un cachito más a GPU, una parte de los expertos. Aquí pues voy a ir de poquito en poquito porque no es como que me quede mucha VRAM libre. Mientras leo, donde trabajo compraron Cloud Code. No se compra Cloud Code, se paga una suscripción, pero de por sí Cloud Code es gratis el descargarlo. Más bien es para una cuenta de Cloud. Es como un senior, pero hay que crear una hoja guía y como requisito para grandes proyectos ser un senior para poder explicarle bien y entender qué hace. Así es. Eh, lo que sucede con la IA es que para que funcione bien, tienes que saber qué pedirle. Si estás tratando de trabajar con la IA en algo en lo que tú no sabes, pues de por sí va a funcionar mal, ¿no? Eh, con lo cual, sí, eh está muy bien. Cuando sabes cómo le tienes que pedir las cosas, de acuerdo a lo que estés haciendo. Pues aquí yo no noté prácticamente nada de diferencia, así que vamos a volver a cambiar. ¿Has probado Namatron 3 Nano 4B? Sí, principalmente para inglés y matemáticas está bien, para lo demás no tanto. ¿Por qué motivo limitaste los 100 W? Básicamente porque casi mantenemos exactamente igual la velocidad en cuanto a IA. En videojuegos sí se nota la diferencia. Pero en IA se nota no se nota casi nada. Casi no pierdes nada de velocidad. Lo que sí es que disminuyes tu factura de luz y la temperatura. Disminuyes muchísimo la temperatura. Y dado que yo las GPUs las tengo 25 horas al día trabajando. O sea, siempre están encendidas y a todo lo que dan. Y además, quiero aún más, hasta me falta hardware. Eh, por ello es que las limito. Eh, no pierdo casi nada de velocidad. Me consumen mucho menos y se calientan mucho menos. Para no degradar la GPU. Así es. Los modelos en llama CPP se pueden usar con Open Code para programar. Sí, en Open Code y en donde quieras. Perfectamente se pueden, aquí lo vamos a hacer. Eh, muy bien. Entonces, pues casi no notamos diferencia, así que podemos mejorar más ese valor. Eh, voy a disminuir a 35, pero creo que ya nos vamos a pasar, a lo mejor ya va a dar hasta error. Es que tenemos poco margen de cargar más en GPU, en este caso en concreto. Y y oh, cupo en cuanto a apenas. Ahora, esto no es 100% recomendado. Vamos a ver por ciertas cosas, pero ahí estoy tratando de aprovechar al máximo la GPU. Eh, ya veo, interesante. Hay avances en utilizar GPU integradas para cargar algo como expertos. Mmm, el problema de las GPUs integradas es que de por sí sigue haciendo la misma RAM. Con lo cual no es que haya cierto avance o no.

Need another transcript?

Paste any YouTube URL to get a clean transcript in seconds.

Get a Transcript