[0:00]Gemini vient de sortir une master class et j'ai couplé ça à Claude pour faire des véritables systèmes rag. Et dans cette vidéo, je vais tout expliquer qu'est-ce qu'un rag, qu'est-ce que l'embedding, comment faire de tels systèmes. Donc si tu restes jusqu'à la fin, tu sauras faire tes propres systèmes rag de A à Z. Donc concrètement, tu sauras créer une IA qui va travailler sur tes données internes pour faire des supports techniques et bien plus encore. Bon, avant de commencer, moi c'est Aben Imran, j'ai fondé Velios AI, une agence où on va implémenter l'IA directement au sein des entreprises. En parallèle, j'ai fondé Aura Académie, euh donc justement c'est une académie où on va apprendre aux personnes à faire des infrastructures IA et toutes les compétences nécessaires pour en faire. OK ? Ici du coup, on va parler IA. Euh donc si tu es intéressé par ce genre de sujet et ce monde-là, je t'invite à t'abonner et si c'est fait, on commence tout de suite. OK, super. Là on va rentrer directement dans le vif du sujet. Donc là tu le vois, je t'ai fait une petite roadmap hein, jusqu'à la création de ton premier système rag. Avant tout, je te rassure, on va prendre le temps, je vais poser le contexte pas à pas pour que tu puisses comprendre tous les enjeux d'un tel système. Bon, euh concrètement déjà, qu'est-ce que le rag ? Euh le rag en une phrase, c'est juste le fait d'avoir une IA qui va travailler sur les données internes. Donc ça peut être des données personnelles, des données sociétales, d'entreprise, et cetera. OK ? Et du coup, c'est très puissant parce que justement, ça va créer des IA spécialisées sur les domaines précis. Euh et ça euh c'est des choses qu'on ne peut pas faire avec ChatGPT ou avec Mistral ou Claude. Donc c'est pour ça que le rag, c'est vraiment un enjeu majeur sur la machine IA en 2026. OK ? Bon, euh cette image qui vient de 24pm.com est très intéressante parce que en fait, on voit vraiment la pipeline complète d'une recherche d'information, d'accord ? Donc tu vois qu'au début, on a le prompt, donc c'est la demande que tu vas faire à ton IA spécialisée, qui va être qui va interroger une base de données vectorielle, qui va elle-même interroger du coup, une base de données interne. Donc justement les données sur lequel tu veux que ton IA soit spécialisée. Enfin du coup, tu auras un LLM qui va générer la réponse. OK ? Pour ceux qui ne savent pas, un LLM, c'est tout simplement une IA générative comme le serait Claude, euh chat GPT ou encore Gemini. OK ? Euh je vais te montrer un exemple concret de d'un cas client qu'on a pu faire dans notre agence. Donc là, typiquement, tu vois, on a un chatbot interne, OK, donc destiné au notaire, hein, pour te passer un peu de contexte, c'était une tâche assez chronophage. Donc en l'occurrence, ce notaire recevait beaucoup de dossiers de divorce, euh sachant que c'est plusieurs dizaines de pages, plusieurs dizaines de minutes de traitement. Et c'est souvent du coup, des euh les mêmes questions que doit extraire le notaire. Donc justement, on a créé du coup, une IA rag. On va implémenter justement les dossiers divorce. Comme ça, justement, le notaire pourra directement interroger ces dossiers pour aller beaucoup plus vite au niveau du traitement et justement du coup euh traiter beaucoup plus de dossiers divorce et faire un peu plus d'argent. OK ? Euh par exemple, si je prends le dossier numéro 7 ou 6, qui est entre Jean-Pierre et Sophie, Je vais savoir s'il y a un bien immobilier entre eux. Donc le dossier divorce, on voit que ils ont pas de bien en commun, donc c'est parfait. Est-ce qu'ils ont des enfants du coup en commun et comment se passe la garde ? La garde des enfants du coup est alternée, parfait. Quels sont les droits de partage ? Donc là, on voit que directement, l'IA va interroger le dossier divorce sans même que le notaire ait à le traverser et le lire. Euh donc là, on voit qu'il y a 0 droit de partage. Si on fait un autre dossier, le dossier, par exemple, allez, 9. Je te rassure, hein, là, ce sont des données anonymisées, j'ai fait de la data augmentation pour cette vidéo. Allez, est-ce qu'ils ont un bien immobilier eux en commun ? Donc là, on voit que eux, ils ont un bien à Nantes d'une valeur de 280 000 euros. Est-ce que quel est leur régime matrimonial ? OK, donc là on voit que c'est la séparation des biens. Donc c'est des informations assez techniques, propres aux notaires. Je pense que les notaires se reconnaîtront. Euh mais c'est vraiment une application concrète euh du rag. OK, je pense que maintenant tu as bien compris ce qu'est le rag. Maintenant, il faut que tu comprennes qu'est-ce que l'embedding et son rôle dans un tel système. Bon, en une seule phrase, l'embedding model, c'est justement un modèle en fait qui va traduire du coup, tes inputs en coordonnées mathématiques. Mais tu me diras pourquoi en fait, traduire des mots en coordonnées mathématiques ? C'est tout simplement parce qu'une IA n'a pas tes tes capacités de discernement. Je m'explique. Euh si maintenant, je te dis euh je sais pas, loup, chien, chat, euh écureuil, tu sais que ces mots sont assimilés du coup aux animaux. Donc au niveau du sens, tu comprends directement ça. Mais l'IA n'a pas cette capacité de discernement. Donc pour créer justement des clusters, des amats de mots, ce que va faire l'IA, c'est qu'elle va du coup traduire les mots en coordonnées. Donc par exemple, je te dis une bêtise, mais euh le mot loup, il va être entre -1 et 1, et le mot chien entre -1 et -2. Donc ils seront très proches. Donc on sait que au niveau du sens, c'est proche. Et du coup, c'est comme ça que justement on va créer une base de données vectorielle. Donc on va vectoriser les mots mathématiquement, c'est tout simplement ça, pour que l'IA puisse euh comprenne euh comprenne les mots, les audios, les visuels, tout simplement.
[5:17]OK, maintenant passons justement à la présentation du modèle qui est juste extraordinaire. Donc le modèle d'embedding 2 de Google. Allez, on va aller directement dessus. Euh du coup, qu'est-ce que c'est en fait ? C'est justement un modèle d'embedding, hein, qui va traduire justement les inputs euh en base de données vectorielle. Là, tu le vois très bien, hein. Euh donc il prend des inputs. Donc du coup, justement, ce qui est bien, c'est que c'est un modèle multimodal. Donc il prend un c'est un modèle qui prend plusieurs types de données en entrée. Donc du texte, euh des images, des vidéos, des audios, des documents, et cetera. Et du coup, ça va traduire directement ça dans une base de données vectorielle et c'est franchement très puissant. Euh c'est leur meilleur modèle, hein, c'est même au niveau des benchmarks, hein, tu vois que c'est vraiment le meilleur modèle au niveau de tout. Donc texte ou texte, texte ou image. Euh il surpasse son prédécesseur, donc qui est justement ici. Même au niveau des meilleurs modèles, hein, d'embedding, hein, comme par exemple, Amazon Nova 2 qui a qui a longtemps été considéré comme le meilleur modèle d'embedding, il est il vraiment il le surpasse partout. OK ? Euh ce qui est bien, c'est qu'en fait, par exemple, quand tu auras un audio, euh les autres modèles, ce que faisait avant, c'est qu'en fait, il prenait l'audio, il le traduisait en mots, Et du coup, ça mettait dans la base de données vectorielle. Mais là, ce qu'on aura, c'est que directement l'audio va être traduit dans une base de données vectorielle et on va pouvoir comprendre du coup, les ponctuations, les virgules, le sens des mots. Euh donc c'est vraiment un détail, par exemple, qui fait que ce modèle d'embedding est vraiment très très très puissant. OK ? Allez, super, on est vraiment arrivé du coup euh à l'apprentissage de ton premier rag. Donc là, je t'ai fait un petit kit de survie. Donc c'est vraiment tous les éléments que dont tu auras besoin pour que tu puisses faire du coup la vidéo comme moi, donc suivre cette vidéo en bout de du forme et faire ton premier rag. Donc ce qu'il te faut du coup, c'est VS Code. VS Code, qu'est-ce que c'est du coup ? C'est justement un IDE. C'est juste un IDE en fait, donc un environnement de codage, on va dire pour être très simple. C'est là où tu vas héberger ton code. Euh donc c'est gratuit, c'est une application que tu peux mettre sur Mac, Windows et cetera. Donc il te faudra ça parce que c'est là où on va euh héberger le code, on va dire, on va travailler le code dessus. Ensuite, ce qu'il te faut, c'est Claude Code. Donc Claude Code, qu'est-ce que c'est ? C'est un agent, un agent de codage, hein, le plus puissant actuellement. Il est il est juste insane. Donc on va l'implémenter euh en extension dans VS Code. Donc tu en auras besoin. Ça, c'est payant, ça coûte 20 € par an, minimum. Euh mais c'est très puissant. Il te faudra du coup aussi plusieurs choses, donc une clé API LLM, donc une clé API IA. Donc ça peut être Anthropic, ça peut être Gemini, ça peut être Open AI. Dans mon exemple, ce sera Open AI. Il te faudra l'URL de la documentation qu'on va implémenter à Claude Code justement. Euh donc la doc API de l'embedding 2. Donc euh il te faudra ça. Il te faudra une clé API Pinecone. Pinecone, qu'est-ce que c'est ? Ce sera justement la base vectorielle. Donc euh où on va stocker justement euh ces coordonnées qu'on a dit juste avant.
[8:08]OK ? Donc tu tu retrouveras du coup toutes ces ressources en fait les liens en zéro sources dans la description. Euh pour que tu puisses directement attaquer euh cette vidéo. Donc je te laisse les prendre, installer tout ça et revenir de suite. OK. Normalement du coup, si tu as bien suivi les étapes, tu arrives sur VS Code. Donc on va créer un nouveau fichier, on va l'appeler du coup euh je l'appelais euh rag à supprimer, comme ça, je saurai que je je supprime après la vidéo. OK, donc tu crées un fichier, tu crées un dossier plutôt. Tu l'ouvres. Directement ce que tu vas faire, c'est que tu vas dans extension. Tu ouvres Claude Code. OK, donc comme ceci et un, excuse-moi. Donc du coup tu appuies ici plutôt, excuse-moi. Tu ouvres l'extension Claude Code et du coup là on est bon. Donc du coup tu as ton fichier ici, tu as ton agent de codage qui est Claude Code qui est juste ici. Et là on peut supprimer du coup l'agent natif de euh VS Code et là du coup, tu es prêt pour y aller. Et du coup, on commence tout de suite. Du coup, je vais créer un système rag. Donc je vais créer un support technique, hein, pour l'aéronautique. Euh j'aimerais utiliser du coup euh l'embedding 2 de Gemini. Euh on peut commencer tout de suite. Donc là, je l'envoie ce petit euh ce petit prompt. OK, donc là, je vais lui dire ce que je vais faire. Donc en l'occurrence, je vais créer un système rag. Dans la vidéo, du coup, on va créer un support technique d'aviation, OK. Donc pour cela, je vais utiliser du coup le modèle d'embedding 2 de Google et je te passerai toutes les informations. Donc là, je lui passe le contexte. Ensuite, OK, ensuite, du coup, tu récupères ce document du coup, c'est l'un pas de la documentation officielle de modèle du d'embedding 2, d'accord ? Donc tu mets tout simplement copier, coller. Sur euh sur Claude du coup et il va directement tout comprendre. Donc là, voici la doc officielle du modèle d'embedding 2 de Gemini. OK. Donc là l'idée, c'est vraiment passer le contexte à Claude pour qu'il comprenne bien comment il va s'y prendre au niveau de l'embedding. OK, donc là il va accéder du coup au fichier. OK, donc là il a bien analysé le fichier, il m'a bien dit que c'est le modèle d'embedding 2 preview, qui il est multimodal. Donc texte, image, vidéo, PDF. Euh qu'il a la limite de token d'entrée de 8192 max. OK, et que du coup, on peut commencer tout de suite. Donc là, ce qu'on va faire, on va du coup lui implémenter du coup le document d'entraînement, tout simplement. Et toutes les informations que je t'ai dit du coup dans le kit de survie. Donc à savoir la clé API Open AI pour mon cas, la clé API Pinecone, euh la clé API Gemini et normalement, on est tout bon. OK, donc là, on est directement sur Pinecone. Danteo. Donc pour rappel, c'est tout simplement la base de données vectorielle sur lequel on va on va stocker justement nos coordonnées. On va sur clé API. On va en créer une nouvelle du coup pour euh Donc je vais mettre un rag à supprimer, les clé API. On va l'appeler, ah, c'est pas grave. OK, donc là, on l'a créé. On la récupère et on continue. OK, du coup, pareil, on va sur Open AI, donc la plateforme d'API. On va dans clé API et on va du coup directement récupérer du coup une nouvelle clé. Donc là, on met un rag à supprimer, clé secrète.
[11:41]On la récupère et on continue. Du coup, là on est sur Google AI Studio. Donc tu retrouveras tous ces liens d'ailleurs dans la description, dans la ressource de la vidéo. Tu vas sur Get API Keys. OK, donc là, normalement du coup, tu as toutes les infos nécessaires euh pour commencer. Donc du coup, tu as la clé API Gemini pour justement travailler sur l'embedding 2. Tu as du coup, Open AI euh qui va te servir à générer les réponses via le LLM. Tu as normalement aussi récolté l'API de Pinecone euh qui va te servir justement à gérer la base de données vectorielle. Euh et si on prend notre kit de survie, OK, donc là, on se rend compte qu'on a vraiment tout. On a VS Code installé, on a Claude Code installé. On a les trois clés API et l'URL de la documentation. Pour rappel, c'était ce document-là qui savait justement donner du contexte à Claude Code. Euh chose qu'on a fait dès le début. Euh donc là, on peut commencer le développement. Pour ce faire, je t'invite vivement à récupérer du coup la ressource en description, car je t'ai mis du coup un méga prompt pour euh pour générer du ton application un prompt. Oui oui, on peut le faire avec Claude Code. Maintenant, c'est c'est très très puissant. C'est vraiment c'est c'est c'est ouf ce qu'ils font. Et euh donc du coup, avec ce méga prompt, tu vas générer l'application en one shot. Juste faire attention à une chose, c'est très très important. Voilà, s'il nous ouvre euh Claude Code avec VS Code du coup, c'est que à un moment donné, tu vas devoir du coup implémenter du coup les clés API, d'accord ? Donc tu auras juste à faire donc du coup, tu mets le prompt et tu mets du coup les clés API. Mais quand tu mets ces clés API, bien faire attention à les mettre dans le point ENV. Donc c'est le fichier ici, c'est pour sécuriser les clés API. Il faut jamais mettre tes infos personnelles, notamment tes clés API directement sur le chat de Claude. Parce que justement en fait, c'est tes données euh euh, on ne sait pas où elles vont. Tu travailles des des serveurs cloud. Donc c'est pas conseillé en tout cas de mettre tes données ici. OK ? Ensuite, du coup, je lui fais faire une une démonstration en local. Donc on va la voir tout de suite dans l'application rag. Euh là, on se rend compte qu'effectivement le front-end peut être amélioré, hein, bien sûr, avec quelques prompts. Là, pour un client typiquement, j'aurais tout changé le front. Mais bon, vraiment, cette vidéo, c'est apprendre à faire un rag. Donc on va tester le rag qu'on a fait ensemble en quelques minutes. Justement, à propos, donc c'est un chatbot interne qui va interroger un rapport technique de 67 pages sur la conception des ailes d'avion. Je t'avais dit 100 pages, mais bon, une fois compilé, euh l'IA l'a pris uniquement 67 pages. Au niveau de la technologie, c'est tout ce qu'on a dit depuis le début, c'est Gemini Embedding 2, euh Pinecone comme base de données vectorielle et GPT 4 Omini comme LLM. Allez, on ne perd pas de temps. On va essayer directement cette application. OK. Donc là, je vais poser la question suivante. Donc quels sont les différents types d'ailes ? Et on se rend compte qu'assez rapidement, il a pu me générer une réponse très complète, très précise, basée du coup sur le rapport. À chaque fois du coup, il cite les passages et à la fin, il me me fait un rapport du coup des sources utilisées. Euh donc ça c'est très très puissant pour le coup. Euh allez, on va essayer une autre question. Si on essaie par exemple de dire quel matériaux pour une aile composite ? Donc là, je te laisse imaginer, on traite vraiment avec des données personnelles d'entreprise. Euh donc ça peut être vraiment un support technique pour l'équipe euh je sais pas l'équipe d'assistance, l'équipe technique euh justement d'une d'une boîte d'aviation. Euh donc on voit qu'en se rend compte que du coup les matériaux sont du coup le titane et la matrice époxy renforcée de fibres de carbone. Et à chaque fois du coup, tu as la source. OK. Bon, je sais pas si tu te rends compte, mais là en quelques minutes, en fait, on a réussi à créer un système rag complet. Donc c'est typiquement ce que je vends moi aux sociétés. Euh là, on l'a fait très rapidement. Euh sans forcément compétences techniques, hein, tu as vraiment juste à copier un coller un prompt, générer tes clés API, c'est tout ce que tu as à faire. Peut-être que là, il faudrait surtout améliorer la partie front-end, euh mais c'est juste énorme ce qu'on a fait. Euh mais bon, et c'est pas non plus euh exceptionnel dans le sens où il y a quand même des limites à notifier. OK ? Euh première limite qui est très importante, c'est euh au niveau de la protection des données. Donc là, si maintenant, tu veux utiliser un système rag pour toi, euh pour ton entreprise, euh qui concerne des données qui sont pas forcément très sensibles, c'est OK, tu peux le faire. Euh mais bon, il est déconseillé d'envoyer du coup des données ultra sensibles justement à des API cloud, ce qu'on a fait ici pour le coup. Euh donc euh justement via chat GPT, via Gemini. Euh typiquement, pour mes clients, euh qui veulent vraiment une souveraineté totale, on va déployer du coup le tout en local. Donc ça, c'est vraiment une autre question, c'est euh une autre déontologie. Ça, je pourrais te la montrer dans une prochaine vidéo si tu me l'as demandé en privé. Euh ou en commentaire, n'hésite pas à me à m'écrire, hein, je peux te la faire. Donc c'est la première grosse limite de ce système-là. Donc certes, pour faire un rag, c'est pareil, mais il faut surtout du coup, la déployer en local. Donc ça, c'est vraiment un truc à faire pour des clients spécifiques. Deuxième limite du modèle, c'est que c'est certes un modèle multimodal. Donc souviens-toi, c'est ce que c'est, c'est un modèle qui prend plusieurs types d'entrées, donc des vidéos, des images, euh des textes, et cetera. Mais il est borné. Donc par exemple, il peut prendre maximum 6 images par chunk. Euh pour les vidéos, c'est maximum du coup 8 minutes 8 secondes. Et pour les audios du coup, c'est 8 minutes 20 secondes et c'est environ du coup 6 pages du PDF par requête chunké. Donc euh on voit que c'est pas forcément non plus un modèle ultime. Donc ça va venir améliorer. Même si c'est franchement très bien, c'est le meilleur dans son domaine. Mais bon, euh on se rend compte que quand même c'est pas non plus un un rag ultime. Euh et au niveau du contexte, il est aussi limité, hein, environ 8000 tokens par requête. Euh c'est-à-dire qu'il faut chunker des gros documents. Donc chunker c'est découper des documents justement. Donc il est pas par exemple, il serait impossible d'embeder un livre en un seul appel. Donc il faut vraiment du coup avoir plusieurs chunks. Euh donc voilà. Bon, j'espère que cette vidéo du coup t'aura aidé à comprendre comment faire des systèmes rag en entier. Euh l'idée c'est vraiment de partir de zéro à jusqu'à créer des systèmes rag. Euh si tu as des questions, des remarques, n'hésite pas à m'écrire en privé, je serai ravi de te répondre. Et n'hésite pas à t'abonner si tu veux d'autres vidéos de ce type.



