L’Intelligence artificielle se fait une place de plus en plus importante dans de nombreux services, et je ne sais pas vous, mais … ça pousse à l’habitude !
Toutefois, une question revient souvent … Où partent nos données ?
Est-ce que nous pouvons vraiment faire confiance à notre petit Chat GPT adoré ?
En attendant que cette question trouve réponse, et que la confiance se développe un peu plus entre les utilisateurs et les grandes firmes : pourquoi ne pas adopter le local LLM ?
Une IA en local ?
Grâce aux innovations dans le domaine de l’IA, et à des modèles de plus en plus affinés (et compressés), il est désormais possible de télécharger des modèles sans exploser son disque dur, avec par exemple :
- Mistral (version 7b), pour environ 4Go,
- TinyLlama-1.1B, pour environ 2Go,
- mxbai-embed-large-v1, pour 800mo,
- …
Mais maintenant, dans des versions singles file ! Exit les installations en 48 étapes, différentes en fonction de votre GPU/CPU, de votre OS etc …
Comment c’est possible ? Remercions toute la communauté Mozilla, qui a annoncée il y a quelques mois la création de leur nouveau projet : llamafile.
L’objectif : Proposer des modèles compressés, et utilisables en un seul fichier, sur « n’importe » quelle machine, avec des configurations même modestes !
Mon PC sera assez puissant ?
Le point d’honneur a ici été mis sur l’optimisation ! Une fois lancé, les calculs s’adaptent à votre architecture de PC, en utilisant seulement le CPU si votre GPU n’est pas suffisant / disponible.
Utiliser une IA en local sera donc possible sur un PC portable, pas forcément doté de carte graphique, et sans 48Go de RAM !
Installation de Mistral7b en local
Qu’importe votre système d’exploitation, le processus d’installation reste le même :
1 / Télécharger le modèle que vous souhaitez utiliser, directement depuis le repos Github du projet -> Téléchargement de Mistral7b
2 / Une fois téléchargé, ouvrez une console et rendez le fichier fraichement téléchargé exécutable, avec la commande :
chmod +x mistral-7b-instruct-v0.1-Q4_K_M.llamafile
Bash3 / Lancez le modèle avec la commande :
./mistral-7b-instruct-v0.1-Q4_K_M.llamafile
BashC’est tout ! Le modèle va se lancer dans votre terminal, et vous permettra d’accéder à un chat web local (avec pas mal d’options), sur cette adresse : http://127.0.0.1:8080/
Une fois votre petite session locale terminée, vous avez simplement à vous rendre sur votre terminal, et stopper votre serveur LLM avec la commande : CTRL+C (ou Command+C sur Mac)
Erreurs fréquentes
Sur Mac OS et Linux quelques erreurs fréquentes sont possibles au premier lancement, mais quelques lignes dans votre terminal avant le lancement résoudra tout ça !
Pour trouver une solution si le lancement pose problème chez vous : https://github.com/Mozilla-Ocho/llamafile?tab=readme-ov-file#gotchas-and-troubleshooting
Personnellement, j’ai eu un petit problème à la première exécution sur un Ubuntu 23.04 (run-detectors), directement résolu par la FAQ juste au dessus !
Aller plus loin avec une IA locale
Malgré le côté « single file », ces modèles sont très complets et embarquent de nombreuses options :
- Une API OpenAI like, avec un endpoint sur votre serveur LLM lancé, ce qui vous permettra de développer vos applications augmentées par IA en local,
- La possibilité d’utiliser votre GPU/CPU seulement (en argument de ligne de commande au lancement),
- L’affinage du prompt système depuis la ligne de commande / l’interface web,
- et bien plus !