XDA a passé la semaine à comparer Gemma 4 contre Qwen 3.5 sur le même bureau, et le fil de commentaires a prouvé un point plus tranquille : la plupart des lecteurs avaient déjà une pile LLM locale en cours d’exécution. La catégorie a dépassé les jouets de passe-temps. Les modèles quantifiés 7B et 14B sont suffisamment bons pour la révision de code, le résumé et la rédaction courante, la nouvelle vague de modèles MoE de taille moyenne a réduit l’écart avec les modèles frontière fermés, et les applications qui enveloppent llama.cpp ont commencé à ressembler à de vrais logiciels.
Nous avons testé 8 des meilleures applications pour exécuter des LLM locaux sur Windows, macOS et Linux. L’indice de référence était les choses ennuyeuses : à quelle vitesse ils lancent un modèle sur un ordinateur portable Ryzen, à quelle vitesse ils gèrent le déchargement GPU sur une carte RTX, si l’interface de chat est vraiment agréable, et à quel point ils se cassent quand le prochain grand modèle arrive. Les prix comptent moins que d’habitude dans cette catégorie puisque la plupart des options fortes sont gratuites.
Ce qu’il faut chercher dans une application LLM locale
Une poignée de critères séparent les outils qui survivent à une semaine d’utilisation quotidienne de ceux qui sont désinstallés :
- Portabilité du backend. llama.cpp est le runtime de facto. Les applications qui l’enveloppent proprement obtiennent les corrections de bogues gratuitement. Les applications qui maintiennent leurs propres fourches sont à la traîne sur les nouvelles architectures de modèles.
- Support de la quantification. GGUF est le format qui est réellement expédié. Si une application ne peut pas charger un fichier GGUF récent, c’est une impasse.
- Déchargement GPU. CUDA sur Nvidia, ROCm sur AMD, Metal sur Apple Silicon. Les outils diffèrent beaucoup dans la quantité qu’ils utilisent réellement.
- Chat UI vs API. Certains utilisateurs veulent une fenêtre de chat polie. D’autres veulent un point de terminaison compatible OpenAI local pour brancher dans les extensions d’éditeur. Les applications les plus fortes offrent les deux.
- Découverte de modèles. Hugging Face est le catalogue. Les applications qui cuisent la recherche et le téléchargement en un clic économisent du temps réel.
- Posture de confidentialité. Certaines applications s’exécutent entièrement hors ligne. D’autres téléphonent à la maison pour les analyses par défaut et ont besoin d’un drapeau pour arrêter.
Comparaison rapide
| Application | Meilleur pour | Plates-formes | Plan gratuit | Caractéristique remarquable |
|---|---|---|---|---|
| Ollama | Installation en une ligne et CLI que vous pouvez scripter | Windows, macOS, Linux | Oui (open source) | API compatible OpenAI sur localhost |
| LM Studio | Interface de chat polie avec recherche de modèle intégrée | Windows, macOS, Linux | Oui (gratuit pour usage personnel) | Intégration Hugging Face avec filtrage de quant |
| Jan | Client de chat entièrement open-source qui respecte le mode hors ligne | Windows, macOS, Linux | Oui (open source) | Pas de télémétrie et historique de paramètres propre |
| GPT4All | Chat léger pour les ordinateurs portables sans GPU | Windows, macOS, Linux | Oui (open source) | Quants optimisés CPU-first pour les machines à faible RAM |
| Msty | Vue divisée multi-modèle pour les comparaisons côte à côte | Windows, macOS, Linux | Oui (tier gratuit) | Comparez deux modèles locaux dans une fenêtre |
| Open WebUI | Frontend de chat auto-hébergé qui s’exécute dans un navigateur | Docker (n’importe quel OS) | Oui (open source) | Mode multi-utilisateurs et commutation de modèle par chat |
| Llamafile | Un fichier exécutable par modèle, pas d’installateur | Windows, macOS, Linux | Oui (open source) | Exécutez un modèle en double-cliquant sur un fichier |
| Text Generation WebUI | Terrain de jeu pour utilisateurs avancés avec réglage de l’échantillon et extensions | Windows, macOS, Linux | Oui (open source) | Contrôle le plus profond sur les paramètres de génération |
Les 8 meilleures applications pour exécuter des LLM locaux sur bureau
1. Ollama — meilleure installation en une ligne pour usage quotidien
Ollama est ce qui se rapproche le plus de la catégorie par défaut. Un installateur unique libère une CLI et un service en arrière-plan, puis ollama run llama3.2 extrait un modèle quantifié et commence à discuter. Le même démon expose une API compatible OpenAI sur localhost:11434, ce qui signifie que chaque extension d’éditeur et bloc-notes qui parle OpenAI fonctionne sans modifications. La bibliothèque de modèles couvre la plupart des familles populaires avec des quants par défaut sensés.
Où ça s’arrête court : L’interface propriétaire est minimale. Ollama est un runtime, pas une application de chat, vous discutez avec lui à partir d’un terminal ou l’associez avec un frontend séparé. Les invites et modèles personnalisés vivent dans un Modelfile, ce qui est puissant mais ajoute une étape.
Prix :
- Gratuit : open source, pas de frais de licence
- Payant : aucun
Plates-formes : Windows, macOS, Linux
Télécharger : ollama.com
Conclusion : Choisissez Ollama pour les LLM locaux si vous voulez un backend qui “marche juste” et que vous êtes heureux d’apporter votre propre interface.
2. LM Studio — meilleure interface de chat avec recherche de modèle intégrée
LM Studio est le client de chat poli sur lequel la plupart des gens atterrissent après avoir dépassé les démos web. Le navigateur de modèles se connecte directement à Hugging Face, filtre par niveau de quant et architecture, et montre si un fichier tient vraiment dans votre VRAM. La fenêtre de chat prend en charge les invites système, les présets, l’édition multi-tour et un mode serveur local qui expose le même point de terminaison compatible OpenAI qu’Ollama.
Où ça s’arrête court : La licence permet l’usage personnel gratuit mais nécessite un plan payant pour les contextes commerciaux, ce qui vaut la peine de savoir avant de le mettre sur un ordinateur portable d’entreprise. L’application est closed source.
Prix :
- Gratuit : usage personnel
- Payant : plan Travail pour usage professionnel
Plates-formes : Windows, macOS, Linux
Télécharger : lmstudio.ai
Conclusion : Choisissez LM Studio pour les LLM locaux si vous voulez une fenêtre qui gère la découverte de modèles, la sélection de quant, le chat et l’API locale.
3. Jan — meilleur client de chat entièrement open-source
Jan est ce qui se passe quand une équipe construit l’expérience LM Studio en open source à partir de zéro. Le magasin de modèles est organisé, l’interface de chat est propre, et le projet a une politique déclarée d’exécution entièrement hors ligne sans télémétrie. Le panneau de paramètres rend évident quels commutateurs affectent les appels réseau, ce qui est inhabituel dans cette catégorie.
Où ça s’arrête court : Les performances traînent LM Studio d’un cheveu sur le même matériel, en partie parce que l’équipe priorise la portabilité par rapport à l’optimisation GPU hyperspécifique. Les histoires API mobile et à distance sont plus récentes que le chat de bureau.
Prix :
- Gratuit : open source, pas de frais de licence
- Payant : aucun
Plates-formes : Windows, macOS, Linux
Télécharger : jan.ai
Conclusion : Choisissez Jan pour les LLM locaux si vous voulez l’UX LM Studio sans la licence closed-source et sans faire confiance au basculement de désinscription d’analyse.
4. GPT4All — meilleur pour les ordinateurs portables bas de gamme sans GPU
GPT4All existe depuis les premiers jours de la scène LLM locale et fait toujours le travail ennuyeux mieux que la plupart. La liste des modèles par défaut est optimisée pour l’inférence CPU, les petits quants s’exécutent sur des machines sans GPU dédié, et l’interface de chat inclut maintenant un chat de documents local qui pointe vers un dossier sur disque. Pour les utilisateurs qui ont essayé d’exécuter un modèle 7B sur un ordinateur portable plus ancien et ont rebondi sur la lenteur, la sélection de modèles petits organisée est le bon point de départ.
Où ça s’arrête court : L’accélération GPU est prise en charge mais ce n’est pas le foyer du projet. L’interface de chat est fonctionnelle plutôt que belle.
Prix :
- Gratuit : open source, pas de frais de licence
- Payant : aucun
Plates-formes : Windows, macOS, Linux
Télécharger : gpt4all.io
Conclusion : Choisissez GPT4All pour les LLM locaux si votre matériel est modeste et que vous voulez un client de chat livré avec des modèles optimisés pour cela.
5. Msty — meilleur pour comparer deux modèles côte à côte
Msty est un choix moins évident qui comble une lacune spécifique : il peut parler à deux modèles locaux à la fois et afficher leurs réponses côte à côte. Combiné avec des crochets pour les API distantes, c’est le moyen le plus facile de comparer une nouvelle version de Qwen contre un quant Gemma sur la même invite sans jongler deux fenêtres. Les piles de connaissances vous permettent d’attacher des dossiers ou des URL au chat pour la récupération.
Où ça s’arrête court : Le niveau gratuit couvre la plupart des usages personnels, mais quelques fonctionnalités puissantes se cachent derrière un plan payant. La recherche de modèles est plus étroite que LM Studio.
Prix :
- Gratuit : plan personnel riche en fonctionnalités
- Payant : plan Aurum pour les fonctionnalités avancées
Plates-formes : Windows, macOS, Linux
Télécharger : msty.app
Conclusion : Choisissez Msty pour les LLM locaux si vous comparez activement les modèles et souhaitez un client de chat conçu pour ce flux de travail.
6. Open WebUI — meilleur frontend de navigateur pour serveur Ollama familial ou d’équipe
Open WebUI s’exécute en tant qu’application web conteneurisée et communique avec Ollama (ou tout backend compatible OpenAI) sur le réseau. L’interface ressemble à l’application web ChatGPT, prend en charge les comptes multi-utilisateurs avec contrôle d’accès basé sur les rôles, et gère la commutation de modèles par conversation. Pour un ménage ou une petite équipe qui souhaite un serveur de modèles local qu’chacun peut utiliser à partir de n’importe quel navigateur, c’est la réponse la plus propre.
Où ça s’arrête court : Cela suppose que vous avez déjà Ollama (ou équivalent) en cours d’exécution quelque part. Les fonctionnalités multi-utilisateurs nécessitent un peu de configuration. C’est une application de navigateur, il n’y a donc pas de vernis de bureau natif.
Prix :
- Gratuit : open source, pas de frais de licence
- Payant : aucun
Plates-formes : Docker, accessible à partir de n’importe quel navigateur moderne sur Windows, macOS ou Linux
Télécharger : openwebui.com
Conclusion : Choisissez Open WebUI pour les LLM locaux si vous voulez un frontend de chat partagé pour un laboratoire domestique ou une petite équipe et que vous êtes à l’aise de lancer un conteneur.
7. Llamafile — meilleure option sans installation
Llamafile distribue un modèle et le runtime llama.cpp en tant que fichier exécutable unique qui s’exécute sur Windows, macOS et Linux sans aucune configuration. Téléchargez un fichier, double-cliquez, et l’interface de chat local s’ouvre dans un navigateur. Le format s’appuie sur un trick binaire multiplateforme intelligente du projet Cosmopolitan, ce qui signifie que le même fichier fonctionne sur les systèmes d’exploitation.
Où ça s’arrête court : Aucun navigateur de modèles. Vous gérez les modèles sous forme de fichiers. Les mises à jour nécessitent d’échanger le fichier exécutable. Certains outils antivirus marquent le binaire, ce qui est une plainte récurrente dans les problèmes GitHub.
Prix :
- Gratuit : open source, pas de frais de licence
- Payant : aucun
Plates-formes : Windows, macOS, Linux
Télécharger : github.com/Mozilla-Ocho/llamafile
Conclusion : Choisissez Llamafile pour les LLM locaux si vous voulez la façon la plus simple de partager un modèle fonctionnel avec quelqu’un qui n’a jamais entendu parler de Hugging Face.
8. Text Generation WebUI — meilleur terrain de jeu pour utilisateurs avancés
Text Generation WebUI (parfois appelé oobabooga) est l’option tout compris. Plusieurs backends, chaque sampler sous le soleil, un système d’extensions qui ajoute RAG, les cartes de caractères, la voix et le chat basé sur les images. Les chercheurs et les bricoleurs qui se soucient du réglage du sampler, du décodage contrastif et des formats de quant obscurs atterrissent ici.
Où ça s’arrête court : La configuration est plus compliquée que les autres options de cette liste, avec les environnements Python et les kits d’outils CUDA dans le mélange. L’UI est dense d’informations d’une manière qui submerge les utilisateurs occasionnels.
Prix :
- Gratuit : open source, pas de frais de licence
- Payant : aucun
Plates-formes : Windows, macOS, Linux
Télécharger : github.com/oobabooga/text-generation-webui
Conclusion : Choisissez Text Generation WebUI pour les LLM locaux si vous voulez chaque bouton exposé et que vous êtes à l’aise dans un environnement Python.
Comment choisir le bon
Si vous voulez le chemin le plus simple vers une configuration fonctionnelle, installez Ollama et associez-le avec un frontend de chat que vous aimez.
Si vous voulez une application qui fait tout dans une fenêtre polie, installez LM Studio.
Si l’open source est important pour vous, installez Jan.
Si votre ordinateur portable est plus ancien ou n’a pas de GPU, installez GPT4All et respectez ses petits modèles organisés.
Si vous comparez activement les modèles, installez Msty.
Si vous voulez un serveur de chat partagé pour le ménage, exécutez Open WebUI avec Ollama derrière.
Si vous voulez zéro cérémonie, téléchargez Llamafile pour le modèle qui vous intéresse.
Si vous voulez chaque bouton, installez Text Generation WebUI et budgétisez un après-midi pour la première exécution.
FAQ
Les LLM locaux fonctionnent-ils sur un ordinateur portable sans GPU discret ?
Oui. Les modèles 3B et 7B quantifiés s’exécutent sur les graphiques intégrés ou le CPU pur, lentement mais utilement. GPT4All et Llamafile envoient tous les deux de petits modèles optimisés pour ce cas.
Combien de VRAM ai-je besoin pour exécuter un LLM local ?
Pour une expérience confortable avec un modèle 7B en quantification Q4, environ 6 GB de VRAM. Pour 14B à Q4, environ 10 GB. Pour les modèles de classe 70B, comptez 24 GB ou plus, ou divisé entre la RAM CPU et GPU à des vitesses plus basses.
Ollama est-il la meilleure application pour les LLM locaux ?
C’est le meilleur backend pour la plupart des utilisateurs. Si vous voulez également une interface de chat polie dans la même fenêtre, LM Studio ou Jan est plus proche du “meilleur app”. Ollama plus une interface séparée est la pile la plus courante.
Les LLM locaux sont-ils vraiment privés ?
Oui, avec une mise en garde. L’inférence s’exécute entièrement sur votre machine. Le piège est que certaines applications téléphonent à la maison pour les analyses ou les vérifications de mise à jour par défaut. Jan et GPT4All rendent le bouton off évident. LM Studio l’a sous les paramètres.
Puis-je utiliser un LLM local avec mon éditeur de code ?
Oui. N’importe quelle application qui expose un point de terminaison compatible OpenAI (Ollama, LM Studio, Jan, Msty) peut être définie comme URL de base dans les extensions d’éditeur qui ciblent OpenAI. Continue, le mode bring-your-own-key de Cursor, et la plupart des extensions VS Code l’acceptent.