Exécuter un LLM sur votre téléphone semble impraticable jusqu’à ce que vous l’essayiez réellement. Des modèles comme Qwen3-1.7B, Phi-3 Mini et Gemma 2 2B s’adaptent confortablement sur un appareil Android de gamme moyenne avec 6 Go de RAM, génèrent du texte à un rythme lisible et coûtent exactement zéro par requête. Aucune clé API requise, aucun historique de chat envoyé à un serveur, aucuns frais mensuels.

Les meilleures applications de chat IA sur appareil pour Android se sont considérablement améliorées en 2026. Nous avons testé sept options sur différents téléphones, évalué les vitesses de token réelles et vérifié quels app stores proposent chacune honnêtement. Cette liste est pour les personnes qui veulent une inférence locale authentique, pas un simple emballage autour d’une API cloud qui ne fonctionne hors ligne que lorsqu’il n’y a rien d’autre à faire.

PocketPal AI sur Android exécutant un modèle de langage local sans connexion Internet

Ce qu'il faut rechercher dans une application de chat IA sur appareil

L’application elle-même importe moins que le runtime en dessous. Toutes les options sérieuses ici utilisent llama.cpp ou un moteur d’inférence comparable, donc les différences significatives se réduisent à quelques éléments.

Support du format de modèle. GGUF est la norme de facto pour les modèles locaux quantifiés. Toute application qui n’accepte que son propre format propriétaire aura une sélection limitée et des mises à jour lentes lorsque de nouveaux modèles arrivent. Recherchez des applications qui vous permettent de télécharger n’importe quel fichier GGUF.

Options de quantification. Une quantification Q4_K_M d’un modèle 3B s’exécute plus rapidement et utilise moins de RAM qu’une Q8 du même modèle, avec une perte de qualité modeste. Les meilleures applications exposent ce choix plutôt que de le cacher.

Longueur du contexte. Pour tout au-delà d’une conversation courte bidirectionnelle, vous avez besoin d’au moins 4K tokens de contexte. Certaines applications limitent cela à 2K et vous laissent avec des réponses tronquées dans des sessions plus longues.

Accélération matérielle. OpenCL ou Vulkan sur le GPU fait une différence significative sur les puces Snapdragon et Dimensity. Les applications qui s’exécutent uniquement sur CPU sont notablement plus lentes.

Pipeline de téléchargement. Les meilleures applications vous permettent de parcourir Hugging Face ou une liste de modèles organisée et d’extraire les fichiers GGUF directement dans l’application. Tout ce qui vous oblige à déplacer manuellement des fichiers via un gestionnaire de fichiers ajoute de la friction que la plupart des utilisateurs ne toléreront pas.

Comparaison rapide

ApplicationMeilleur pourGoogle PlayF-DroidAPK directGratuit
PocketPal AIMeilleur au globalOuiNonNonOui
MaidLéger + distantOuiNonOui (GitHub)Oui
SmolChatFlux de travail axés sur les tâchesOuiNonOui (GitHub)Oui
ChatterUICaractère / jeu de rôleNonNonOui (GitHub)Oui
MNN LLM ChatMultimodal, Qwen/DeepSeekOuiNonOui (GitHub)Oui
MLC ChatDéveloppeur / rechercheNonNonOui (GitHub)Oui
Private LLMUtilisateurs iOSiOS seulementNonNonNon

Les applications

1. PocketPal AI -- meilleure application LLM sur appareil pour Android au global

PocketPal AI a dépassé 1 million de téléchargements sur Google Play et l’a mérité. L’application est livrée avec un navigateur Hugging Face intégré pour que vous puissiez rechercher, filtrer par quantification et télécharger des modèles GGUF sans quitter l’application. Les modèles pris en charge en 2026 incluent Phi-3 Mini, Gemma 2 2B, Qwen3, Danube 3 et tout ce qui est publié au format GGUF sur Hugging Face. La version 1.15.0 a ajouté le support des appels d’outils, ce qui ouvre des tâches d’automatisation structurées que la plupart des applications de chat local ne peuvent pas gérer.

L’interface vous permet de créer plusieurs “Pals”, chacun avec son propre modèle, invite système et paramètres. Basculer entre un modèle Q4 rapide pour les questions rapides et un modèle Q8 plus lent pour la rédaction minutieuse ne nécessite que deux touches.

Où il manque : Pas d’accélération GPU au-delà de ce que la compilation llama.cpp expose, donc la vitesse d’inférence sur les puces lourdes GPU comme Snapdragon Elite n’est pas aussi rapide que les implémentations natives. Les modèles plus grands (7B+) nécessitent un appareil avec au moins 8 Go de RAM pour fonctionner à une vitesse utilisable.

Tarif : Gratuit. Aucun achat intégré, aucun abonnement.

Plateformes : Android, iOS

Télécharger : AptoideGoogle PlayApp Store

Conclusion : PocketPal AI est le bon point de départ pour la plupart des gens. Il gère le flux de travail complet allant de la découverte du modèle à l’inférence sans nécessiter aucun travail en ligne de commande.


2. Maid -- meilleur pour mélanger l'IA locale et distante dans une seule application

Maid (v3.0.0, mars 2026) exécute les modèles GGUF via llama.cpp localement sans Internet, mais se connecte également à Anthropic, Mistral, DeepSeek, Ollama et OpenAI si vous fournissez une clé API. Cette combinaison est utile pour les personnes qui veulent une inférence privée la plupart du temps mais qui ont parfois besoin d’un modèle cloud plus capable pour une tâche plus difficile. La liste de modèles organisée couvre Qwen, Phi, LFM et TinyLlama, et vous pouvez charger n’importe quel GGUF à partir du stockage local.

La version 3.0 a ajouté le support des modèles de vision et la reconnaissance vocale au niveau du système, vous pouvez donc dicter des invites et obtenir des descriptions d’images sans changer d’application. L’approche sans télémétrie et sans annonces est cohérente avec d’autres projets du même développeur.

Où il manque : La base React Native signifie que l’interface peut sembler moins native qu’une application construite avec Kotlin. L’exposition des paramètres (température, top-p, longueur du contexte) est présente mais enfouie quelques clics plus profondément qu’elle ne devrait l’être.

Tarif : Gratuit. Aucun achat intégré.

Plateformes : Android (Google Play, GitHub APK)

Télécharger : Google Play Également disponible en tant qu’APK direct depuis les versions de GitHub.

Conclusion : Le bon choix si vous voulez une application qui gère à la fois l’inférence privée locale et les demandes basées sur API, avec un basculement propre entre les deux.


3. SmolChat -- meilleur pour les assistants locaux spécifiques aux tâches

SmolChat (io.shubham0204.smollmandroid) adopte un angle différent des interfaces de chat standard. Au lieu d’un seul fil de conversation à usage général, il vous permet de définir plusieurs « applications » spécifiques aux tâches basées sur différentes invites système et modèles. Vous pouvez configurer un résumeur qui exécute Phi-3 Mini avec un contexte serré, un assistant de code exécutant Qwen3-1.7B avec une fenêtre plus longue, et un assistant d’écriture utilisant un profil de température différent. Chaque tâche se comporte comme un outil distinct. Toute l’inférence s’exécute localement via llama.cpp; aucune donnée ne quitte l’appareil.

L’application prend en charge n’importe quel modèle GGUF, restitue Markdown avec mise en évidence de la syntaxe du code et stocke l’historique des conversations sur l’appareil. Il se situe sur Google Play ainsi que sur les versions de GitHub, ce qui en fait l’une des applications LLM locales les plus faciles à installer sans téléchargement.

Où il manque : Pas de navigateur de modèles intégré. Vous téléchargez séparément les fichiers GGUF depuis Hugging Face ou une autre source et pointez l’application vers eux. Cette étape supplémentaire repousse les utilisateurs moins techniques.

Tarif : Gratuit.

Plateformes : Android (Google Play, GitHub APK)

Télécharger : Google Play Également disponible à partir de versions de GitHub.

Conclusion : Si vous voulez construire un ensemble d’outils IA locaux ciblés plutôt qu’un chatbot général, SmolChat vous donne cette structure sans dépendance cloud.


4. ChatterUI -- meilleur pour le chat de caractère et le jeu de rôle avec des modèles locaux

ChatterUI (v0.9.0) est la seule application de cette liste conçue autour des flux de travail des cartes de caractères. Elle lit la spécification de carte de caractères v2, vous pouvez donc importer des définitions de caractères depuis SillyTavern ou des outils similaires et les utiliser avec un modèle GGUF exécuté localement. Le backend est llama.cpp, et l’application prend en charge Ollama, KoboldCpp et text-generation-webui pour les personnes qui souhaitent exécuter l’inférence sur une machine plus capable et se connecter à partir de leur téléphone. Pour une utilisation entièrement sur l’appareil, elle charge les fichiers GGUF directement à partir du stockage.

Les paramètres d’échantillonnage sont exposés par session : température, top-p, top-k, pénalité de répétition et longueur du contexte sont tous configurables. La synthèse vocale lit les réponses en utilisant le moteur TTS intégré de l’appareil.

ChatterUI n’est disponible que comme APK direct depuis GitHub. Il n’y a pas de liste Play Store et aucun paquet F-Droid. Cela signifie que vous devez activer l’installation à partir de sources inconnues avant de pouvoir l’installer.

Où il manque : La distribution GitHub uniquement crée une véritable barrière. Les utilisateurs sans expérience de téléchargement d’APK trouveront cela frustrant. L’interface est fonctionnelle mais dense, avec une courbe d’apprentissage que les utilisateurs de chatbot général ne devraient pas avoir à gravir.

Tarif : Gratuit. Sous licence AGPL-3.0.

Plateformes : Android (APK GitHub uniquement)

Télécharger : Télécharger l’APK depuis les versions de GitHub (nécessite un téléchargement ; consultez notre guide pour installer APK en dehors de Google Play)

Conclusion : ChatterUI est pour les personnes qui savent déjà ce que sont les cartes de caractères. Si c’est vous, c’est la meilleure option locale. Sinon, commencez plutôt par PocketPal AI.


5. MNN LLM Chat -- meilleur pour les modèles multimodaux et d'origine chinoise

MNN LLM Chat est l’application consommateur d’Alibaba construite sur le moteur d’inférence MNN, que l’entreprise utilise dans tous ses produits mobiles. La sélection de modèles penche vers Qwen (y compris Qwen3), DeepSeek R1 1.5B, Gemma, Llama et Phi, avec un support multimodal couvrant l’image-texte et l’audio-texte en plus du chat standard. Cet angle multimodal est véritablement rare à ce point de prix (gratuit) et le distingue de la plupart des applications centrées sur GGUF.

L’application est disponible sur Google Play (paquet com.alibaba.mnnllm.android.release) et sous la forme d’un APK direct depuis GitHub. Des tests d’appareil vérifiés ont été effectués sur OnePlus 13 et Xiaomi 14 Ultra; les appareils de spécification inférieure peuvent rencontrer des problèmes de stabilité.

Où il manque : Le soutien corporatif est une épée à double tranchant. L’application est bien entretenue, mais l’origine d’Alibaba signifie que certains utilisateurs examineront la gestion des données plus attentivement qu’avec les applications construites par la communauté. Le disclaimer selon lequel les appareils de spécification inférieure « peuvent ne pas pouvoir s’exécuter du tout » est inhabituellement honnête et mérite d’être pris au sérieux.

Tarif : Gratuit.

Plateformes : Android (Google Play, GitHub APK)

Télécharger : Google Play

Conclusion : Le bon choix si vous voulez spécifiquement des modèles Qwen ou DeepSeek, ou si vous avez besoin d’une application locale qui gère les images et l’audio ainsi que le texte.


6. MLC Chat -- meilleur pour les développeurs et la recherche accélérée par GPU

MLC Chat est l’implémentation de référence du projet Machine Learning Compilation à la CMU. Elle compile les LLM pour s’exécuter nativement sur le GPU de l’appareil via TVM, ciblant OpenCL sur Adreno (Snapdragon) et les GPU Mali. Cette étape de compilation est ce qui la distingue : tandis que les applications basées sur llama.cpp font une inférence CPU-first avec accélération Vulkan optionnelle, MLC précompile les poids du modèle spécifiquement pour l’architecture GPU cible, ce qui peut produire une génération de tokens considérablement plus rapide sur le bon matériel.

Le compromis est que chaque modèle a besoin d’un binaire compilé distinct. La sélection de modèles est plus petite que le catalogue GGUF de Hugging Face, et l’installation nécessite plus d’étapes que n’importe quelle autre application de cette liste. Le projet est activement développé en tant que référentiel GitHub (github.com/mlc-ai/mlc-llm) et cible les développeurs et chercheurs qui souhaitent exécuter des benchmarks ou construire sur le moteur.

Où il manque : Pas de liste Play Store stable actuellement en mai 2026. L’installation nécessite soit de construire à partir de la source, soit d’utiliser des builds de pré-lancement depuis GitHub. Ce n’est pas encore une application pour une utilisation générale.

Tarif : Gratuit et open source sous Apache 2.0.

Plateformes : Android (compilations GitHub, aperçu développeur)

Télécharger : Référentiel GitHub et instructions de compilation

Conclusion : Vaut la peine d’évaluer si vous comparez les performances d’inférence GPU ou construisez un produit sur un runtime LLM compilé. Pas le bon choix pour une utilisation quotidienne privée de chat.


7. Private LLM -- iOS uniquement, mais bon à connaître pour les lecteurs curieux d'iOS

Private LLM exécute les modèles GGUF sur iPhone et iPad en utilisant l’accélération Core ML et Metal d’Apple. N’est pas disponible pour Android. Nous l’incluons ici car il apparaît dans chaque fil de comparaison des LLM locaux, et les utilisateurs Android devraient savoir que ce n’est pas une option pour eux. L’accélération iOS native sur les puces Apple Silicon lui donne une génération de tokens considérablement plus rapide que la plupart des options Android sur du matériel comparable, ce qui reflète l’état de l’IA sur appareil plutôt que n’importe quel avantage produit spécifique.

Les utilisateurs Android à la recherche de l’équivalent le plus proche doivent utiliser PocketPal AI, qui est multiplateforme et reçoit une attention de développement comparable.

Où il manque : iOS uniquement. Nécessite un iPhone récent (A14 ou plus récent pour une vitesse utilisable). Application payante.

Tarif : Payant (achat unique).

Plateformes : iOS uniquement

Télécharger : Disponible sur l’App Store pour les appareils iOS.

Conclusion : Un point de référence pour ce qui se passe du côté iOS. Utilisateurs Android : PocketPal AI est votre équivalent.


Comment choisir la bonne application de chat IA sur appareil

Si vous voulez la configuration la plus simple avec la plus large sélection de modèles, utilisez PocketPal AI. Elle gère le flux de travail complet allant de la découverte du modèle à l’inférence dans une seule application et est sur Google Play sans nécessiter de téléchargement.

Si vous voulez exécuter les modèles locaux et basés sur API à partir d’une seule interface, utilisez Maid. La capacité à basculer entre llama.cpp local et les fournisseurs cloud comme Anthropic ou Mistral avec votre propre clé en fait l’option la plus flexible.

Si vous voulez construire des outils locaux spécifiques aux tâches (un résumeur, un relecteur de code, un assistant d’écriture) plutôt qu’un chatbot général, utilisez SmolChat. La structure multi-applications est mieux adaptée aux flux de travail ciblés.

Si vous avez besoin du support de cartes de caractères pour le jeu de rôle ou l’écriture créative avec des modèles locaux, utilisez ChatterUI. Acceptez l’exigence de téléchargement comme le coût d’entrée.

Si vous voulez une inférence locale multimodale couvrant les images et l’audio, pas seulement le texte, utilisez MNN LLM Chat. Elle prend en charge la gamme la plus large de types d’entrée parmi les options ici.

Si vous utilisez iOS au lieu d’Android, ignorez cette liste. Private LLM est le point de référence à examiner sur cette plateforme.

Questions fréquemment posées

Quels téléphones Android peuvent réellement exécuter un LLM local ?

Un appareil avec 6 Go de RAM exécutant Snapdragon 778G ou plus récent (ou série MediaTek Dimensity 900 équivalente) peut exécuter des modèles de paramètres 1B à 3B à une vitesse utilisable avec quantification Q4. Les modèles 7B nécessitent un appareil avec au moins 8 Go de RAM et Snapdragon 8 Gen 1 ou mieux pour une vitesse acceptable. Les téléphones d’entrée de gamme avec 4 Go de RAM peuvent charger des modèles 1B mais généreront du texte assez lentement pour être frustrante en pratique.

Est-il sûr de télécharger des modèles GGUF depuis Hugging Face ?

GGUF est un format de modèle binaire. Un fichier mal formé peut bloquer l’application d’inférence mais, dans les applications listées ici, ne peut pas exécuter de code arbitraire sur votre appareil comme le ferait un script ou un exécutable. Cela dit, vous devriez toujours télécharger à partir de pages de modèles établies (Meta, Google, Microsoft, équipe Qwen, EleutherAI) plutôt que des téléchargements anonymes. Le risque est faible mais non nul avec les téléchargements aléatoires de la communauté.

Quelle est la meilleure application de chat IA locale gratuite pour Android ?

PocketPal AI. C’est gratuit, sur Google Play, prend en charge la plus large variété de modèles via l’intégration de Hugging Face, et reçoit des mises à jour cohérentes. Pour les utilisateurs ayant besoin du support multimodal, MNN LLM Chat est l’alternative gratuite.

Y a-t-il une de ces applications qui fonctionne entièrement hors ligne, sans Internet requis ?

Oui. PocketPal AI, Maid (mode local), SmolChat, ChatterUI et MNN LLM Chat exécutent tous l’inférence entièrement sur l’appareil sans appels réseau pendant une conversation. Vous avez besoin d’Internet uniquement pour le téléchargement initial du modèle. Après cela, le mode avion fonctionne bien.

Pourquoi autant d’applications LLM locales ne sont-elles disponibles que comme APK direct ?

Le processus d’examen de Google Play et les politiques créent une friction pour les applications qui téléchargent et exécutent les poids du modèle lors de l’exécution, ce qui est techniquement similaire au chargement de code dynamique. Plusieurs développeurs dans cet espace distribuent via GitHub APK pour éviter cette friction. C’est un compromis honnête : vous obtenez une itération plus rapide et aucune restriction Play Store, mais vous assumez la responsabilité de vérifier l’APK vous-même. L’installation d’APK depuis la page des versions GitHub officielles du projet est l’approche la plus sûre.

Les LLM locaux sur Android peuvent-ils remplacer un abonnement ChatGPT ou Claude ?

Pour les tâches de courte forme comme rédiger un message rapide, résumer un paragraphe ou répondre à une question factuelle, oui. Pour le raisonnement complexe multi-étapes, l’assistance au codage sur de grands fichiers ou les tâches nécessitant des connaissances récentes, la réponse est plus souvent non. Un modèle Qwen3-1.7B s’exécutant sur un téléphone est considérablement plus petit que ce qui s’exécute derrière n’importe quelle API commerciale. Le cas d’usage est l’inférence privée, hors ligne, sans limite de vitesse pour les tâches contenues, pas un remplacement complet des modèles de pointe.