- ▸ Le projet de chatbot
- ▸ Méthodologie et résultats
- ▸ Analyse des résultats
Un développeur teste un modèle local de 600 millions de paramètres comme classificateur de questions domestiques. Après fine-tuning, la précision grimpe à 92 %, contre 10 % en prompting seul. Le test repose sur un jeu de 850 entrées.
Points clés – Qwen 3:0.6B, modèle local de 600 millions de paramètres, atteint ~92 % de précision pour catégoriser des questions après fine-tuning. – Le modèle s’entraîne sur un jeu de ~850 entrées, réparti en 70/15/15 entre entraînement, évaluation et test. – La précision passe de ~10 % (13 réponses justes sur 131) en prompting seul à ~92 % après fine-tuning.
Le projet de chatbot
Le projet combine deux modèles locaux, documentés le 16 juin 2026 sur Teachmecoolstuff. Qwen 3:4B répond aux questions générales. Qwen 3:0.6B, sa version « super tiny », se charge de catégoriser les questions entrantes.
L’enjeu est précis. L’auteur veut vérifier si un modèle minuscule de 600 millions de paramètres peut être fine-tuné en classificateur fiable de questions domestiques. Le cas d’usage type : « When did we replace our pool pump ? » — quand avons-nous remplacé la pompe de la piscine ?
Ce découpage répond à une logique d’économie. Faire tourner un gros modèle pour une simple tâche de tri serait coûteux en calcul. Le pari consiste à déléguer la classification au plus petit modèle disponible, sans sacrifier la fiabilité du chatbot.
Méthodologie et résultats
Le fine-tuning, technique d’ajustement d’un modèle sur des données spécifiques, s’appuie sur un jeu de données restreint. Le corpus initial compte environ 850 entrées de questions liées au ménage.
L’auteur applique un découpage classique en trois parts. La répartition suit un ratio 70/15/15 : 70 % des données servent à l’entraînement, 15 % à l’évaluation et 15 % au test final. Sur ~850 entrées, cela donne environ 595 questions d’entraînement et deux blocs d’environ 127 questions chacun pour valider le modèle.
Avant tout entraînement, l’auteur fixe une référence. Il utilise le modèle Qwen 0.6B « as is », c’est-à-dire tel quel, en le sollicitant uniquement par prompting. Cette baseline mesure ce que le modèle sait faire sans ajustement.
Le verdict tombe après fine-tuning. La précision de prédiction atteint désormais ~92 %, un niveau que l’auteur qualifie de « pretty accurate », plutôt précis. Le gain est net pour un modèle aussi léger, conçu pour tourner en local sans infrastructure cloud.
Analyse des résultats
L’écart avec la baseline est le chiffre marquant. En prompting seul, sur 131 tests, le modèle ne catégorise correctement que 13 questions, soit ~10 % de réponses justes.
La conclusion de l’auteur est sans appel : un modèle aussi petit que Qwen 3:0.6B ne peut pas offrir de performance fiable par le seul prompting. Le fine-tuning n’est donc pas un confort, mais une condition d’usage.
Concrètement, le passage de ~10 % à ~92 % multiplie la fiabilité par plus de neuf. Pour un classificateur intégré à un chatbot domestique, ce seuil change la donne : à 10 %, le tri est inexploitable ; à 92 %, il devient un composant de production crédible sur du matériel modeste.
FAQ
Quel est le but de Qwen 3:0.6B dans ce projet ?
L’objectif est de vérifier si un modèle local de 600 millions de paramètres peut être fine-tuné en classificateur fiable de questions domestiques. Dans l’architecture du projet, Qwen 3:0.6B trie les questions, tandis que Qwen 3:4B répond aux requêtes générales, selon la documentation publiée le 16 juin 2026.
Quelle est la précision après fine-tuning ?
La précision atteint ~92 % après fine-tuning, contre ~10 % en prompting seul. Cette baseline correspond à 13 réponses correctes sur 131 tests. L’écart démontre que le fine-tuning est indispensable pour rendre un modèle de cette taille exploitable comme classificateur, selon les sources disponibles à ce jour.
À suivre
Reste à voir comment le modèle se comporte hors des questions domestiques et à plus grande échelle de données. Le découpage 850 entrées laisse une marge d’extension. Pour aller plus loin, consultez notre dossier sur le fine-tuning des petits modèles open source.



