huggingface-local-models

par huggingface

huggingface-local-models vous aide à trouver des modèles Hugging Face exécutables en local avec llama.cpp et GGUF, à choisir une quantification adaptée, puis à les lancer sur CPU, Apple Metal, CUDA ou ROCm. Le guide couvre la découverte des modèles, la recherche exacte des fichiers GGUF, la configuration en mode serveur ou en ligne de commande, ainsi qu’un chemin rapide pour le développement backend et l’inférence locale privée.

Étoiles10.4k

Favoris0

Commentaires0

Ajouté4 mai 2026

CatégorieBackend Development

Commande d’installation

npx skills add huggingface/skills --skill huggingface-local-models

Score éditorial

Ce skill obtient 82/100, ce qui en fait une bonne candidate pour un annuaire destiné aux utilisateurs qui veulent un workflow ciblé pour trouver des modèles Hugging Face au format GGUF et les exécuter en local avec llama.cpp. Le dépôt fournit suffisamment de détails opérationnels pour réduire les tâtonnements par rapport à un prompt générique, même si l’utilisateur devra encore faire preuve d’un certain discernement selon le modèle et noter l’absence de commande d’installation.

82/100

Points forts

Ciblage précis pour sélectionner des modèles GGUF et les lancer avec llama.cpp sur CPU, Metal, CUDA ou ROCm
Excellentes consignes opérationnelles avec recherche à partir d’une URL, vérification exacte du fichier .gguf, choix de la quantification et commandes directes `llama-cli` / `llama-server`
Des références utiles sur l’accélération matérielle, la découverte sur le Hub et la quantification réduisent l’ambiguïté au moment de l’exécution

Points de vigilance

Aucune commande d’installation dans `SKILL.md`, donc l’adoption suppose que `llama.cpp` est déjà disponible ou qu’il sera installé séparément
Une partie du flux repose sur le fait que le dépôt du modèle fournisse une recommandation claire pour une application locale ; dans certains cas limites, il faudra peut-être revenir à une sélection manuelle de la quantification et du fichier

Huggingface Llama Cpp MCP Cli Local Llm OpenAI

Vue d’ensemble

Vue d’ensemble du skill `huggingface-local-models`

huggingface-local-models vous aide à trouver un modèle Hugging Face déjà compatible avec llama.cpp, à choisir une quantification GGUF cohérente, puis à l’exécuter en local sur CPU, Apple Metal, CUDA ou ROCm. Ce skill est particulièrement utile quand vous voulez prendre rapidement une décision concrète pour un modèle local, et non faire un comparatif générique.

Le meilleur cas d’usage pour configurer une inférence locale avec `huggingface-local-models`

Utilisez le skill huggingface-local-models si vous devez transformer une idée de modèle encore vague en commande exécutable, surtout pour des workflows backend qui exigent une inférence locale prévisible, un service compatible OpenAI ou une exécution privée/hors ligne.

Ce que le skill fait bien

Le skill se concentre sur les points qui bloquent le plus souvent l’adoption : trouver des dépôts GGUF, vérifier les noms de fichiers exacts, choisir la bonne quantification pour votre matériel et décider s’il faut lancer llama-cli ou llama-server.

Quand ce n’est pas le bon outil

Si vous avez besoin de benchmarker des modèles, de faire du prompt engineering pour une application précise ou de concevoir une architecture de déploiement complète, ce skill est trop ciblé. Il vous aide à faire tourner proprement un modèle local ; il ne remplace pas la conception système ni l’évaluation.

Comment utiliser le skill `huggingface-local-models`

Installer le skill et ouvrir les bons fichiers

Installez le skill huggingface-local-models avec :

npx skills add huggingface/skills --skill huggingface-local-models

Puis lisez d’abord SKILL.md, puis references/hub-discovery.md, references/quantization.md et references/hardware.md. Ces fichiers contiennent les vraies règles de décision pour la découverte des modèles, le choix de la quantification et les paramètres de lancement selon le matériel.

Transformer un objectif flou en demande exploitable

La meilleure utilisation de huggingface-local-models commence par un ensemble de contraintes précises : famille de modèle, matériel cible, limite mémoire et besoin ou non d’un CLI ou d’un serveur. Un bon brief ressemble à ceci :

« Trouve un modèle Qwen de moins de 24B qui tourne sur un MacBook de 16 Go et donne-moi la meilleure quant GGUF. »
« J’ai besoin d’un endpoint local compatible OpenAI pour un assistant de code sur un seul GPU NVIDIA. »
« Choisis un petit modèle adapté au CPU avec la perte de qualité la plus faible possible. »

Une demande trop vague comme « recommande-moi un modèle local » force à deviner et ralentit la sélection.

Suivre le workflow du dépôt, pas une consigne générique

Le guide huggingface-local-models fonctionne avec une logique d’abord par URL : cherchez sur Hugging Face avec apps=llama.cpp, ouvrez la page du dépôt avec ?local-app=llama.cpp, confirmez les noms exacts des fichiers .gguf via l’API de l’arborescence, puis lancez avec llama-cli -hf <repo>:<QUANT> ou llama-server -hf <repo>:<QUANT>. Utilisez --hf-repo et --hf-file uniquement lorsque la convention de nommage n’est pas standard.

Conseils de lancement pratiques qui comptent vraiment

Pour huggingface-local-models for Backend Development, donnez la priorité à la forme de service plutôt qu’au prestige brut du modèle : utilisez llama-server si vous avez besoin d’une API, vérifiez les accès restreints avec hf auth login, et ne convertissez depuis des poids Transformers que s’il n’existe pas déjà de GGUF. Le matériel change aussi la commande : Metal sur Apple Silicon, CUDA sur NVIDIA, ROCm sur AMD, et ajustement du nombre de cœurs sur CPU.

FAQ du skill `huggingface-local-models`

`huggingface-local-models` est-il réservé aux utilisateurs de `llama.cpp` ?

Oui, principalement. Le skill huggingface-local-models est construit autour de GGUF et des dépôts compatibles avec llama.cpp, donc il est surtout pertinent si ce runtime est votre cible ou déjà votre choix.

Faut-il installer le Hugging Face CLI avant de l’utiliser ?

Pas forcément pour la découverte. Les workflows basés sur les URL permettent de chercher et d’inspecter des modèles sans outil supplémentaire, mais hf auth login devient important pour les dépôts restreints et certains workflows nécessitant un accès privé.

En quoi est-ce différent d’une simple demande à un chatbot pour recommander un modèle ?

Une consigne classique peut deviner un nom de modèle ; ce skill vous aide à vérifier le dépôt réel, le fichier, la quantification et la commande de lancement. Cela réduit le mode d’échec le plus courant : choisir un modèle qui semble adapté, mais qui n’a pas le bon artefact GGUF ou ne correspond pas au matériel.

`huggingface-local-models` est-il adapté aux débutants ?

Oui, si votre objectif est de « faire fonctionner correctement un modèle local ». Il l’est moins si vous voulez convertir des poids, déboguer des flags de compilation ou régler le comportement multi-GPU sans lire les pages de référence liées.

Comment améliorer le skill `huggingface-local-models`

Donnez au skill les contraintes dont il a besoin

Le plus gros gain de qualité vient du fait de préciser dès le départ le matériel et le résultat attendu. Indiquez la RAM ou la VRAM, le système d’exploitation, et si vous voulez un usage chat, code ou serveur. Par exemple : « macOS, 16 Go de mémoire unifiée, je veux le meilleur modèle de code qui reste réactif. »

Privilégiez des preuves exactes du dépôt et du fichier

Le skill donne les meilleurs résultats quand vous confirmez la recommandation local-app de Hugging Face et le nom exact du fichier .gguf avant de lancer. Si le dépôt propose plusieurs quantifications, choisissez en fonction de votre budget mémoire plutôt que de partir automatiquement sur le plus petit fichier.

Surveillez les échecs les plus fréquents

Les erreurs habituelles sont de choisir une famille de modèle avant d’avoir vérifié le matériel, de ne pas contrôler le nom du fichier et d’utiliser une commande serveur alors qu’un test en CLI serait plus prudent au départ. Si les performances sont mauvaises, ajustez d’abord la quantification, le déchargement GPU ou le nombre de threads avant de conclure que le modèle est mauvais.

Itérez avec un deuxième passage plus précis

Après le premier essai, affinez votre demande avec des symptômes concrets : latence, pression mémoire, baisse de qualité ou sous-utilisation du GPU. Un meilleur suivi pour huggingface-local-models serait : « Même modèle, mais je veux moins de mémoire utilisée et de meilleures réponses ; donne-moi la quantification suivante la plus adaptée et la commande de lancement. »

Notes et avis

Aucune note pour le moment

Partagez votre avis

Connectez-vous pour laisser une note et un commentaire sur cet outil.

0/10000

Derniers avis

Enregistrement...

Autres outils de cette catégorie

wrangler

par cloudflare

Le skill wrangler vous aide à trouver les bonnes commandes CLI, les bons schémas de configuration et les étapes de déploiement pour Cloudflare Workers. Utilisez-le pour l’usage de wrangler, les vérifications d’installation de wrangler et un guide pratique de wrangler lors de la création ou de la mise en ligne de Workers pour le développement backend.

Backend Development

Favoris 0GitHub 1.3k

clickhouse-best-practices

par ClickHouse

clickhouse-best-practices est un skill de bonnes pratiques ClickHouse pour l’ingénierie des bases de données. Il guide la conception du schéma, l’optimisation des requêtes, la stratégie d’insertion et la connexion des agents avec des recommandations fondées sur des règles, afin de faciliter le déclenchement, la revue et la citation de l’usage de clickhouse-best-practices dans les workflows ClickHouse.

Database Engineering

Favoris 0GitHub 412

clickhouse-architecture-advisor

par ClickHouse

clickhouse-architecture-advisor aide à concevoir des workloads ClickHouse avec des décisions adaptées à la charge pour l’ingestion, le partitionnement, les jointures, les dictionnaires, les upserts et la pré-agrégation. Il est particulièrement utile pour le Backend Development, l’observabilité, le SIEM, l’analytics produit, la télémétrie IoT et les pipelines financiers. Le skill qualifie les recommandations comme official, derived ou field.

Backend Development

Favoris 0GitHub 412

chdb-datastore

par ClickHouse

chdb-datastore est un skill compatible avec pandas pour une analyse de données rapide, avec une API DataStore adossée à ClickHouse. Il prend en charge les connecteurs de fichiers, de bases de données et de cloud, les jointures entre sources, et des changements de code minimes pour des workflows de type pandas. Utilisez ce guide chdb-datastore lorsque vous voulez une couche d’analyse prête à l’emploi pour des jeux de données plus volumineux.

Data Analysis

Favoris 0GitHub 0

mcp-server-patterns

par affaan-m

mcp-server-patterns est un guide pratique pour le développement de serveurs MCP avec le SDK Node/TypeScript. Découvrez quand utiliser les tools, resources, prompts, la validation Zod, et stdio versus Streamable HTTP, avec des notes d’API à jour pour une implémentation et un débogage plus sûrs.

MCP Server Development

Favoris 0GitHub 156.2k

laravel-tdd

par affaan-m

laravel-tdd est un guide de test-driven development Laravel pour PHPUnit et Pest. Il aide à choisir entre tests unitaires, fonctionnels et d’intégration, à définir la stratégie de base de données, à utiliser des fakes, à fixer des objectifs de couverture et à mettre en place un workflow pratique pour automatiser les tests.

Test Automation

Favoris 0GitHub 156.2k

django-security

par affaan-m

django-security est un guide pratique pour renforcer la sécurité des applications Django : authentification, autorisation, protection CSRF, prévention des attaques XSS et des injections SQL, cookies sécurisés et réglages de production. Il aide les développeurs et les relecteurs à mener un Security Audit ciblé, à repérer rapidement les configurations risquées et à appliquer des correctifs concrets avant le déploiement.

Security Audit

Favoris 0GitHub 156.1k

uv-package-manager

par wshobson

Utilisez le skill uv-package-manager pour planifier les installations, migrer depuis pip ou Poetry et appliquer des workflows uv concrets pour configurer des projets Python, gérer les lockfiles, la CI, Docker et les workspaces.

Project Setup

Favoris 0GitHub 32.6k

performance-optimization

par addyosmani

La skill performance-optimization vous aide à mesurer d’abord, à repérer le véritable goulot d’étranglement, à le corriger, puis à vérifier les résultats. Utilisez-la lorsqu’il existe des exigences de performance, que vous soupçonnez une régression, ou que les Core Web Vitals, les temps de chargement ou la latence d’interaction doivent être améliorés.

Performance Optimization

Favoris 0GitHub 18.7k

huggingface-vision-trainer

par huggingface

huggingface-vision-trainer vous aide à installer et utiliser un skill Hugging Face pour des tâches d’entraînement vision : détection d’objets, classification d’images et segmentation SAM/SAM2. Il couvre la préparation des jeux de données, la configuration de GPU cloud, l’évaluation, la journalisation avec Trackio et l’envoi des résultats sur le Hub. Idéal pour l’automatisation backend et les workflows d’entraînement reproductibles.

Backend Development

Favoris 0GitHub 10.4k

constant-time-analysis

par trailofbits

constant-time-analysis est un skill d’audit de sécurité conçu pour repérer les risques de side-channel temporel dans le code cryptographique avant qu’ils ne deviennent des bogues exploitables. Utilisez-le pour examiner les calculs dépendants des secrets, les branches, les comparaisons et le code compilé lors de revues en C, C++, Go, Rust, Swift, Java, Kotlin, PHP, JavaScript, TypeScript, Python ou Ruby.

Security Audit

Favoris 0GitHub 5k

azure-eventgrid-dotnet

par microsoft

azure-eventgrid-dotnet est un guide pratique d’utilisation du SDK Azure Event Grid pour .NET. Il couvre le choix des packages, les étapes d’installation, les options d’authentification et la publication ou la consommation d’événements pour les topics, domains, namespaces et CloudEvents. Idéal pour le développement backend et les workflows .NET orientés événements.

Backend Development

Favoris 0GitHub 2.2k

durable-objects

par cloudflare

Skill durable-objects pour Cloudflare Workers et le développement backend. Découvrez quand utiliser Durable Objects pour la coordination avec état, le RPC, les alarmes, les WebSockets, le stockage SQLite, la configuration wrangler, les tests et les bonnes pratiques. Inclut des নির্দেশ?

Backend Development

Favoris 0GitHub 1.3k

terraform-stacks

par hashicorp

terraform-stacks est une skill pratique pour HashiCorp Terraform Stacks. Utilisez-la pour créer, modifier et valider des fichiers .tfcomponent.hcl et .tfdeploy.hcl, relier des composants et des déploiements, gérer une infrastructure multi-environnement ou multi-région, et dépanner la syntaxe, les dépendances et l’organisation des Stack. Très adaptée aux workflows de développement backend et d’ingénierie de plateforme.

Backend Development

Favoris 0GitHub 583

terraform-style-guide

par hashicorp

terraform-style-guide aide à générer et relire du Terraform HCL selon les conventions de style HashiCorp, l’organisation des fichiers et des valeurs par défaut orientées sécurité. Utilisez-le pour la génération de code Terraform natif, la structure des modules, les variables, les outputs et une configuration plus sûre dans de vrais dépôts.

Code Generation

Favoris 0GitHub 583

tinybird-python-sdk-guidelines

par tinybirdco

tinybird-python-sdk-guidelines vous aide à installer et utiliser tinybird-sdk pour des projets Tinybird en Python. Le guide couvre les datasources, les endpoints, les clients, les connexions, la migration depuis les fichiers hérités, ainsi que les workflows de développement backend avec des indications pour la build et le déploiement.

Backend Development

Favoris 0GitHub 16

huggingface-local-models

Vue d’ensemble du skill huggingface-local-models

Le meilleur cas d’usage pour configurer une inférence locale avec huggingface-local-models

Ce que le skill fait bien

Quand ce n’est pas le bon outil

Comment utiliser le skill huggingface-local-models

Installer le skill et ouvrir les bons fichiers

Transformer un objectif flou en demande exploitable

Suivre le workflow du dépôt, pas une consigne générique

Conseils de lancement pratiques qui comptent vraiment

FAQ du skill huggingface-local-models

huggingface-local-models est-il réservé aux utilisateurs de llama.cpp ?

Faut-il installer le Hugging Face CLI avant de l’utiliser ?

En quoi est-ce différent d’une simple demande à un chatbot pour recommander un modèle ?

huggingface-local-models est-il adapté aux débutants ?

Comment améliorer le skill huggingface-local-models

Donnez au skill les contraintes dont il a besoin

Privilégiez des preuves exactes du dépôt et du fichier

Surveillez les échecs les plus fréquents

Itérez avec un deuxième passage plus précis

Notes et avis

Vue d’ensemble du skill `huggingface-local-models`

Le meilleur cas d’usage pour configurer une inférence locale avec `huggingface-local-models`

Comment utiliser le skill `huggingface-local-models`

FAQ du skill `huggingface-local-models`

`huggingface-local-models` est-il réservé aux utilisateurs de `llama.cpp` ?

`huggingface-local-models` est-il adapté aux débutants ?

Comment améliorer le skill `huggingface-local-models`