huggingface-local-models

작성자 huggingface

huggingface-local-models는 Hugging Face 모델 중 llama.cpp와 GGUF로 로컬 실행 가능한 모델을 찾고, 실용적인 양자화 버전을 고른 뒤 CPU, Apple Metal, CUDA, 또는 ROCm에서 바로 실행할 수 있도록 돕습니다. 모델 탐색, 정확한 GGUF 파일 찾기, 서버/CLI 설정, 그리고 백엔드 개발과 비공개 로컬 추론을 위한 빠른 경로까지 다룹니다.

Stars10.4k

즐겨찾기0

추가됨2026년 5월 4일

카테고리Backend Development

설치 명령어

npx skills add huggingface/skills --skill huggingface-local-models

큐레이션 점수

이 스킬의 평점은 82/100으로, Hugging Face GGUF 모델을 찾고 llama.cpp로 로컬에서 실행하려는 사용자를 위한 집중형 워크플로우를 제공하는, 디렉터리 등록 후보로 충분히 탄탄한 편입니다. 일반적인 프롬프트보다 운영에 필요한 정보가 더 구체적이어서 시행착오를 줄여주지만, 모델별 판단은 여전히 일부 필요하며 설치 명령이 없다는 점은 감안해야 합니다.

82/100

강점

CPU, Metal, CUDA, ROCm 환경에서 GGUF 모델을 고르고 llama.cpp로 실행하는 데 초점이 분명함
URL 우선 탐색, 정확한 .gguf 파일 확인, 양자화 선택, llama-cli/llama-server 직접 실행 명령까지 실무형 안내가 탄탄함
하드웨어 가속, Hub 탐색, 양자화 관련 참고 자료가 있어 실행 중 모호함을 줄여줌

주의점

SKILL.md에 설치 명령이 없어, 사용자는 이미 llama.cpp가 있거나 별도로 설치해야 함
일부 흐름은 모델 저장소에 로컬 앱 권장 사항이 명확히 있다는 전제에 의존하므로, 예외적인 경우에는 수동으로 양자화 파일을 고르고 선택해야 할 수 있음

Huggingface Llama Cpp MCP Cli Local Llm OpenAI

개요

huggingface-local-models 개요

huggingface-local-models는 이미 llama.cpp와 호환되는 Hugging Face 모델을 찾고, 무리 없는 GGUF quant를 고르고, CPU, Apple Metal, CUDA, ROCm에서 로컬로 실행하도록 돕습니다. generic한 모델 목록이 아니라, 실용적인 로컬 서빙 결정을 빠르게 내려야 할 때 가장 유용합니다.

로컬 inference setup에 가장 잘 맞는 경우

모델 아이디어를 실제로 실행 가능한 명령으로 바꿔야 할 때 huggingface-local-models를 사용하세요. 특히 예측 가능한 로컬 inference, OpenAI-compatible serving, private/offline 실행이 필요한 백엔드 워크플로에 잘 맞습니다.

무엇에 강한가

이 skill은 보통 도입을 막는 지점에 집중합니다. GGUF repo를 찾고, 정확한 파일 이름을 확인하고, 하드웨어에 맞는 quant를 고르고, llama-cli와 llama-server 중 무엇을 쓸지 판단하는 일입니다.

언제는 맞지 않는가

모델 벤치마킹, 특정 앱을 위한 prompt engineering, 전체 배포 아키텍처가 필요하다면 이 skill은 범위가 너무 좁습니다. 로컬 모델을 깔끔하게 돌리게 해주기는 하지만, 시스템 설계나 평가는 대신해주지 않습니다.

huggingface-local-models skill 사용 방법

설치하고 올바른 파일부터 여세요

다음 명령으로 huggingface-local-models skill을 설치합니다.

npx skills add huggingface/skills --skill huggingface-local-models

그다음에는 SKILL.md를 먼저 읽고, 이어서 references/hub-discovery.md, references/quantization.md, references/hardware.md를 확인하세요. 이 파일들에 모델 발견, quant 선택, 하드웨어별 실행 설정에 대한 실제 판단 규칙이 들어 있습니다.

막연한 목표를 쓸모 있는 요청으로 바꾸세요

huggingface-local-models를 제대로 쓰려면 먼저 구체적인 제약을 적어야 합니다. model family, 대상 하드웨어, 메모리 한도, CLI가 필요한지 server가 필요한지를 함께 주는 방식이 좋습니다. 좋은 입력 예시는 다음과 같습니다.

“24B 이하의 Qwen 모델 중 16 GB MacBook에서 돌아가고, 가장 적절한 GGUF quant를 알려줘.”
“단일 NVIDIA GPU에서 코딩 어시스턴트용 local OpenAI-compatible endpoint가 필요해.”
“품질 손실이 가장 적은, CPU 친화적인 작은 모델을 골라줘.”

“로컬 모델 추천해줘”처럼 약한 입력은 추측을 늘리고 선택 속도를 늦춥니다.

일반적인 prompt가 아니라 repo의 워크플로를 따르세요

huggingface-local-models guide는 URL-first 방식입니다. Hugging Face에서 apps=llama.cpp로 검색하고, repo의 ?local-app=llama.cpp 페이지를 연 뒤, tree API로 정확한 .gguf 파일명을 확인하세요. 그 다음 llama-cli -hf <repo>:<QUANT> 또는 llama-server -hf <repo>:<QUANT>로 실행합니다. 이름 규칙이 비표준일 때만 --hf-repo와 --hf-file을 사용하세요.

실제로 중요한 실행 팁

huggingface-local-models for Backend Development에서는 모델의 유명세보다 서빙 형태를 우선하세요. API가 필요하면 llama-server를 쓰고, gated access가 있으면 hf auth login으로 인증을 확인하며, GGUF가 이미 없을 때만 Transformers weights에서 변환하세요. 하드웨어에 따라 명령도 달라집니다. Apple Silicon에서는 Metal, NVIDIA에서는 CUDA, AMD에서는 ROCm, CPU에서는 core count 튜닝을 적용합니다.

huggingface-local-models skill FAQ

이건 `llama.cpp` 사용자만을 위한 건가요?

주로 그렇습니다. huggingface-local-models skill은 GGUF와 llama.cpp 호환 repo를 중심으로 만들어졌기 때문에, 그 runtime이 목표이거나 이미 정해져 있을 때 가장 잘 맞습니다.

사용 전에 Hugging Face CLI가 꼭 필요한가요?

발견 과정에서는 반드시 필요하지 않습니다. repo의 URL 워크플로를 쓰면 추가 도구 없이도 모델을 검색하고 살펴볼 수 있습니다. 다만 gated repo와 일부 private-access 워크플로에서는 hf auth login이 중요해집니다.

챗봇에게 모델 추천을 묻는 것과 무엇이 다른가요?

일반 prompt는 모델 이름을 대충 찍을 수 있지만, 이 skill은 실제 repo, 파일, quant, 실행 명령을 검증하게 도와줍니다. 그 덕분에 가장 흔한 실패, 즉 겉보기엔 맞아 보이지만 실제로는 올바른 GGUF artifact가 없거나 하드웨어에 맞지 않는 모델을 고르는 문제를 줄일 수 있습니다.

`huggingface-local-models`는 초보자에게도 쉬운가요?

목표가 “로컬 모델 하나를 성공적으로 실행하기”라면 그렇습니다. 반면 weights 변환, build flags 디버깅, multi-GPU 동작 튜닝처럼 linked reference pages를 읽지 않고는 어려운 작업에는 초보자 친화적이지 않습니다.

huggingface-local-models skill 개선 방법

skill이 필요로 하는 제약을 분명히 주세요

가장 큰 품질 향상은 처음부터 하드웨어와 출력 목표를 명시하는 데서 나옵니다. RAM 또는 VRAM, OS, 그리고 chat, code, server 중 어떤 용도인지 포함하세요. 예를 들면: “macOS, 16 GB unified memory, 반응성이 유지되는 가장 좋은 코딩 모델이 필요함.”

정확한 repo와 파일 근거를 우선하세요

Hugging Face local-app 추천과 정확한 .gguf 파일명을 실행 전에 확인할수록 결과가 좋아집니다. repo에 여러 quant가 있다면, 가장 작은 파일로 자동 선택하지 말고 메모리 예산에 맞춰 고르세요.

자주 생기는 실패 지점을 조심하세요

흔한 실수는 하드웨어를 확인하기 전에 model family를 먼저 고르는 것, file-name verification을 건너뛰는 것, 그리고 먼저 CLI 테스트를 해도 충분한데 server command를 쓰는 것입니다. 성능이 나쁘다면 model 자체를 탓하기 전에 quant, GPU offload, thread count부터 조정하세요.

두 번째 패스로 더 좁혀가세요

첫 실행 뒤에는 latency, RAM 압박, 품질 저하, GPU 미활용 같은 구체적인 증상으로 입력을 다듬으세요. huggingface-local-models에 더 좋은 후속 요청 예시는 다음과 같습니다. “같은 모델이지만 메모리 사용은 더 낮고 답변 품질은 더 좋아야 합니다. 다음으로 좋은 quant와 launch command를 알려줘.”

평점 및 리뷰

아직 평점이 없습니다

리뷰 남기기

이 스킬의 평점과 리뷰를 남기려면 로그인하세요.

0/10000

최신 리뷰

저장 중...

이 카테고리의 다른 스킬

wrangler

작성자 cloudflare

wrangler 스킬은 Cloudflare Workers에 맞는 정확한 CLI 명령, 설정 형태, 배포 단계를 찾는 데 도움을 줍니다. wrangler 사용법, wrangler 설치 확인, Backend Development에서 Workers를 만들거나 배포할 때 참고할 실용적인 wrangler 가이드가 필요할 때 사용하세요.

Backend Development

즐겨찾기 0GitHub 1.3k

clickhouse-best-practices

작성자 ClickHouse

clickhouse-best-practices는 Database Engineering을 위한 ClickHouse 모범 사례 skill입니다. 스키마 설계, 쿼리 튜닝, insert 전략, 에이전트 연결성을 규칙 기반 권장사항으로 안내해, ClickHouse 워크플로에서 clickhouse-best-practices 사용을 더 쉽게 트리거하고 검토하며 인용할 수 있게 합니다.

Database Engineering

즐겨찾기 0GitHub 412

clickhouse-architecture-advisor

작성자 ClickHouse

clickhouse-architecture-advisor는 수집, 파티셔닝, 조인, 딕셔너리, upsert, 사전 집계까지 워크로드를 고려한 판단으로 ClickHouse 워크로드 설계를 돕습니다. Backend Development, observability, SIEM, 제품 분석, IoT 텔레메트리, 금융 파이프라인에 특히 유용합니다. 이 skill은 안내 내용을 official, derived, field로 구분해 제공합니다.

Backend Development

즐겨찾기 0GitHub 412

chdb-datastore

작성자 ClickHouse

chdb-datastore는 ClickHouse 기반 DataStore API를 활용해 빠른 데이터 분석을 지원하는 pandas 호환 skill입니다. 파일, 데이터베이스, 클라우드 커넥터를 지원하고, 서로 다른 소스 간 조인도 가능하며, pandas 스타일 워크플로우에 최소한의 코드 수정만으로 적용할 수 있습니다. 더 큰 데이터셋을 바로 분석할 수 있는 드롭인 분석 계층이 필요할 때 이 chdb-datastore 가이드를 사용하세요.

Data Analysis

즐겨찾기 0GitHub 0

mcp-server-patterns

작성자 affaan-m

mcp-server-patterns는 Node/TypeScript SDK로 MCP 서버를 개발할 때 참고하기 좋은 실용 가이드입니다. 도구, 리소스, 프롬프트, Zod 검증, stdio와 Streamable HTTP를 언제 선택해야 하는지 배우고, 더 안전한 구현과 디버깅을 위한 최신 API 메모까지 함께 확인할 수 있습니다.

MCP Server Development

즐겨찾기 0GitHub 156.2k

laravel-tdd

작성자 affaan-m

laravel-tdd는 PHPUnit과 Pest를 위한 Laravel 테스트 주도 개발 가이드입니다. 단위 테스트, 기능 테스트, 통합 테스트를 언제 선택할지, 데이터베이스 전략은 어떻게 잡을지, fake는 어디에 쓸지, 커버리지 목표는 어느 정도가 적절한지, 그리고 테스트 자동화를 어떻게 실무 흐름에 녹일지에 대한 실용적인 지침을 제공합니다.

Test Automation

즐겨찾기 0GitHub 156.2k

django-security

작성자 affaan-m

django-security는 인증, 인가, CSRF, XSS, SQL 인젝션 방지, 보안 쿠키, 운영 환경 설정을 중심으로 Django 앱을 강화하는 실용 가이드입니다. 개발자와 리뷰어가 집중적인 보안 감사(Security Audit)를 수행하고, 위험한 설정을 빠르게 찾아내며, 배포 전에 구체적인 수정안을 적용하는 데 도움을 줍니다.

Security Audit

즐겨찾기 0GitHub 156.1k

uv-package-manager

작성자 wshobson

uv-package-manager 스킬을 사용하면 설치 계획 수립, pip 또는 Poetry에서의 마이그레이션, 그리고 Python 프로젝트 설정, lockfile, CI, Docker, workspace 전반에 걸친 실전 uv 워크플로를 적용할 수 있습니다.

Project Setup

즐겨찾기 0GitHub 32.6k

performance-optimization

작성자 addyosmani

performance-optimization 스킬은 먼저 측정하고, 실제 병목을 찾아 수정한 뒤, 결과를 검증하도록 돕습니다. 성능 요구사항이 있거나 회귀가 의심될 때, 또는 Core Web Vitals, 로딩 시간, 상호작용 지연 개선이 필요할 때 사용하세요.

Performance Optimization

즐겨찾기 0GitHub 18.7k

huggingface-vision-trainer

작성자 huggingface

huggingface-vision-trainer는 객체 탐지, 이미지 분류, SAM/SAM2 세그멘테이션 같은 비전 학습 작업에 사용할 Hugging Face 스킬을 설치하고 활용하는 데 도움을 줍니다. 데이터셋 준비, 클라우드 GPU 설정, 평가, Trackio 로깅, 결과를 Hub에 푸시하는 과정까지 다루며, 백엔드 자동화와 반복 가능한 학습 워크플로에 적합합니다.

Backend Development

즐겨찾기 0GitHub 10.4k

constant-time-analysis

작성자 trailofbits

constant-time-analysis는 암호화 코드에서 타이밍 사이드채널 위험을 찾아, 그것이 악용 가능한 버그로 번지기 전에 점검하는 보안 감사용 스킬입니다. C, C++, Go, Rust, Swift, Java, Kotlin, PHP, JavaScript, TypeScript, Python, Ruby를 검토할 때 비밀값에 의존하는 연산, 분기, 비교, 그리고 컴파일된 출력까지 함께 살펴보는 데 사용하세요.

Security Audit

즐겨찾기 0GitHub 5k

azure-eventgrid-dotnet

작성자 microsoft

azure-eventgrid-dotnet은 .NET에서 Azure Event Grid SDK를 실용적으로 다루는 가이드입니다. 패키지 선택, 설치 단계, 인증 방식, topics, domains, namespaces, CloudEvents의 이벤트 발행 및 수신까지 다룹니다. 백엔드 개발과 이벤트 기반 .NET 워크플로에 적합합니다.

Backend Development

즐겨찾기 0GitHub 2.2k

durable-objects

작성자 cloudflare

Cloudflare Workers와 백엔드 개발을 위한 durable-objects 스킬입니다. 상태가 필요한 조정, RPC, 알람, WebSockets, SQLite 스토리지, wrangler 설정, 테스트, 모범 사례 검토에서 Durable Objects를 언제 써야 하는지 배울 수 있습니다. Cloudflare 문서와 저장소 참고 자료를 바탕으로 설치 및 사용 가이드를 포함합니다.

Backend Development

즐겨찾기 0GitHub 1.3k

terraform-stacks

작성자 hashicorp

terraform-stacks는 HashiCorp Terraform Stacks를 위한 실용적인 스킬입니다. `.tfcomponent.hcl` 및 `.tfdeploy.hcl` 파일을 만들고, 수정하고, 검증하는 데 사용하세요. 구성 요소와 배포를 연결하고, 멀티 환경 또는 멀티 리전 인프라를 관리하며, Stack 구문·의존성·레이아웃 문제를 진단하는 데도 유용합니다. 백엔드 개발과 플랫폼 엔지니어링 워크플로에 특히 잘 맞습니다.

Backend Development

즐겨찾기 0GitHub 583

terraform-style-guide

작성자 hashicorp

terraform-style-guide는 HashiCorp 스타일 규칙, 파일 구성, 보안 중심 기본값을 바탕으로 Terraform HCL의 생성과 검토를 돕습니다. Terraform 네이티브 코드 생성, 모듈 구조, 변수, 출력, 그리고 실제 저장소에서 더 안전한 설정이 필요할 때 유용합니다.

Code Generation

즐겨찾기 0GitHub 583

tinybird-python-sdk-guidelines

작성자 tinybirdco

tinybird-python-sdk-guidelines는 Python 기반 Tinybird 프로젝트에서 tinybird-sdk를 설치하고 사용하는 데 도움을 줍니다. datasource, endpoint, client, connection, 레거시 파일 마이그레이션, 백엔드 개발 워크플로와 함께 빌드 및 배포 가이드를 다룹니다.

Backend Development

즐겨찾기 0GitHub 16

huggingface-local-models

huggingface-local-models 개요

로컬 inference setup에 가장 잘 맞는 경우

무엇에 강한가

언제는 맞지 않는가

huggingface-local-models skill 사용 방법

설치하고 올바른 파일부터 여세요

막연한 목표를 쓸모 있는 요청으로 바꾸세요

일반적인 prompt가 아니라 repo의 워크플로를 따르세요

실제로 중요한 실행 팁

huggingface-local-models skill FAQ

이건 llama.cpp 사용자만을 위한 건가요?

사용 전에 Hugging Face CLI가 꼭 필요한가요?

챗봇에게 모델 추천을 묻는 것과 무엇이 다른가요?

huggingface-local-models는 초보자에게도 쉬운가요?

huggingface-local-models skill 개선 방법

skill이 필요로 하는 제약을 분명히 주세요

정확한 repo와 파일 근거를 우선하세요

자주 생기는 실패 지점을 조심하세요

두 번째 패스로 더 좁혀가세요

평점 및 리뷰

이건 `llama.cpp` 사용자만을 위한 건가요?

`huggingface-local-models`는 초보자에게도 쉬운가요?