evaluation-methodology

작성자 wshobson

evaluation-methodology 스킬은 Model Evaluation을 위한 PluginEval 점수 체계를 설명합니다. 평가 레이어, 루브릭, 종합 점수 산정, 배지 기준점은 물론, 결과를 해석하고 취약한 평가 차원을 개선하는 실무적인 방법까지 다룹니다.

Stars32.6k

즐겨찾기0

추가됨2026년 3월 30일

카테고리Model Evaluation

설치 명령어

npx skills add wshobson/agents --skill evaluation-methodology

큐레이션 점수

이 스킬은 83/100점을 받아, PluginEval이 스킬과 플러그인을 어떻게 점수화하는지 자세히 참고하려는 사용자에게 탄탄한 디렉터리 항목으로 볼 수 있습니다. 저장소 근거를 보면 명시적인 평가 차원, 수식, 기준점, 안티패턴, 개선 가이드가 포함된 실질적인 방법론 문서가 갖춰져 있어, 에이전트가 해석과 기준 보정에 신뢰할 수 있는 참고 자료로 활용할 수 있습니다. 다만 직접 실행하는 실습형 워크플로우보다는 운영 기준에 가까운 레퍼런스이므로, 단계별 자동화가 아니라 평가 로직을 일관되게 이해해야 할 때 설치하는 편이 적합합니다.

83/100

강점

점수 해석, 기준점 보정, 개선 활용 사례를 구체적으로 설명해 어떤 상황에서 써야 하는지 명확합니다
운영 관점의 실질적 내용이 풍부합니다. `SKILL.md`에서 평가 레이어, 차원, 혼합 가중치, 수식, 배지, 안티패턴 플래그, Elo 랭킹까지 폭넓고 명시적으로 다룹니다
기준 문서 구조에 대한 신뢰도가 높습니다. `references/rubrics.md`에 권위 있는 루브릭 파일이 있어 점수 기준을 일관되게 참조할 수 있습니다

주의점

대부분 문서 중심이며, 이 방법론을 바로 실행 가능한 워크플로우로 바꿔주는 스크립트나 설치 명령은 제공되지 않습니다
일부 구현 세부사항은 `layers/static.py` 같은 분석기 파일을 가리키지만, 여기서 확인되는 핵심 근거는 실행 가능한 평가 도구라기보다 개념적 방법론 설명에 가깝습니다

Plugin Eval Testing Checklist Docs Workflow Metrics Ai Agents Llm

개요

evaluation-methodology 스킬 개요

evaluation-methodology 스킬이 하는 일

evaluation-methodology 스킬은 Model Evaluation을 위한 PluginEval의 점수 체계를 설명합니다. 흔한 “모델을 어떻게 평가할까” 식의 일반론 프롬프트가 아닙니다. 플러그인이나 스킬의 품질을 평가할 때 쓰이는 세 가지 평가 레이어, 점수 차원, 블렌드 로직, 종합 점수, 배지 기준선, 안티패턴 플래그, 랭킹 개념까지 아우르는 구체적인 방법론 레퍼런스입니다.

evaluation-methodology를 설치하면 좋은 사람

이 스킬은 단순히 점수 하나를 뽑는 것보다, 평가 결과를 해석하거나 개선해야 하는 사람에게 가장 잘 맞습니다. 특히 다음과 같은 경우에 유용합니다:

낮은 점수의 원인을 진단하려는 스킬 또는 플러그인 작성자
품질 게이트를 조정해야 하는 마켓플레이스 또는 플랫폼 운영자
점수 이의 제기 상황에서 일관된 언어로 설명해야 하는 리뷰어
파트너나 이해관계자에게 배지나 랭킹 기준을 설명해야 하는 팀

실제 과제가 “왜 이런 점수가 나왔는지, 무엇부터 바꿔야 하는지”를 파악하는 것이라면, evaluation-methodology는 매우 잘 맞는 선택입니다.

실제로 해결하려는 핵심 과제

도입 전에 사용자가 보통 확인하고 싶어 하는 것은 네 가지입니다:

어떤 평가 차원이 가장 중요한지
정적 검사와 judge 기반 점수화가 어떻게 다른지
Monte Carlo나 블렌드 레이어가 최종 점수에 어떤 영향을 주는지
어떤 변경이 점수를 가장 빠르게 끌어올리는지

evaluation-methodology 스킬의 가치는 이런 답을 구조적으로 제공한다는 데 있습니다. 흩어진 루브릭 메모를 짜맞춰 추론하게 두지 않습니다.

일반적인 평가 프롬프트와 다른 점

일반 프롬프트로도 LLM에게 “이 스킬을 평가해줘”라고 요청할 수는 있습니다. 하지만 대개 다음이 빠집니다:

명시적인 레이어 분리
기준점이 고정된 루브릭 참조
차원별 가중치 로직
임계값과 배지 해석
캘리브레이션이나 이의 조정에 쓸 수 있는 방법론 언어

특히 triggering accuracy, orchestration quality, 점수 해석이 중요한 경우에는, 일관된 평가 논리를 제공하는 이 스킬이 더 적합합니다.

결정 전에 먼저 읽어볼 것

전체 방법론은 먼저 SKILL.md에서 확인하고, 이어서 judge 레이어가 사용하는 기준점은 references/rubrics.md에서 읽어보세요. 이 두 파일만 봐도 evaluation-methodology 스킬이 여러분의 Model Evaluation 워크플로우에 맞는지 충분히 판단할 수 있습니다.

evaluation-methodology 스킬 사용 방법

evaluation-methodology 설치 맥락

다음 명령으로 repo에서 설치합니다:

npx skills add https://github.com/wshobson/agents --skill evaluation-methodology

설치 후에는 다른 스킬과 마찬가지로 AI 코딩 환경에서 호출하면 됩니다. 다만 요청 내용에 PluginEval 점수 해석, 방법론 설명, 캘리브레이션 가이드, 점수 개선 조언 중 무엇이 필요한지 분명히 적는 것이 좋습니다.

이 스킬이 필요로 하는 입력

evaluation-methodology 스킬은 다음처럼 구체적인 평가 맥락이 있을 때 가장 잘 작동합니다:

평가 대상인 SKILL.md 또는 플러그인 콘텐츠
의심스러운 차원이나 점수
정적 분석, LLM judge 출력, 전체 blended scoring 중 무엇이 중요한지
목적이 설명인지, 캘리브레이션인지, 개선인지, 점수 방어인지
사용 중인 마켓플레이스 기준선, 배지 컷오프, 승인 기준

이런 맥락이 없으면 결과는 상위 수준 설명에 머물 수밖에 없습니다. 방법론 자체가 다루는 범위가 넓기 때문입니다.

막연한 목표를 강한 프롬프트로 바꾸기

약한 프롬프트:

Explain this evaluation score.

더 강한 프롬프트:

Use the evaluation-methodology skill to interpret this PluginEval result. Focus on Triggering Accuracy and Orchestration Fitness, explain how the three evaluation layers likely contributed, identify which issues are static-document problems versus judge-layer reasoning problems, and suggest the smallest changes that would most improve the composite score.

이 프롬프트가 잘 작동하는 이유:

방법론을 명시적으로 지정합니다
볼 평가 차원을 좁힙니다
레이어를 구분한 추론을 요구합니다
단순 요약이 아니라 우선순위가 있는 개선 조언을 요청합니다

evaluation-methodology 활용에 가장 좋은 프롬프트 패턴

품질 높은 evaluation-methodology usage 프롬프트에는 보통 다음이 들어갑니다:

평가 대상 아티팩트
문제로 보고 있는 점수 또는 평가 차원
지금 내려야 하는 의사결정
원하는 출력 형식

예시:

Apply the evaluation-methodology skill to this skill draft. Estimate which dimensions are most at risk, cite the likely rubric anchors behind that judgment, and recommend edits that improve triggering precision without making the description too narrow.

추측을 줄여주는 실전 워크플로우

다음 순서로 진행해 보세요:

전체 점수 체계는 SKILL.md에서 읽기
기준점 수준 해석은 references/rubrics.md에서 확인하기
실제로 조치해야 할 평가 차원 하나를 특정하기
레이어별 진단을 요청하기
스킬 또는 플러그인 수정하기
문서가 길어졌는지가 아니라, 올바른 차원이 실제로 개선됐는지 다시 확인하기

이 순서가 중요한 이유는 많은 점수 문제가 잘못 진단되기 때문입니다. 예를 들어 triggering 문제는 frontmatter의 설명 문구가 모호해서 생기는 경우가 많고, orchestration 문제는 input/output 계약이 불명확해서 생기는 경우가 많습니다.

먼저 읽어야 할 저장소 파일

이 evaluation-methodology guide를 제대로 활용하려면 우선 다음 파일부터 보세요:

plugins/plugin-eval/skills/evaluation-methodology/SKILL.md
plugins/plugin-eval/skills/evaluation-methodology/references/rubrics.md

프레임워크 전체를 이해하려면 SKILL.md를 먼저 읽고, 점수 해석을 근거 있게 하거나 초안을 기준점과 비교하려면 references/rubrics.md를 함께 보세요.

세 가지 레이어가 실무에서 의미하는 것

이 방법론은 세 개의 레이어를 쌓는 구조입니다:

결정론적 문서 검사를 위한 static analysis
루브릭 기반 정성 평가를 위한 LLM judge scoring
특히 triggering 측면의 프롬프트 분포 행동을 보기 위한 Monte Carlo simulation

실무적으로 이 분리는 꽤 유용합니다. 게시 전 빠른 사전 점검이 필요하다면 static analysis가 첫 단계입니다. 낮은 점수를 납득 가능하게 설명해야 한다면 judge 루브릭이 더 중요합니다. 현실적인 변형을 포함한 다양한 프롬프트에서 스킬이 제대로 발동하는지가 중요하다면 Monte Carlo 관점이 가장 의사결정에 직접 연결됩니다.

Model Evaluation에서 evaluation-methodology를 써야 하는 경우

evaluation-methodology for Model Evaluation은 단순히 모델 출력 품질만 보는 것이 아니라, 모델 동작을 감싸는 스킬 또는 플러그인 래퍼의 품질까지 평가할 때 적합합니다. 특히 핵심 질문이 “이 스킬이 발견 가능하고, 적절한 시점에 트리거되며, 구조적으로 잘 설계되어 있고, 에이전트 생태계에서 운영상 신뢰할 수 있는가”에 가깝다면 이 방법론이 잘 맞습니다.

반대로 플러그인이나 스킬 orchestration과 무관한 순수 모델 성능 벤치마크 설계만 필요하다면, 이 스킬은 덜 적합합니다.

도입 시 자주 막히는 지점

많은 사용자가 이 스킬이 실제로 실행 가능한 도움을 주는지, 아니면 설명만 하는지 헷갈려합니다. 실제로는 다음이 필요할 때 충분히 실용적입니다:

점수를 특정 차원으로 역추적할 때
각 차원이 무엇을 보상하는지 이해할 때
종합 점수에 영향을 주는 수정을 고를 때
게시 또는 배지 부여 기준선을 조정할 때

반면 실행 가능한 평가 스크립트를 바로 기대한다면 맞지 않을 수 있습니다. 이 저장소에서 강하게 제공하는 것은 자동화 도구보다는, 문서화된 프레임워크와 루브릭을 중심으로 한 methodology-first 접근입니다.

evaluation-methodology 스킬 FAQ

evaluation-methodology는 점수 산출기인가, 방법론 레퍼런스인가?

기본적으로는 방법론 레퍼런스입니다. PluginEval이 품질을 어떻게 측정하는지, 결과를 어떻게 해석해야 하는지 알려줍니다. 그래서 감사, 캘리브레이션, 개선 계획 수립에 특히 유용합니다.

evaluation-methodology 스킬은 초보자도 쓰기 쉬운가?

그렇습니다. 다만 최소한 스킬이나 플러그인이 무엇인지는 알고 있는 초보자에게 더 적합합니다. 문서 구조는 잘 잡혀 있지만, 전체 프레임워크를 한 번에 보기보다 실제 예시를 가져와 한 번에 한 차원씩 질문할 때 개념이 훨씬 빠르게 선명해집니다.

그냥 LLM에게 내 스킬을 리뷰해 달라고 하는 것과 무엇이 다른가?

일반 리뷰 프롬프트도 나쁘지 않은 조언을 줄 수는 있습니다. 하지만 대개 PluginEval의 레이어형 점수 모델이나 루브릭 기준점과는 맞지 않습니다. evaluation-methodology skill은 여러 리뷰어가 같은 기준으로 말할 수 있게 해주는 공통 점수 언어를 제공하므로, 일관성이 필요한 상황에서 훨씬 유용합니다.

언제 evaluation-methodology를 쓰지 말아야 하나?

다음 경우에는 건너뛰는 편이 낫습니다:

일반적인 글쓰기 피드백만 필요할 때
스킬/플러그인 품질이 아니라 순수 모델 작업 정확도를 평가할 때
방법론 가이드보다 실행 가능한 자동화를 더 원할 때
사용하는 생태계가 PluginEval식 평가 차원이나 배지 로직을 전혀 쓰지 않을 때

낮은 Triggering Accuracy 점수에도 도움이 되나?

그렇습니다. 루브릭 레퍼런스는 triggering을 대표 프롬프트 전반에서의 precision-plus-recall 행동으로 명시적으로 다룹니다. 따라서 설명이 너무 모호해 안정적으로 트리거되지 않거나, 반대로 너무 넓어서 관련 없는 프롬프트에도 발동하는 경우에 특히 유용합니다.

PluginEval 밖에서도 쓸 수 있나?

가능합니다. 다만 주된 용도는 구조화된 참조 모델로서입니다. 평가 차원, 레이어 분리, 루브릭 사고방식 자체는 다른 환경에도 잘 옮겨갈 수 있습니다. 다만 정확한 가중치, 임계값, 배지는 여러분의 프로세스가 PluginEval에 가까울수록 더 직접적으로 유효합니다.

evaluation-methodology 스킬을 더 잘 활용하는 방법

의사결정에 영향을 주는 차원부터 시작하기

evaluation-methodology 스킬을 쓸 때 처음부터 “전체 품질”을 물어보지 마세요. 지금 결정에 가장 큰 걸림돌이 되는 단일 차원이 무엇인지 먼저 물어보는 편이 낫습니다. 실무에서는 그 접근이 가장 큰 레버리지를 빠르게 드러내며, 특히 Triggering Accuracy나 Orchestration Fitness에서 효과적입니다.

더 강한 분석을 위해 입력을 구체화하기

더 좋은 입력 예:

현재 점수 또는 약점으로 의심되는 차원
정확한 description frontmatter
관련된 SKILL.md 구간
트리거되어야 하는 프롬프트와 트리거되면 안 되는 프롬프트 예시
승인 기준선

이렇게 주면 스킬이 방법론 의도에 더 가깝게 추론할 수 있고, 특히 차원별 진단의 정확도가 높아집니다.

긍정/부정 트리거 예시를 함께 주기

가장 가치가 큰 개선 중 하나는 다음 두 가지를 모두 제공하는 것입니다:

스킬이 활성화되어야 하는 프롬프트
스킬이 조용히 있어야 하는 프롬프트

이 정보는 라우팅 품질 분석을 직접적으로 끌어올립니다. 단순히 “관련 있어 보이나?”만 묻지 않고, 방법론이 중요하게 보는 precision과 recall을 함께 반영하기 때문입니다.

정적 수정과 judge 레이어 수정을 분리하기

모든 개선이 같은 종류는 아닙니다. 이 스킬을 활용해 문제를 다음처럼 분류해 보세요:

구조 수정: frontmatter, 누락된 계약, 부족한 progressive disclosure
루브릭 수정: 설명의 약함, 모호한 가이드, 낮은 실행 가능성
행동 적합성 수정: 현실적인 프롬프트 변형에서 발생할 triggering 불일치 가능성

이렇게 해야 스킬의 엉뚱한 부분을 과하게 손보는 일을 막을 수 있습니다.

가장 흔한 실패 패턴 피하기

가장 흔한 실수는 발견 가능성을 높이겠다며 스킬 범위를 지나치게 넓히는 것입니다. 그렇게 하면 겉보기 커버리지는 올라갈 수 있어도 triggering precision은 오히려 떨어질 수 있습니다. 수정한 설명이 너무 일반화되지는 않았는지 evaluation-methodology skill로 점검해 보세요.

직감만이 아니라 루브릭 기준점으로 반복 개선하기

첫 번째 결과를 받은 뒤에는 이렇게 물어보세요:

Which anchor in references/rubrics.md best matches this draft now, and what exact evidence keeps it from the next anchor?

이 질문은 “어떻게 개선할 수 있지?”보다 훨씬 유용한 수정 가이드를 줍니다. 변경 사항을 실제 점수 이동 가능성과 연결해 주기 때문입니다.

가장 작은 변경을 추천받기

더 빠르게 반복하려면 최소 수정안을 요청하세요:

Using the evaluation-methodology skill, recommend the three smallest wording or structure changes most likely to improve the composite score without changing scope.

대개 전체 재작성보다 이 방식이 낫습니다. 원래 의도를 유지하면서도 실제 평가 차원에 영향을 주는 지점을 정확히 겨냥할 수 있기 때문입니다.

개선이 올바른 지표를 바꿨는지 다시 확인하기

문서가 더 깔끔해졌다고 해서 방법론 기준을 통과하는 것은 아닙니다. 수정 후에는 스킬에게 다음을 비교해 달라고 요청하세요:

Triggering Accuracy에 대한 예상 효과
Orchestration Fitness에 대한 예상 효과
composite score에 대한 예상 영향
수정으로 새롭게 생긴 트레이드오프 가능성

바로 이 마지막 점검 단계에서 evaluation-methodology guide의 가치가 가장 분명해집니다. 프레임워크를 설명하는 데 그치지 않고, 그 프레임워크 안에서 실제로 더 잘 개선하도록 도와주기 때문입니다.

평점 및 리뷰

아직 평점이 없습니다

리뷰 남기기

이 스킬의 평점과 리뷰를 남기려면 로그인하세요.

0/10000

최신 리뷰

저장 중...

이 카테고리의 다른 스킬

healthcare-eval-harness

작성자 affaan-m

healthcare-eval-harness는 의료 앱 배포를 위한 환자 안전 평가 하니스입니다. 릴리스 전에 팀이 CDSS 정확도, PHI 노출, 데이터 무결성, 임상 워크플로 동작, 통합 준수 여부를 검증하는 데 도움이 됩니다. 치명적 실패가 배포를 차단하므로, Model Evaluation과 CI 안전 게이트에서 healthcare-eval-harness를 활용하기에 유용합니다.

Model Evaluation

즐겨찾기 0GitHub 156.2k

eval-harness

작성자 affaan-m

eval-harness 스킬은 Claude Code 세션과 eval-driven development를 위한 정식 평가 프레임워크입니다. 패스/실패 기준을 정의하고, capability 및 regression eval을 구축하며, 프롬프트나 워크플로 변경을 배포하기 전에 에이전트의 신뢰성을 측정하는 데 도움이 됩니다.

Model Evaluation

즐겨찾기 0GitHub 156.1k

agent-eval

작성자 affaan-m

agent-eval은 재현 가능한 작업으로 코딩 에이전트를 일대일로 벤치마킹하는 스킬로, 통과율, 비용, 시간, 일관성을 비교합니다. 이 agent-eval 스킬을 사용하면 Claude Code, Aider, Codex 또는 다른 에이전트를 자신의 repo에서 평가할 수 있으며, 즉흥적인 프롬프트 실험보다 더 명확한 근거를 얻을 수 있습니다.

Model Evaluation

즐겨찾기 0GitHub 156k

huggingface-community-evals

작성자 huggingface

huggingface-community-evals는 inspect-ai 또는 lighteval로 Hugging Face Hub 모델 평가를 로컬에서 실행할 수 있게 도와줍니다. 백엔드 선택, 스모크 테스트, 그리고 vLLM, Transformers, accelerate 활용 가이드를 확인할 때 유용합니다. HF Jobs 오케스트레이션, model-card PR, .eval_results 게시, community-evals 자동화 용도에는 맞지 않습니다.

Model Evaluation

즐겨찾기 0GitHub 10.4k

huggingface-best

작성자 huggingface

huggingface-best 스킬은 Hugging Face 벤치마크 리더보드를 확인하고 기기 제한과 모델 크기를 기준으로 필터링해, 작업에 가장 적합한 모델을 찾는 데 도움을 줍니다. 코딩, 추론, 채팅, OCR, RAG, 음성, 비전, 멀티모달 작업에서, 일반적인 모델 목록이 아니라 실용적인 후보군이 필요할 때 사용하세요.

Model Evaluation

즐겨찾기 0GitHub 10.4k

libafl

작성자 trailofbits

libafl 스킬은 맞춤형 타깃, 변이 전략, 보안 감사 워크플로를 위한 LibAFL 기반 모듈형 퍼저를 계획하고 구축하는 데 도움을 줍니다. 이 libafl 가이드를 활용하면 타깃 세부 정보에서 실용적인 하니스, 피드백 모델, 실행 계획으로 더 적은 가정으로 이어갈 수 있습니다.

Security Audit

즐겨찾기 0GitHub 5k

evaluation

작성자 muratcankoylan

evaluation 스킬은 비결정적 시스템을 위한 에이전트 평가를 설계하고 실행하는 데 도움이 됩니다. 평가 설치 계획, 루브릭, 회귀 점검, 품질 게이트, Skill Testing용 평가에 활용하세요. LLM-as-judge 워크플로, 다차원 스코어링, 그리고 반복 가능한 결과가 필요할 때의 실용적인 평가 사용에 잘 맞습니다.

Skill Testing

즐겨찾기 0GitHub 0

judge-with-debate

작성자 NeoLabHQ

judge-with-debate는 공유된 사양, 근거 기반 반박, 최대 3라운드의 토론을 통해 다중 에이전트 토론 방식으로 솔루션을 평가합니다. 코드 리뷰, 루브릭 기반 평가, 그리고 Multi-Agent Systems 워크플로우에서의 judge-with-debate에 특히 적합합니다.

Multi-Agent Systems

즐겨찾기 0GitHub 982

gws-modelarmor

작성자 googleworkspace

gws-modelarmor는 googleworkspace/cli 생태계에서 Google Model Armor를 다룰 수 있게 도와줍니다. 프롬프트 정제, 모델 응답 정제, 템플릿 생성에 활용할 수 있으며, 일반적인 프롬프트보다 훨씬 적은 추측으로 작업할 수 있습니다. 반복 가능하고 정책을 고려한 사용, 그리고 Security Audit 워크플로에 맞게 설계되었습니다.

Security Audit

즐겨찾기 0GitHub 25.5k

analyzing-campaign-attribution-evidence

작성자 mukul975

analyzing-campaign-attribution-evidence는 분석가가 인프라 중복, ATT&CK 일관성, 멀웨어 유사성, 시점, 언어적 흔적을 함께 검토해 방어 가능한 캠페인 귀속 판단을 내리도록 돕습니다. CTI, 인시던트 분석, Security Audit 검토에 이 analyzing-campaign-attribution-evidence 가이드를 활용하세요.

Security Audit

즐겨찾기 0GitHub 6.1k

detecting-ai-model-prompt-injection-attacks

작성자 mukul975

detecting-ai-model-prompt-injection-attacks는 LLM에 닿기 전에 신뢰할 수 없는 텍스트를 선별하는 보안 skill입니다. 레이어드 정규식, 휴리스틱 점수화, DeBERTa 기반 분류를 활용해 직접적·간접적 프롬프트 인젝션 공격을 탐지합니다. 챗봇 입력 검증, 문서 수집, 위협 모델링에 특히 유용합니다.

Threat Modeling

즐겨찾기 0GitHub 0

llm-evaluation

작성자 wshobson

llm-evaluation 스킬을 사용하면 메트릭, 사람 검토, 벤치마킹, 회귀 점검을 바탕으로 LLM 앱, 프롬프트, RAG 시스템, 모델 변경에 대한 반복 가능한 평가 계획을 설계할 수 있습니다.

Model Evaluation

즐겨찾기 0GitHub 32.6k

ai-prompt-engineering-safety-review

작성자 github

ai-prompt-engineering-safety-review는 운영 배포, 평가, 또는 고객 대상 사용 전에 LLM 프롬프트를 점검해 안전성, 편향, 보안 취약점, 출력 품질을 검토하는 프롬프트 감사 스킬입니다.

Model Evaluation

즐겨찾기 0GitHub 27.8k

agentic-eval

작성자 github

agentic-eval은 reflection, rubric 기반 비평, evaluator-optimizer 패턴을 활용해 AI 출력에 대한 evaluation loop를 구축하는 방법을 보여주는 GitHub Copilot 스킬입니다.

Model Evaluation

즐겨찾기 0GitHub 27.8k

ml-pipeline-workflow

작성자 wshobson

ml-pipeline-workflow는 데이터 준비, 학습, 검증, 배포, 모니터링까지 아우르는 엔드투엔드 MLOps 파이프라인을 설계할 때 참고하기 좋은 실무형 가이드입니다. 반복 가능한 워크플로 자동화를 위한 오케스트레이션 패턴도 함께 다룹니다.

Workflow Automation

즐겨찾기 0GitHub 0

frontend-design

작성자 anthropics

frontend-design은 막연한 UI 아이디어를 실제 프론트엔드 코드와 뚜렷한 미적 방향성으로 구현해, 생산 단계에 바로 쓸 수 있는 개성 있는 인터페이스를 만들고 흔한 AI 스타일링을 줄여줍니다.

UI Design

즐겨찾기 1GitHub 105.2k