diffdock
작성자 K-Dense-AIDiffDock는 PDB 구조 또는 단백질 서열과 SMILES, SDF, MOL2 형식의 리간드를 바탕으로 단백질-리간드 결합 포즈를 예측하는 도킹 기술입니다. 구조 기반 신약 설계, 가상 스크리닝, 신뢰도 점수가 포함된 포즈 분석에 DiffDock 기술을 활용할 수 있습니다. 결합 친화도 예측 용도는 아닙니다.
이 기술은 78/100점으로, Agent Skills Finder에 올릴 만한 견고한 후보입니다. 디렉터리 사용자가 설치 여부를 판단하기에 충분한 실제 워크플로 콘텐츠를 갖추고 있습니다. DiffDock 단백질-리간드 도킹을 분명하게 겨냥하고, 단일 복합체와 배치 워크플로를 모두 포함하며, 일반적인 프롬프트보다 한 단계 더 나아간 판단을 돕는 보조 스크립트와 참고 문서도 제공합니다.
- 명확한 작업 트리거: frontmatter와 개요에서 이 기술이 PDB/SMILES 입력을 활용한 diffusion 기반 분자 도킹용임을 분명히 보여 줍니다.
- 실행 워크플로 지원: 저장소에 3개 스크립트와 배치 CSV, inference config 템플릿이 포함되어 있어 에이전트가 입력을 준비하고 출력을 분석하는 데 도움이 됩니다.
- 충분한 가이드 깊이: 참고 문서에서 파라미터, 워크플로/예시, 신뢰도와 한계를 다뤄 설치 판단에 필요한 정보와 실행 명확성을 높입니다.
- SKILL.md에 설치 명령이 없어, 사용자가 저장소 내 단일 단계 설치 경로를 그대로 따르기보다 참고된 워크플로를 바탕으로 설정을 유추해야 할 수 있습니다.
- 이 기술은 포즈 예측과 신뢰도에 초점을 맞추며 친화도 예측은 하지 않으므로, 결합 에너지 추정을 원하는 사용자는 추가 도구가 필요합니다.
diffdock 스킬 개요
diffdock의 용도
DiffDock은 단백질 구조나 서열과 리간드 입력을 바탕으로 단백질-리간드 결합 자세를 예측하는 도킹 중심 스킬입니다. 결합 친화도 추정이 아니라 “이 화합물이 어디에, 어떤 방식으로 결합할 수 있는가?”에 대한 실용적인 답이 필요할 때 diffdock 스킬을 사용하세요.
가장 잘 맞는 경우와 판단 기준
구조 기반 신약 설계, 가상 스크리닝, 그리고 후속 분석용 포즈 생성에 잘 맞습니다. 반대로 효능 순위만 필요하거나, 표적 단백질이 매우 유연하거나, 포즈 예측이 아닌 일반적인 화학 워크플로가 필요하다면 적합성이 떨어집니다.
유용한 이유
diffdock의 핵심 가치는 단일 복합체 도킹, 배치 스크리닝, 신뢰도 점수, 서열 기반 단백질 입력을 하나의 워크플로로 묶어준다는 점입니다. 즉, 실행 가능한 도킹 경로와 점수를 오독하지 않도록 돕는 충분한 안내를 함께 원할 때 diffdock 설치의 가치가 있습니다.
diffdock 스킬 사용 방법
설치하고 워크플로를 먼저 확인하기
Claude skills 설정에 diffdock 스킬을 설치한 뒤, 가장 먼저 SKILL.md를 여세요. 그다음 실제 입력 형태, 기본값, 점수 해석을 이해하기 위해 references/workflows_examples.md, references/parameters_reference.md, references/confidence_and_limitations.md를 확인한 후 작업을 실행하세요.
작업을 바로 사용할 수 있는 프롬프트로 바꾸기
diffdock를 사용할 때는 단백질 형식, 리간드 형식, 작업 유형을 처음부터 분명히 알려주세요. 좋은 입력은 구체적입니다. 예를 들어 “이 SMILES를 이 PDB에 도킹하고 상위 5개 포즈와 신뢰도 해석을 반환해줘” 또는 “이 리간드들을 하나의 수용체에 대해 배치 도킹하도록 준비해줘”처럼 적습니다. 반대로 “diffdock 실행해줘”처럼만 쓰면, 파일을 써야 하는지, 서열을 써야 하는지, CSV 배치인지 알 수 없어 스킬이 무엇을 해야 하는지 모호해집니다.
올바른 파일과 출력을 사용하기
단일 도킹은 단백질 PDB와 SMILES, SDF, MOL2 형식의 리간드로 시작하세요. 배치 작업이라면 assets/batch_template.csv의 CSV 템플릿을 사용하고, 실행 전에 검증이 필요하면 scripts/prepare_batch_csv.py를 확인하세요. 실행 후에는 scripts/analyze_results.py가 포즈 순위와 신뢰도 점수를 요약해 주므로, 모든 출력 파일을 수동으로 훑을 필요가 없습니다.
실무 설정 팁
DiffDock 설치와 첫 실행은 모델 가중치와 룩업 테이블 생성 때문에 느릴 수 있으므로, 그 준비 시간을 고려해 두는 게 좋습니다. 단백질 구조가 없다면 스킬이 서열 기반 폴딩을 지원하긴 하지만 그만큼 불확실성이 커집니다. 실험 구조가 전혀 없을 때만 사용하고, 기본적인 우회로로는 쓰지 마세요. 샘플링 조정은 작업이 까다로울 때만 하세요. 샘플 수를 늘리면 탐색 범위는 넓어지지만 계산량과 후처리 부담도 함께 커집니다.
diffdock 스킬 FAQ
diffdock는 PDB 파일만 지원하나요?
아닙니다. diffdock 스킬은 단백질 구조를 지원하며, 일부 워크플로에서는 도킹 전에 접히는 단백질 서열도 사용할 수 있습니다. 그래도 PDB가 있다면 실제 PDB를 쓰는 편이 가장 좋습니다. 서열에서 생성한 구조는 또 하나의 오류 원인을 더하기 때문입니다.
diffdock는 친화도를 예측하나요?
아닙니다. DiffDock은 결합 포즈와 신뢰도를 예측하며, 결합 친화도는 예측하지 않습니다. 친화도처럼 우선순위를 정해야 한다면, 신뢰도를 효능으로 간주하지 말고 별도의 스코어링 또는 리스코어링 단계를 함께 사용하세요.
diffdock 스킬은 초보자에게도 친화적인가요?
예, 작업이 단순하다면 그렇습니다. 수용체 하나, 리간드 하나, 포즈 하나를 묻는 경우라면 시작하기 쉽습니다. 다만 배치 큐레이션, 유연한 단백질, 낮은 신뢰도 샘플의 해석이 필요해지면 난도가 올라갑니다. 이 스킬은 도킹에는 초보자 친화적이지만, 도메인 판단까지 대체해 주는 도구는 아닙니다.
언제 사용하지 말아야 하나요?
구조 변화가 결합의 핵심 메커니즘인 표적이나, 리간드 표현이 매우 불확실한 경우에는 diffdock에 의존하지 마세요. 또한 실제 질문이 SAR, 선택성, ADMET이라면, 전체 의약화학 분석 워크플로를 대신할 수 있는 도구로 보기도 어렵습니다.
diffdock 스킬 개선 방법
스킬에 더 좋은 분자 맥락을 제공하기
diffdock의 결과는 보통 깔끔한 입력에서 가장 좋습니다. 올바른 수용체 파일, 알려진 프로톤화 가정이 있는 리간드, 결합 문제에 대한 명확한 정의가 여기에 해당합니다. 결합 부위를 알고 있다면 그 사실을 말하세요. 블라인드 도킹이라면 그것도 분명히 알려주세요. 검색 전략과 기대되는 신뢰도가 달라지기 때문입니다.
실제로 사용할 출력 형식을 요청하기
상위 포즈 하나가 필요한지, 상위 5개 포즈가 필요한지, 배치 스크리닝이 필요한지, 신뢰도 순 후보가 필요한지까지 명시하면 diffdock 사용이 훨씬 좋아집니다. 나중에 결과를 비교할 계획이라면, 일관된 파일명과 요약 표도 함께 요청하세요. 이렇게 하면 모호함이 줄고, Data Analysis나 스크리닝 리포트에 결과를 더 쉽게 연결할 수 있습니다.
자주 발생하는 실패 패턴을 점검하기
가장 흔한 실수는 신뢰도를 친화도로 착각하는 것, 리간드 준비가 좋지 않은 것, 그리고 모델의 적응 범위를 벗어난 단백질에서 나온 결과를 지나치게 신뢰하는 것입니다. 결과가 불안정해 보이면 샘플 수를 늘려 다시 실행하고, 상위 포즈를 여러 개 비교하며, 실제 병목이 모델이 아니라 리간드 화학이나 단백질 상태인지 확인하세요.
구체적인 후속 프롬프트로 반복 개선하기
첫 실행 뒤에는 다음 diffdock 프롬프트를 “결합 부위 배치가 잘못됨”, “포즈 클러스터링이 일관되지 않음”, “신뢰도 점수가 낮음”처럼 구체적인 문제로 보완하세요. 막연하게 다시 실행해 달라고 하는 것보다 훨씬 유용합니다. diffdock를 Data Analysis에 써야 한다면, 출력에서 뽑고 싶은 지표를 함께 넣으세요. 예를 들어 순위 분포, 점수 임계값, 복합체별 요약 같은 항목이 좋습니다.
