vector-index-tuning

por wshobson

vector-index-tuning ayuda a ajustar índices de búsqueda vectorial para optimizar latencia, recall y uso de memoria. Úsala para elegir tipos de índice, ajustar la configuración de HNSW y comparar opciones de cuantización en flujos de trabajo RAG.

Estrellas32.6k

Favoritos0

Comentarios0

Agregado30 mar 2026

CategoríaRAG Workflows

Comando de instalación

npx skills add wshobson/agents --skill vector-index-tuning

Puntuación editorial

Esta skill obtiene una puntuación de 71/100, lo que significa que es razonable incluirla para usuarios del directorio que buscan orientación reutilizable sobre optimización de índices vectoriales, aunque deberían esperar una referencia centrada en documentación más que un flujo operativo realmente cerrado. La evidencia del repositorio muestra contenido amplio con temas de ajuste concretos, como parámetros de HNSW, selección de índices y compensaciones de cuantización, por lo que un agente probablemente pueda activarla correctamente. Sin embargo, la falta de archivos de soporte, instrucciones de instalación y señales procedimentales más sólidas implica que los usuarios quizá aún deban adaptar la guía a su propio stack.

71/100

Puntos fuertes

Buena capacidad de activación gracias a una descripción específica que cubre ajuste de HNSW, cuantización, latencia, recall y casos de uso de escalado.
Contenido sustancial de la skill, con secciones estructuradas, tablas y bloques de código que van más allá de un simple placeholder o de un wrapper mínimo de prompt.
Orientación útil para tomar decisiones habituales en búsqueda vectorial, incluidos rangos de tipos de índice y compensaciones entre parámetros.

Puntos a tener en cuenta

La claridad operativa es limitada por la ausencia de scripts, referencias o ejemplos de integración con repositorios/archivos, por lo que la ejecución sigue requiriendo interpretación.
En SKILL.md no se aprecia un comando de instalación ni una ruta práctica de inicio rápido, lo que reduce la confianza para una adopción ágil.

RAG Vector Databases Semantic Search Embedding Performance Ml Ai

Resumen

Visión general de la skill vector-index-tuning

Para qué sirve vector-index-tuning

La skill vector-index-tuning te ayuda a elegir y ajustar la configuración de índices de búsqueda vectorial con foco en los tradeoffs reales de producción: latencia, recall, uso de memoria, tiempo de construcción y escala. Resulta especialmente útil cuando un sistema RAG funciona en principio, pero la calidad de recuperación, la velocidad de consulta o el coste de infraestructura ya no son aceptables.

Quién debería usar esta skill

Esta vector-index-tuning skill encaja bien para:

ingenieros que operan búsqueda semántica o RAG en producción
equipos que están decidiendo entre índices Flat, HNSW, HNSW cuantizado, IVF+PQ o índices respaldados en disco
builders que necesitan guía concreta sobre parámetros, en lugar del consejo genérico de “optimiza tus embeddings”

Si todavía estás validando si realmente necesitas búsqueda vectorial, probablemente sea demasiado pronto.

El trabajo real que resuelve

Normalmente, los usuarios no quieren “teoría de índices”. Quieren respuestas a preguntas como:

¿Por qué baja el recall después de cuantizar?
¿Qué ajustes de HNSW debería probar primero?
¿A partir de qué tamaño de datos debería dejar de usar búsqueda exacta?
¿Cómo reduzco RAM sin empeorar de forma evidente la recuperación en RAG?

vector-index-tuning for RAG Workflows destaca más cuando ya conoces el tamaño de tu corpus, la dimensionalidad, tu presupuesto de latencia y la pérdida de recall que puedes aceptar.

Qué la diferencia de un prompt genérico

Un prompt normal suele dar sugerencias vagas o poco aterrizadas. vector-index-tuning resulta más útil porque ofrece un marco de decisión práctico:

tipo de índice según la escala del dataset
función de los parámetros de HNSW (M, efConstruction, efSearch)
opciones de cuantización según el tradeoff entre memoria y calidad
enfoque orientado a producción para colecciones grandes

Eso facilita pasar de “nuestra recuperación se siente lenta” a un plan de tuning concreto.

Qué conviene saber antes de instalarla

Esta skill es una única guía en SKILL.md, sin scripts auxiliares ni benchmark harness. Eso hace que adoptarla sea ligero, pero la ejecución depende de la calidad de tus propias métricas y de tu entorno de pruebas. Instálala si quieres una guía de tuning estructurada; no esperes automatización lista para usar.

Cómo usar la skill vector-index-tuning

Instalación de vector-index-tuning

Instálala desde el repositorio con:

npx skills add https://github.com/wshobson/agents --skill vector-index-tuning

Como la skill vive en una sola guía markdown, la instalación es simple. El trabajo realmente importante empieza después de instalarla: aportar suficientes detalles de tu sistema para que el modelo pueda recomendar ajustes de tuning útiles.

Lee primero este archivo

Empieza por:

SKILL.md

Aquí no hay scripts de soporte, referencias ni carpetas de reglas, así que casi toda la guía útil está en ese único archivo. Esto viene bien para una revisión rápida, pero también implica que deberías aportar tus propios datos de benchmark, en lugar de esperar activos de prueba integrados.

Qué información necesita la skill para funcionar bien

Para un uso sólido de vector-index-tuning, dale al modelo:

número de vectores
dimensión de los embeddings
tipo de índice actual
configuración actual de HNSW, si aplica
presupuesto de memoria
latencia objetivo p95 o p99
objetivo de recall requerido o pérdida de calidad aceptable
patrón de actualización: mayormente estático, refresco por lotes o alta escritura
configuración de recuperación en RAG: top-k, reranking, filtrado y restricciones de metadatos

Sin esos datos, la skill solo puede devolver recomendaciones genéricas.

Convierte un objetivo difuso en un prompt útil

Prompt débil:

Tune my vector index.

Prompt más sólido:

Use the vector-index-tuning skill. I have 18M vectors at 768 dimensions for a RAG system. Current index is HNSW with M=16, efConstruction=100, efSearch=40. p95 latency is 140ms, RAM is too high, and recall@10 versus brute-force is 0.91. I can tolerate recall@10 down to 0.88 if p95 falls below 80ms and RAM drops by 30%. Recommend index strategy, parameter changes, and a benchmark plan.

Esto funciona mejor porque deja claro cuál es el objetivo real de optimización y hasta dónde llega el tradeoff aceptable.

Mejor flujo de trabajo para vector-index-tuning for RAG Workflows

Una secuencia práctica es:

Describe el tamaño del corpus y la arquitectura de recuperación actual.
Indica primero la restricción de negocio: latencia, memoria o recall.
Pide a la skill que elija una familia de índices antes de ajustar parámetros finos.
Haz benchmark contra un conjunto fijo de consultas y un método de ground truth.
Itera un grupo de variables cada vez.

Esto importa porque muchos equipos saltan directamente a barrer parámetros sin confirmar antes si están usando el tipo de índice correcto para su escala.

Cómo elegir primero la familia de índices

La tabla de decisión central de la skill sirve muy bien como primer filtro:

por debajo de ~10K vectores: la búsqueda exacta Flat suele ser más simple y suficiente
entre ~10K y 1M: HNSW suele ser el candidato por defecto
entre ~1M y 100M: HNSW con cuantización empieza a ser relevante
por encima de ~100M: enfoques tipo IVF+PQ o DiskANN pasan a ser más plausibles

Tómalos como puntos de partida, no como reglas fijas. Si tus vectores están muy filtrados, se actualizan con frecuencia o trabajan con presupuestos de memoria muy ajustados, la mejor opción puede ser otra.

Cómo aprovechar bien la guía de HNSW en vector-index-tuning

Cuando pidas ayuda sobre HNSW, incluye los tres controles principales:

M: conectividad del grafo; normalmente mejora el recall a costa de más memoria
efConstruction: calidad de construcción frente a coste de construcción
efSearch: recall en consulta frente a latencia

Un patrón de prompt útil es:

Use the vector-index-tuning skill to propose a minimal test matrix for M, efConstruction, and efSearch that fits my latency and recall targets, and explain which parameter I should lock first.

Así obtienes un plan de tuning ordenado, no una lista desestructurada de valores.

Cómo aprovechar bien la guía de cuantización

Si la memoria es el principal problema, pídele a la skill que compare:

FP32
FP16
cuantización escalar INT8
Product Quantization
representaciones binarias, cuando tenga sentido

Buen prompt:

I need a 2-4x memory reduction for 50M vectors and can accept modest recall loss in first-stage retrieval because a reranker follows. Use the vector-index-tuning skill to compare FP16, INT8, and PQ for this RAG pipeline.

Esto es mejor que preguntar “should I quantize?” porque vincula la tolerancia a la compresión con el reranking posterior.

Qué resultados deberías esperar

El mejor resultado no es una configuración mágica única. Es:

una elección de índice más acotada
una cuadrícula breve de parámetros candidatos
un plan de evaluación
explicaciones de tradeoffs que puedas comprobar

Si el modelo te da solo una configuración y ningún método de benchmark, pídele que lo rehaga como un plan experimental.

Ruta práctica para leer el repositorio

Como solo está SKILL.md, céntrate en estas secciones y en este orden:

When to Use This Skill
Core Concepts
Index Type Selection
HNSW Parameters
Quantization Types
plantillas de código cerca del final

Ese recorrido te da primero la lógica de decisión, luego los controles de tuning y después los patrones de implementación.

Bloqueos habituales al adoptar la skill

Los equipos suelen atascarse por una de estas razones:

no tienen una línea base de recall frente a búsqueda exacta
no cuentan con un conjunto fijo de consultas para comparar ejecuciones
intentan optimizar latencia y recall sin un presupuesto de memoria
usan benchmarks sintéticos que no se parecen a las consultas reales de RAG

La skill ayuda a tomar decisiones de tuning, pero no puede sustituir datos de evaluación representativos.

FAQ de la skill vector-index-tuning

¿vector-index-tuning es buena para principiantes?

Sí, si ya entiendes qué es un índice vectorial. No, si todavía estás decidiendo entre búsqueda por palabras clave, búsqueda híbrida y dense retrieval. La skill asume que ya superaste la selección básica de arquitectura de recuperación y que ahora necesitas guía de tuning.

Cuándo vector-index-tuning no es la herramienta adecuada

No empieces con vector-index-tuning si tu problema real es:

chunking deficiente
embeddings de mala calidad
preprocesamiento de documentos débil
falta de filtros por metadatos
ausencia de reranking cuando hace falta

El tuning del índice no va a corregir problemas de relevancia que se originan antes en la cadena.

¿Es mejor que preguntarle directamente a un LLM?

Por lo general sí, porque la vector-index-tuning skill mantiene la conversación centrada en tradeoffs medibles y palancas de parámetros conocidas, en lugar de dar consejos genéricos de optimización. La ventaja es la estructura, no la automatización.

¿Ayuda específicamente con vector-index-tuning for RAG Workflows?

Sí. La skill es especialmente relevante para la recuperación de primera etapa en RAG, donde a menudo necesitas equilibrar recall y coste antes del reranking. Se vuelve más útil cuando indicas de forma explícita si existe un reranker, qué top-k usas y si el filtrado por metadatos reduce el conjunto de candidatos.

¿La skill incluye herramientas ejecutables de benchmarking?

No. Según la estructura del repositorio, esta skill está impulsada por documentación. Debes esperar guía conceptual y ejemplos de código, no un harness completo para medir recall, tiempo de construcción y latencia en tu entorno.

¿Qué pasa si mi colección se actualiza con frecuencia?

Usa la skill, pero menciona explícitamente la frecuencia de actualización. Algunas opciones de índice se ven excelentes para corpus estáticos y resultan mucho menos atractivas con cargas de escritura intensas. Esta es una de las formas más fáciles de obtener una respuesta que suena inteligente, pero es operativamente incorrecta.

Cómo mejorar la skill vector-index-tuning

Dale a la skill restricciones duras, no preferencias

La forma más rápida de mejorar los resultados de vector-index-tuning es sustituir objetivos vagos por números:

“under 75ms p95”
“under 64GB RAM”
“recall@20 must stay above 0.9”
“nightly rebuild is acceptable”
“ingest is continuous, no long offline rebuilds”

Las restricciones numéricas fuerzan recomendaciones más claras.

Proporciona una línea base y un delta objetivo

Mejor input:

Current HNSW index uses 92GB RAM, p95 is 110ms, recall@10 is 0.93. Need 30% lower memory and under 85ms p95.

Esto permite que la skill razone desde un punto de partida real. Sin métricas base, su salida será demasiado genérica como para confiar en ella.

Pide una matriz de benchmark, no una sola respuesta

Un prompt de alto valor es:

Use the vector-index-tuning skill to produce a 6-run benchmark matrix prioritized by information gain, not exhaustiveness.

Eso suele dar mejores resultados prácticos que pedir “best settings”, porque el rendimiento de un índice vectorial depende mucho de la distribución de los datos y de la carga de trabajo.

Separa la calidad de recuperación de la calidad de la respuesta final

En RAG, los usuarios a menudo juzgan los cambios del índice solo por la calidad de la respuesta final. Mejora los resultados pidiéndole a la skill que separe:

recall bruto de recuperación
latencia
huella de memoria
impacto del reranker downstream
calidad en la tarea final

Así evitas sobreajustar el índice a una métrica que tu aplicación en realidad no optimiza.

Indica si el filtrado cambia el espacio de búsqueda

Si tu sistema aplica filtros por tenant, idioma, fecha o producto antes o durante la búsqueda, dilo. La búsqueda filtrada puede cambiar de forma material cuál es la mejor decisión de índice. Esto es especialmente importante para vector-index-tuning for RAG Workflows en sistemas multi-tenant.

Modos de fallo comunes que conviene vigilar

Los errores más habituales son:

subir efSearch sin comprobar si el verdadero cuello de botella es la calidad del grafo HNSW
comprimir de forma demasiado agresiva antes de fijar un suelo de recall
comparar índices con conjuntos de consultas distintos
elegir IVF/PQ solo por escala sin validar la distribución de consultas
ignorar los costes de construcción y refresco

Estos son exactamente los casos en los que una configuración aparentemente más rápida rinde peor en producción.

Cómo iterar después del primer resultado

Después de la primera recomendación, responde con los resultados en una tabla compacta:

configuración
RAM
tiempo de construcción
latencia p95
recall@k
notas sobre errores de recuperación

Luego pide:

Revise the tuning plan using these measurements and eliminate dominated configurations.

Ese bucle de segunda pasada es donde la skill pasa a ser materialmente mejor que un prompt de una sola vez.

Mejora la confianza pidiendo lenguaje explícito sobre tradeoffs

Pídele a la skill que etiquete cada recomendación como:

likely win
risky but high upside
low effort
requires benchmark confirmation

Esto facilita priorizar cambios y reduce la probabilidad de copiar una sugerencia que solo funciona bajo supuestos ideales.

Combina la skill con tu propio ground truth de búsqueda exacta

La mejor mejora única para el uso de vector-index-tuning es un pequeño benchmark de búsqueda exacta sobre consultas representativas. Incluso unos pocos cientos de consultas etiquetadas o evaluadas por brute-force mejoran mucho la calidad de las decisiones, porque cada recomendación de tuning puede probarse contra una línea base de recall conocida.

Qué aspecto tiene el éxito

Un buen uso de vector-index-tuning termina con:

una elección justificada de familia de índices
una lista corta de parámetros
evidencia de benchmark sobre recall, velocidad y memoria
una decisión de despliegue alineada con tu carga RAG

Si no acabas con un plan comprobable, pídele a la skill que sea más operativa y menos descriptiva.

Calificaciones y reseñas

Aún no hay calificaciones

Comparte tu reseña

Inicia sesión para dejar una calificación y un comentario sobre esta skill.

0/10000

Reseñas más recientes

Guardando...

Más skills de esta categoría

iterative-retrieval

por affaan-m

iterative-retrieval es un patrón de trabajo para refinar progresivamente la recuperación de contexto en tareas agentivas. Ayuda a los subagentes a no quedarse ni con demasiado contexto ni con muy poco, por lo que resulta útil para el uso de iterative-retrieval, las decisiones de instalación y iterative-retrieval para la automatización de flujos de trabajo.

Workflow Automation

Favoritos 0GitHub 156.2k

azure-ai-contentunderstanding-py

por microsoft

azure-ai-contentunderstanding-py es la skill de Python para Azure AI Content Understanding. Extrae contenido estructurado de documentos, imágenes, audio y video para flujos de trabajo RAG y automatización. Úsala cuando necesites extracción multimodal fiable, autenticación con Azure y resultados repetibles, listos para integrar en pipelines.

RAG Workflows

Favoritos 0GitHub 2.2k

azure-search-documents-ts

por microsoft

azure-search-documents-ts ayuda a los desarrolladores backend a crear soluciones de Azure AI Search con el SDK @azure/search-documents. Úsalo para crear índices, cargar documentos y ejecutar búsqueda por palabras clave, vectorial, híbrida y semántica, además de configurar credenciales y el entorno. Es una guía práctica de azure-search-documents-ts para desarrollo backend.

Backend Development

Favoritos 0GitHub 2.3k

hybrid-search-implementation

por wshobson

La skill hybrid-search-implementation muestra cómo combinar recuperación vectorial y por palabras clave con RRF, fusión lineal, reranking y patrones en cascada para sistemas de búsqueda y RAG.

RAG Workflows

Favoritos 0GitHub 32.6k

embedding-strategies

por wshobson

embedding-strategies te ayuda a elegir y optimizar modelos de embeddings para búsqueda semántica y flujos de trabajo RAG, con orientación práctica sobre chunking, compromisos entre modelos, contenido multilingüe y evaluación de recuperación.

RAG Workflows

Favoritos 0GitHub 32.6k

rag-implementation

por wshobson

rag-implementation es una skill práctica para planificar sistemas RAG con bases de datos vectoriales, embeddings, patrones de recuperación y flujos de respuestas fundamentadas. Úsala para comparar opciones del stack, orientar decisiones de arquitectura y guiar la instalación y el uso en Q&A sobre documentos, asistentes de conocimiento y búsqueda semántica.

RAG Workflows

Favoritos 0GitHub 32.6k

langchain-architecture

por wshobson

langchain-architecture es una guía de diseño para crear aplicaciones con LangChain 1.x y LangGraph. Úsala para decidir entre cadenas, agentes, retrieval, memoria y patrones de orquestación con estado antes de implementar.

Agent Orchestration

Favoritos 0GitHub 32.6k

similarity-search-patterns

por wshobson

similarity-search-patterns te ayuda a elegir métricas de distancia, tipos de índice y patrones de recuperación híbrida para búsqueda semántica y flujos de trabajo de RAG. Úsalo para planificar en producción los compromisos de la búsqueda vectorial entre recall, latencia y escalabilidad.

RAG Workflows

Favoritos 0GitHub 32.6k

frontend-design

por anthropics

frontend-design convierte ideas vagas de UI en interfaces distintivas y listas para producción, con código frontend real, una dirección estética clara y menos estilo genérico de IA.

UI Design

Favoritos 1GitHub 105.2k

create-colleague

por titanwings

create-colleague convierte documentos de compañeros, chats, correos, capturas de pantalla, datos de Feishu y DingTalk en una habilidad de IA editable, con salidas separadas de trabajo y persona, además de flujos de actualización para seguir refinándola.

Skill Authoring

Favoritos 1GitHub 747

hyperframes

por heygen-com

hyperframes es una skill de flujo de trabajo para crear composiciones de video basadas en HTML en HyperFrames. Úsala para tarjetas de título, superposiciones, subtítulos, locuciones, movimiento reactivo al audio y transiciones de escena cuando necesites hyperframes estructurados y orientados al código para edición de video. Prioriza decisiones de diseño, tiempo y animación por encima de solicitudes genéricas de video basadas solo en prompts.

Video Editing

Favoritos 0GitHub 2.7k

kreuzberg

por kreuzberg-dev

La skill de kreuzberg te ayuda a instalar y usar Kreuzberg para la extracción de documentos en más de 91 formatos, incluidos PDF, archivos de Office, imágenes, HTML, correo electrónico y archivos comprimidos. Cubre flujos de trabajo en Python, Node.js/TypeScript, Rust y CLI para OCR, tablas, metadatos, procesamiento por lotes y guía práctica de análisis y extracción.

PDF Processing

Favoritos 0GitHub 0

skill-creator

por anthropics

skill-creator es una metahabilidad de creación de Skills para redactar nuevas skills, revisar archivos SKILL.md, ejecutar evaluaciones, comparar variantes y mejorar descripciones de activación con scripts del repositorio y herramientas de revisión.

Skill Authoring

Favoritos 2GitHub 105.1k

azure-identity-py

por microsoft

azure-identity-py ayuda a configurar la autenticación en Azure con Python y Microsoft Entra ID. Úsalo para elegir entre `DefaultAzureCredential`, identidad administrada o autenticación con service principal, configurar variables de entorno y resolver problemas de control de acceso y de la cadena de credenciales. Las indicaciones de instalación, los patrones de uso y las notas prácticas de configuración se basan en el archivo de skill del repositorio.

Access Control

Favoritos 0GitHub 2.2k

claude-api

por anthropics

claude-api es una skill práctica para instalar y usar la Claude API y los SDKs de Anthropic. Ayuda a elegir entre el SDK adecuado o HTTP directo, localizar la documentación por lenguaje e implementar streaming, uso de herramientas, archivos, lotes y manejo de errores con menos prueba y error.

API Development

Favoritos 0GitHub 105k

wrangler

por cloudflare

La skill wrangler te ayuda a encontrar los comandos de CLI correctos, las estructuras de configuración y los pasos de despliegue para Cloudflare Workers. Úsala para el uso de wrangler, para comprobar la instalación de wrangler y como una guía práctica de wrangler al crear o publicar Workers para Backend Development.

Backend Development

Favoritos 0GitHub 1.3k