RAG (Retrieval Augmented Generation)
RAGTécnica que conecta un modelo de lenguaje (LLM) con una base de conocimiento propia mediante búsqueda vectorial. El LLM recupera documentos relevantes antes de generar la respuesta, reduciendo alucinaciones y permitiendo citar fuentes específicas de la empresa.
Ejemplo:Un chatbot RAG de soporte conectado al manual interno de una clínica dental: cuando un paciente pregunta 'cuánto tarda en cicatrizar un implante', el sistema recupera párrafos del protocolo oficial y genera la respuesta citándolos.
💡 SprintMarkt implementa chatbots RAG desde 4.500€ con stack Claude/GPT + pgvector + PostgreSQL.
Cómo lo aplicamos →Proceso de continuar el entrenamiento de un LLM base con datos específicos para especializarlo en un dominio. A diferencia de RAG (que añade contexto en tiempo de inferencia), fine-tuning modifica los pesos del modelo.
Ejemplo:Fine-tuning un modelo base con 5.000 pares pregunta-respuesta del sector jurídico español, para que responda con vocabulario técnico legal correcto sin necesidad de aportar contexto cada vez.
💡 SprintMarkt recomienda RAG antes que fine-tuning en 90% de casos de PYMEs: más barato, más flexible, actualizable sin re-entrenar.
Cómo lo aplicamos →Base de datos especializada en almacenar y buscar vectores numéricos (embeddings) con búsqueda por similitud semántica. Alternativas 2026: pgvector (PostgreSQL), Pinecone, Weaviate, Qdrant, Chroma, Milvus.
Ejemplo:pgvector permite guardar los embeddings de los 500 PDFs del cliente y, ante una pregunta, encontrar los 5 fragmentos más relevantes en milisegundos.
💡 SprintMarkt usa pgvector por defecto en implementaciones RAG — zero cost adicional si el cliente ya tiene PostgreSQL.
Tool Use (Function Calling)
Capacidad de un LLM para invocar funciones externas (APIs, bases de datos, código) durante su razonamiento. Base de los 'agentes IA'.
Ejemplo:Un agente IA con tool use puede: recibir '¿cuántas ventas cerré ayer?' → llamar a API CRM → procesar respuesta → devolver '42 ventas por 18.500€'.
Sistema autónomo basado en LLM que recibe objetivos en lenguaje natural, planifica pasos, usa herramientas externas y ejecuta tareas hasta completarlas. Más complejo que un chatbot.
Ejemplo:Un agente 'asistente comercial' recibe 'prepárame la reunión con cliente X', consulta CRM, resume últimas interacciones, busca noticias recientes de la empresa y genera briefing PDF.
💡 Agentes IA SprintMarkt desde 4.500€ (simple) a 12.000€+ (multi-tool con RAG).
Cómo lo aplicamos →MCP (Model Context Protocol)
MCPProtocolo abierto propuesto por Anthropic en 2024 para conectar LLMs con fuentes de datos y herramientas externas de forma estándar. Ecosistema de 'servidores MCP' para GitHub, Notion, Slack, etc.
Ejemplo:Un equipo puede conectar Claude con su Notion vía servidor MCP oficial, permitiendo que el LLM lea, busque y cree páginas sin código custom.
Característica que fuerza a un LLM a devolver JSON u otro formato estructurado según un schema. Elimina post-procesado con regex frágiles.
Ejemplo:Pedir a GPT-5: 'extrae nombre, email y empresa del siguiente email' con structured output retorna JSON validado, no texto libre.
Capas de protección aplicadas a LLMs para evitar outputs peligrosos, off-topic o que violen políticas. Incluyen: input filtering, output validation, prompt injection detection.
Ejemplo:Guardrails de un chatbot bancario: bloquea preguntas sobre consejos de inversión (no autorizado), detecta intentos de prompt injection, valida que respuestas no mencionen competencia.
Comparativa crítica. RAG es mejor cuando la información cambia con frecuencia, el dataset es grande o se necesita citar fuentes. Fine-tuning es mejor para estilo/tono específico o cuando el coste de inferencia importa más.
Ejemplo:Un chatbot de atención al cliente: RAG sobre FAQ (actualizable). Un generador de copy con voz de marca: fine-tuning (estilo consistente).
Cómo lo aplicamos →Modelo especializado en generar embeddings (vectores numéricos) de texto. Populares en 2026: text-embedding-3-large (OpenAI), voyage-large-2 (Anthropic/Voyage), bge-large (BAAI, open).
Ejemplo:text-embedding-3-small convierte 'contrato de arrendamiento' en un vector de 1.536 dimensiones. Otros textos semánticamente similares tendrán vectores cercanos.
Búsqueda Semántica (Semantic Search)
Búsqueda basada en significado (vía embeddings) en lugar de keywords exactas. Encuentra 'coche usado' cuando el documento dice 'vehículo de segunda mano'.
Ejemplo:Un buscador jurídico con semantic search encuentra jurisprudencia relevante aunque el fallo use vocabulario distinto al de la consulta.
Ejecutar un LLM en infraestructura propia (servidores, GPU locales) en lugar de usar APIs cloud. Ventaja: control de datos, coste fijo, latencia. Desventaja: requiere GPU caras + expertise ops.
Ejemplo:Un hospital público self-hostea Llama 4 en GPUs H100 locales para asegurar que datos de pacientes nunca salen del datacenter.