Language: Español
Los agentes de IA funcionan mejor cuando están respaldados por una arquitectura sólida que reduce la carga cognitiva del modelo. Pero, es posible dejar de depender de IAs comerciales caras para tareas complejas como la investigacion juridica y mover el sistema a hardware local?
En esta charla técnica, veremos un experimento práctico: cómo tomamos el pipeline de Marcus (un piloto de RAG agéntico para investigación jurídica en Latinoamérica basado originalmente en Gemini y Claude) y probamos sus límites clonándolo en Gemma 4 con el Agent Development Kit (ADK) sobre la GPU que compré para jugar videojuegos (RTX 4070 TI Super 16GB).
Analizaremos los cambios de ingeniería necesarios para intentar que un modelo abierto funciona al nivel de los gigantes comerciales: estructuración estricta de prompts, optimización del presupuesto de tokens y evaluación local.
Te llevarás los resultados reales de este experimento, los obstáculos encontrados en el formateo lógico y una hoja de ruta clara si estás pensando en mover tus prototipos agénticos a entornos open-weights locales.
Esta sesión analiza desde una perspectiva de ingeniería y experimentación lo que ocurre cuando intentas mover un sistema agéntico diseñado para la nube a un environment local restringido.
Lo que aprenderá la audiencia:
La Arquitectura base: Cómo está estructurado el pipeline original usando TypeScript (Nuxt, pgvector) y y el por qué el diseño del sistema alivia el peso del razonamiento puro del LLM.
El Experimento Local: El proceso de configuración para servir Gemma 4 con el ADK en hardware de consumo (16GB VRAM).
Ingeniería de Contexto bajo Restricciones: Adaptación de estrategias de recuperación de documentos (parent-child embeddings) para lidiar con ventanas de contexto locales.
Resultados y Realidad: Una comparativa sincera de los aciertos, los fallos de lógica y las limitaciones reales que encontramos al replicar el comportamiento de modelos comerciales en local.
