11 de marzo de 2026

Cuánto cuesta un bottleneck que nadie toca — cómo calcularlo

Un bottleneck en producción tiene 4 componentes de costo. La mayoría de los equipos solo ven uno. Aquí está el framework para calcular los cuatro.

costosdiagnósticodecisión

Un servicio de procesamiento de pagos lleva 14 meses con una zona que el equipo evita tocar. El componente funciona, pero consume el 55% del cómputo de un cluster de 12 instancias c5.2xlarge. Los deploys en esa zona requieren un rollout manual con feature flag y alguien de guardia. Nadie recuerda la última vez que se modificó sin un incidente.

El CTO sabe que es un problema. Pero cuando le preguntan cuánto cuesta, no tiene un número. Sin un número, no hay business case para invertir en resolverlo.

Este framework calcula ese número.

Los 4 componentes del costo

Un bottleneck en producción no solo cuesta infraestructura. Tiene cuatro componentes, y la mayoría de los equipos solo miden el primero.

1. Costo directo: la infraestructura compensatoria

Es lo más visible: el cómputo, memoria o almacenamiento que existe para compensar la ineficiencia del componente.

Cómo calcularlo:

Identificar qué fracción de la infraestructura del servicio se consume por el componente problemático. Si el servicio corre en 12 instancias c5.2xlarge (on-demand: ~$250/mes cada una = $3,000/mes, precio referencial a marzo 2026 en us-east-1) y el componente consume el 55% del CPU:

Costo directo = $3,000/mes × 0.55 = $1,650/mes = $19,800/año

Si el servicio usa reserved instances o savings plans, ajustar al costo efectivo. Si usa spot instances, el costo directo baja pero el costo de riesgo (componente 4) sube.

Dónde encontrar los datos:

AWS Cost Explorer con tags por servicio, o Kubecost si están en Kubernetes
Métricas de CPU/memoria del APM (Datadog, New Relic) filtradas por el componente o endpoint específico
kubectl top pods comparado con el total del namespace si la atribución es manual

2. Costo indirecto: el tiempo de ingeniería

El equipo gasta tiempo manteniendo el componente funcionando — tiempo que no se refleja en ninguna factura de cloud pero que tiene un costo real.

Cómo calcularlo:

Estimar horas semanales que el equipo dedica a:

Actividad	Horas/semana típicas
Monitoreo extra del componente (alertas, dashboards, revisiones)	1-3h
Deploys manuales con feature flags y rollout cuidadoso	2-4h por deploy
Investigar incidentes o degradaciones causados por el componente	2-6h
Workarounds en otros servicios para evitar la zona	1-3h
Onboarding: explicar a ingenieros nuevos por qué no tocar	1-2h/mes

Si el equipo dedica ~6 horas semanales al componente y el costo fully-loaded de un ingeniero senior es $180K/año ($90/hora):

Costo indirecto = 6h/semana × 48 semanas × $90/hora = $25,920/año

Dónde encontrar los datos:

Preguntar directamente al equipo: "¿cuántas horas por semana se gastan en X?"
Revisar el historial de on-call: cuántos incidents en los últimos 6 meses están relacionados
Git blame en la zona: frecuencia de hotfixes vs. features

3. Costo de oportunidad: el roadmap bloqueado

Esto es lo más difícil de cuantificar pero suele ser el componente más grande. Si el bottleneck bloquea o retrasa funcionalidad que tiene valor de negocio, el costo de oportunidad es el ingreso o ahorro que esa funcionalidad habría generado.

Cómo estimarlo:

Preguntar: "¿Qué features o mejoras están bloqueadas o retrasadas porque requieren tocar este componente?"

Si hay una feature de facturación en tiempo real que lleva 4 meses retrasada porque requiere modificar el servicio de pagos, y esa feature reduciría churn en un 2% sobre una base de $500K MRR:

Costo de oportunidad = $500K × 0.02 × (4 meses / 12) = $3,333/mes de retraso

Si no hay features bloqueadas directamente, el costo de oportunidad puede ser más sutil: velocidad de desarrollo reducida en el área, evitando mejoras que tocan la zona, o sobre-engineering en servicios adyacentes para evitar el componente.

No todos los bottlenecks tienen un costo de oportunidad significativo. Un servicio batch que solo procesa reportes nocturnos puede tener alto costo directo pero bajo costo de oportunidad. Un servicio en el critical path de checkout casi siempre lo tiene.

4. Costo de riesgo: el incidente que todavía no pasó

El componente que nadie quiere tocar es el que falla de la peor manera cuando falla. El costo de riesgo es la probabilidad de un incidente grave multiplicada por su impacto.

Cómo estimarlo:

Costo de riesgo = P(incidente/año) × impacto por incidente

Si el componente tuvo 3 incidentes en los últimos 12 meses con un downtime promedio de 45 minutos, y el servicio procesa $200K/hora en transacciones:

Costo de riesgo = 3 × (45/60) × $200K = $450K/año en exposure

No todos los incidentes son downtime total. Incluir degradaciones parciales: si el p99 se duplica durante 2 horas y eso causa un 5% de abandono en checkout, el impacto es $200K/hora × 0.05 × 2h = $20K por evento.

Dónde encontrar los datos:

Historial de incidentes en PagerDuty/OpsGenie filtrado por el componente
Impacto de negocio de incidentes pasados (si el equipo de BI lo mide)
Estimación del equipo: "¿qué pasa si este componente cae 1 hora en hora pico?"

Sumando los 4 componentes

Para el ejemplo del servicio de pagos:

Componente	Cálculo	Costo anual
Directo (infraestructura)	55% de un cluster de $3K/mes	$19,800
Indirecto (ingeniería)	6h/semana a $90/hora	$25,920
Oportunidad (roadmap)	Feature retrasada 4 meses	$13,332
Riesgo (incidentes)	3 incidentes/año × $150K exposure	$450,000

Costo total del bottleneck = $509,052/año

El costo directo de infraestructura — el único que el equipo veía — era menos del 4% del costo total. El 88% estaba en riesgo de incidentes.

Cómo usar este número

El número tiene dos usos inmediatos:

1. Justificar la inversión: Si el bottleneck cuesta $509K/año y una revisión diagnóstica cuesta $3,500, el costo de la revisión es el 0.7% del costo anual del problema. Incluso si la intervención posterior cuesta $20K, el ROI es claro — siempre que la intervención reduzca el costo al menos un 5%.

2. Priorizar contra otros problemas: Si otro bottleneck cuesta $80K/año y este cuesta $509K/año, la prioridad es obvia. Sin el cálculo, ambos se ven como "problemas técnicos que deberíamos resolver algún día."

Cuándo el costo no justifica intervenir

No todo bottleneck merece atención:

Si el costo total es menor que el costo de intervención. Un componente ineficiente que cuesta $5K/año no justifica un proyecto de $15K a menos que el costo esté creciendo
Si el componente está en ruta de deprecación. Si el servicio se retira en 6 meses, el costo acumulado restante puede ser menor que la intervención
Si el riesgo es bajo y el costo es solo infraestructura. $20K/año en infra extra sin riesgo de incidentes ni roadmap bloqueado puede ser tolerable

La decisión correcta a veces es no hacer nada — pero tiene que ser una decisión explícita con un número detrás, no una postergación por falta de datos.

Si quieres calcular el costo real de un bottleneck en tu sistema y necesitas un diagnóstico que identifique dónde se concentra el impacto, podemos empezar con una conversación de 15 minutos sin costo. Si no hay caso, te lo decimos.

Referencias

AWS EC2 On-Demand Pricing — precios de referencia para instancias c5.2xlarge usados en los cálculos (los precios varían por región y cambian periódicamente)
AWS Cost Explorer — herramienta de análisis de costos mencionada para atribución de gasto por servicio
Kubecost — herramienta de cost allocation para Kubernetes
Gregg, B. (2025). "When to Hire a Computer Performance Engineering Team" — framework de referencia para calcular ROI de inversiones en performance engineering. Establece que un equipo de performance puede reducir el gasto de infraestructura a la mitad en dos años
Forsgren, N., Humble, J., Kim, G. (2018). "Accelerate: The Science of Lean Software and DevOps" — datos sobre cómo la velocidad de delivery (afectada por zonas intocables del código) impacta performance organizacional. Relevante para el componente de costo de oportunidad