METR revisó más tarde el diseño del estudio a principios de 2026, ajustándolo a la heterogeneidad de las tareas. El análisis revisado encontró una modesta aceleración del 6% en toda la muestra, pero con una variación extrema: algunos desarrolladores ganaron hasta un 25% en ciertas tareas, mientras que otros siguieron siendo netamente más lentos. La conclusión central se mantuvo: el beneficio de la IA depende en gran medida de la tarea, y la velocidad autoinformada no es una métrica fiable.
Si las cifras de tiempo de finalización son ruidosas, los datos sobre la calidad del código son más claros. El informe histórico de CodeRabbit "Estado de la generación de código: IA vs. Humanos" analizó 470 pull requests reales de GitHub —320 coescritos por IA y 150 solo por humanos— en proyectos de código abierto.
El titular es contundente: los pull requests generados por IA contenían, en promedio, ~1.7 veces más problemas que el código escrito por humanos (10.83 problemas por PR frente a 6.45). El déficit de calidad no se limitó al estilo o al formato. Se concentró en áreas que causan incidentes reales:
El análisis de CodeRabbit también identificó una "cola de revisión más pesada" para el código escrito por IA, lo que significa que los revisores humanos dedicaron una cantidad de tiempo desproporcionadamente mayor a encontrar y diagnosticar problemas en los cambios generados por IA. Como lo expresaron los autores del informe, los humanos y la IA cometen el mismo tipo de errores — la IA simplemente comete muchos de ellos con más frecuencia y a mayor escala.
El patrón se alinea con la observación más amplia de CodeRabbit de que 2025 se definió por la velocidad de la IA, pero 2026 debe convertirse en el año de la calidad de la IA. Los análisis post mortem y los incidentes operativos se rastrearon cada vez más a errores de lógica sutiles, descuidos de configuración y malentendidos de diseño introducidos por los asistentes de IA.
El déficit de calidad se traduce directamente en un desperdicio financiero. La plataforma de productividad para desarrolladores Entelligence.AI agregó datos de 2,444 empresas y produjo un desglose que ha reverberado en los círculos de ingeniería:
| Destino del dólar | Coste por $1 gastado en tokens de IA |
|---|---|
| Corrección de errores introducidos por la IA | $0.44 |
| Retrabajo | $0.27 |
| Fricción en la revisión | $0.11 |
| Valor real que llega a los usuarios | $0.18 |
En otras palabras, 82 centavos de cada dólar gastado en tokens de IA se destinan a errores, retrabajo y gastos generales de revisión. Solo 18 centavos generan valor para el usuario. El coste no es teórico. Uber agotó todo su presupuesto de codificación con IA para 2026 en cuatro meses y registró cero ganancias de productividad medibles. Un ejecutivo anónimo de Uber declaró sin rodeos que el vínculo entre el gasto en IA y la mejora del producto "aún no existe".
Un estudio complementario de Stanford y el MIT descubrió que los agentes de IA que corrigen errores de código pueden consumir más de un millón de tokens por tarea — aproximadamente 1,000 veces el consumo de tokens de las tareas estándar de preguntas y respuestas sobre código. La economía sugiere que, para muchas organizaciones, los costes derivados de la adopción de la IA se están comiendo actualmente las ganancias de productividad prometidas.
Quizás el hallazgo psicológicamente más impactante es que los desarrolladores que conocen estos datos aún se niegan a trabajar sin IA. Múltiples medios han informado que los participantes en el estudio de METR se resistieron a volver a la codificación sin ayuda incluso después de que se les mostraran sus propias cifras de ralentización. Esto se ha descrito como una "paradoja de la dependencia de la IA": una vez que los desarrolladores se acostumbran a la asistencia de la IA, pierden la confianza en su capacidad sin ayuda, incluso cuando la herramienta les está ralentizando de forma demostrable.
Como lo expresó un desarrollador, la IA "se encarga de las partes aburridas: el código repetitivo, la sintaxis, las cosas que parecen trabajo pero no es donde reside la verdadera dificultad". La herramienta hace que la codificación se sienta más rápida incluso cuando el cronómetro dice lo contrario, porque la fricción pasa de escribir borradores iniciales a realizar revisiones meticulosas.
A partir de los ensayos controlados de METR, el análisis de pull requests de CodeRabbit y los datos empresariales de Entelligence.AI, ha surgido un conjunto consistente de recomendaciones:
La evidencia emergente no sugiere que las herramientas de codificación con IA sean inútiles. En contextos específicos —familiarizarse con bases de código desconocidas, generar código repetitivo y tareas donde los desarrolladores predijeron que la IA ayudaría sustancialmente— sí aparecen aceleraciones medibles. Pero en la población más amplia de desarrolladores experimentados que trabajan en sus propias bases de código maduras, el efecto neto desde mediados de 2025 hasta 2026 ha sido entregas más lentas, más defectos y una dependencia que se resiste a los datos.
Comments
0 comments