Benchmark Gemma 4 12B vs 4B — resultados (2026-06-08) #69
Reference in New Issue
Block a user
Delete Branch "%!s()"
Deleting a branch is permanent. Although the deleted branch may continue to exist for a short time before it actually gets removed, it CANNOT be undone in most cases. Continue?
Benchmark Gemma 4 12B vs 4B — Feadulta (traducción ES→EN + TTS-ready)
Fecha: 2026-06-08
Plan:
docs/benchmarks/gemma4-12b-vs-4b.md(en/home/rafa/tmp-bench/feadulta/)Backend: LM Studio Windows (GPU RTX 5060 Ti 16GB)
Cuantización: 12B Q4_K_M / 4B (e4b) Q8_0
Modo: un único modelo cargado a la vez (swap forzado entre pasadas)
Input: fragmento real de
evangelios_html/Juan/2690-ES-introduccion-al-evangelio-de-juan.html— 750 palabras, tono doctrinal, 13 citas bíblicas (Jn 13:35, Jn 1:14, 14:9, 4:34, 7:16, 8:26, 12:49-50, 17:15, 20:19, 16:2, 4:2-3, 3:16-18, Ex 3:14), términos doctrinales (sinópticos, gnósticos, docetistas, encarnación, eucaristía).Métricas
12B 2.29× más lento Y truncado por límite max_tokens=4096. Gastó 2698 tokens en reasoning antes de producir contenido, comiéndose más de la mitad del presupuesto. La traducción [EN_TRANSLATION] llega completa, pero [TTS_READY_EN] se corta a mitad del párrafo "Because of this event...". Para entregar un texto completo habría que subir max_tokens a 6000+, lo cual encarece más cada llamada.
Calidad (puntuación 1-5)
Observaciones
- the opposition of the Jews.../- the Gnostic movement...) cuando el prompt prohibía explícitamente "sin enumeraciones artificiales" en la versión TTS-ready (y aunque la prohibición es estricta solo en TTS, dejar bullets en la traducción base también es discutible para texto destinado a TTS). La sección [TTS_READY_EN] queda truncada sin llegar al final del fragmento.Veredicto
4B claramente mejor para el caso traducción + TTS de Feadulta. El 12B no entrega criterio adicional notable (precisión religiosa equivalente), introduce bullets prohibidos, y se trunca por gasto excesivo en reasoning. Para un pipeline de traducción de cartas/artículos de Feadulta el 4B es la opción correcta. Si en algún momento se necesita un matiz teológico más sutil, escalar a Claude/GPT antes que al 12B local.
Artefactos
/home/rafa/bench-gemma-2026-06-08/inputs/feadulta.txt/home/rafa/bench-gemma-2026-06-08/outputs/feadulta__google_gemma-4-e4b.txt/home/rafa/bench-gemma-2026-06-08/outputs/feadulta__google_gemma-4-12b.txt