Benchmark Gemma 4 12B vs 4B — resultados (2026-06-08) #69

New Issue

2026-06-28T19:14:03Z

rafa commented

2026-06-28 19:14:03 +00:00

Benchmark Gemma 4 12B vs 4B — Feadulta (traducción ES→EN + TTS-ready)

Fecha: 2026-06-08
Plan: docs/benchmarks/gemma4-12b-vs-4b.md (en /home/rafa/tmp-bench/feadulta/)
Backend: LM Studio Windows (GPU RTX 5060 Ti 16GB)
Cuantización: 12B Q4_K_M / 4B (e4b) Q8_0
Modo: un único modelo cargado a la vez (swap forzado entre pasadas)
Input: fragmento real de evangelios_html/Juan/2690-ES-introduccion-al-evangelio-de-juan.html — 750 palabras, tono doctrinal, 13 citas bíblicas (Jn 13:35, Jn 1:14, 14:9, 4:34, 7:16, 8:26, 12:49-50, 17:15, 20:19, 16:2, 4:2-3, 3:16-18, Ex 3:14), términos doctrinales (sinópticos, gnósticos, docetistas, encarnación, eucaristía).

Métricas

Modelo	Elapsed	Prompt tok	Completion	Reasoning	tok/s	Finish
gemma-4-e4b (4B)	58.2 s	1302	2601	592	44.7	stop
gemma-4-12b	133.2 s	1302	4096	2698	30.8	length (truncado)

12B 2.29× más lento Y truncado por límite max_tokens=4096. Gastó 2698 tokens en reasoning antes de producir contenido, comiéndose más de la mitad del presupuesto. La traducción [EN_TRANSLATION] llega completa, pero [TTS_READY_EN] se corta a mitad del párrafo "Because of this event...". Para entregar un texto completo habría que subir max_tokens a 6000+, lo cual encarece más cada llamada.

Calidad (puntuación 1-5)

Eje	4B	12B
1. Fidelidad al original	4	4
2. Naturalidad inglés	4	4
3. Precisión religiosa/terminológica	5	5
4. Calidad TTS-ready	4	2 (truncado + viola "sin enumeraciones")
5. Necesidad edición manual	4	2
Total	21/25	17/25

Observaciones

Citas bíblicas: ambos las preservan correctamente (13:35, 14:9, 17:15, 20:19, 16:2, 4:2-3, 3:16-18, 1:14, Ex 3:14, 4:34, 7:16, 8:26, 12:49-50). Nota: el 12B convierte "Ex 3:14" como "given by the Father to Moses" cuando el original es "definition given by God to Moses" — leve cambio teológico defendible pero no idéntico.
Términos doctrinales: ambos usan correctamente "Synoptics", "Gnostics", "Docetists", "Docetism", "Incarnation", "Word became flesh". Empate.
Cuerpo de la traducción: el 12B es ligeramente más natural en algunas frases ("Yet at the same time" vs "But at the same time" del 4B), pero no es una diferencia material.
TTS-ready:
- 4B: entrega versión completa, párrafos respirables, sin enumeraciones artificiales. Reformula los dos puntos teológicos como prosa fluida. Cumple el prompt.
- 12B: la sección [EN_TRANSLATION] incluye bullet points (- the opposition of the Jews... / - the Gnostic movement...) cuando el prompt prohibía explícitamente "sin enumeraciones artificiales" en la versión TTS-ready (y aunque la prohibición es estricta solo en TTS, dejar bullets en la traducción base también es discutible para texto destinado a TTS). La sección [TTS_READY_EN] queda truncada sin llegar al final del fragmento.
4B genera contenido ~3× más rápido (44.7 vs 30.8 tok/s) y necesita 4.5× menos reasoning tokens para arrancar a escribir. El 12B "piensa demasiado" antes de traducir.

Veredicto

4B claramente mejor para el caso traducción + TTS de Feadulta. El 12B no entrega criterio adicional notable (precisión religiosa equivalente), introduce bullets prohibidos, y se trunca por gasto excesivo en reasoning. Para un pipeline de traducción de cartas/artículos de Feadulta el 4B es la opción correcta. Si en algún momento se necesita un matiz teológico más sutil, escalar a Claude/GPT antes que al 12B local.

Artefactos

Input fragmento: /home/rafa/bench-gemma-2026-06-08/inputs/feadulta.txt
Output 4B: /home/rafa/bench-gemma-2026-06-08/outputs/feadulta__google_gemma-4-e4b.txt
Output 12B: /home/rafa/bench-gemma-2026-06-08/outputs/feadulta__google_gemma-4-12b.txt

## Benchmark Gemma 4 12B vs 4B — Feadulta (traducción ES→EN + TTS-ready) **Fecha:** 2026-06-08 **Plan:** `docs/benchmarks/gemma4-12b-vs-4b.md` (en `/home/rafa/tmp-bench/feadulta/`) **Backend:** LM Studio Windows (GPU RTX 5060 Ti 16GB) **Cuantización:** 12B Q4_K_M / 4B (e4b) Q8_0 **Modo:** un único modelo cargado a la vez (swap forzado entre pasadas) **Input:** fragmento real de `evangelios_html/Juan/2690-ES-introduccion-al-evangelio-de-juan.html` — 750 palabras, tono doctrinal, 13 citas bíblicas (Jn 13:35, Jn 1:14, 14:9, 4:34, 7:16, 8:26, 12:49-50, 17:15, 20:19, 16:2, 4:2-3, 3:16-18, Ex 3:14), términos doctrinales (sinópticos, gnósticos, docetistas, encarnación, eucaristía). ### Métricas | Modelo | Elapsed | Prompt tok | Completion | Reasoning | tok/s | Finish | |---|---|---|---|---|---|---| | gemma-4-e4b (4B) | **58.2 s** | 1302 | 2601 | 592 | 44.7 | **stop** | | gemma-4-12b | 133.2 s | 1302 | 4096 | 2698 | 30.8 | **length** (truncado) | 12B **2.29× más lento** Y **truncado** por límite max_tokens=4096. Gastó 2698 tokens en reasoning antes de producir contenido, comiéndose más de la mitad del presupuesto. La traducción [EN_TRANSLATION] llega completa, pero [TTS_READY_EN] se corta a mitad del párrafo "Because of this event...". Para entregar un texto completo habría que subir max_tokens a 6000+, lo cual encarece más cada llamada. ### Calidad (puntuación 1-5) | Eje | 4B | 12B | |---|---|---| | 1. Fidelidad al original | 4 | 4 | | 2. Naturalidad inglés | 4 | 4 | | 3. Precisión religiosa/terminológica | 5 | 5 | | 4. Calidad TTS-ready | **4** | **2** (truncado + viola "sin enumeraciones") | | 5. Necesidad edición manual | 4 | 2 | | **Total** | **21/25** | **17/25** | ### Observaciones - **Citas bíblicas:** ambos las preservan correctamente (13:35, 14:9, 17:15, 20:19, 16:2, 4:2-3, 3:16-18, 1:14, Ex 3:14, 4:34, 7:16, 8:26, 12:49-50). Nota: el 12B convierte "Ex 3:14" como "given by the Father to Moses" cuando el original es "definition given by God to Moses" — leve cambio teológico defendible pero no idéntico. - **Términos doctrinales:** ambos usan correctamente "Synoptics", "Gnostics", "Docetists", "Docetism", "Incarnation", "Word became flesh". Empate. - **Cuerpo de la traducción:** el 12B es ligeramente más natural en algunas frases ("Yet at the same time" vs "But at the same time" del 4B), pero no es una diferencia material. - **TTS-ready:** - **4B:** entrega versión completa, párrafos respirables, sin enumeraciones artificiales. Reformula los dos puntos teológicos como prosa fluida. Cumple el prompt. - **12B:** la sección [EN_TRANSLATION] **incluye bullet points** (`- the opposition of the Jews...` / `- the Gnostic movement...`) cuando el prompt prohibía explícitamente "sin enumeraciones artificiales" en la versión TTS-ready (y aunque la prohibición es estricta solo en TTS, dejar bullets en la traducción base también es discutible para texto destinado a TTS). La sección [TTS_READY_EN] **queda truncada** sin llegar al final del fragmento. - 4B genera contenido ~3× más rápido (44.7 vs 30.8 tok/s) y necesita 4.5× menos reasoning tokens para arrancar a escribir. El 12B "piensa demasiado" antes de traducir. ### Veredicto **4B claramente mejor para el caso traducción + TTS de Feadulta.** El 12B no entrega criterio adicional notable (precisión religiosa equivalente), introduce bullets prohibidos, y se trunca por gasto excesivo en reasoning. Para un pipeline de traducción de cartas/artículos de Feadulta el 4B es la opción correcta. Si en algún momento se necesita un matiz teológico más sutil, escalar a Claude/GPT antes que al 12B local. ### Artefactos - Input fragmento: `/home/rafa/bench-gemma-2026-06-08/inputs/feadulta.txt` - Output 4B: `/home/rafa/bench-gemma-2026-06-08/outputs/feadulta__google_gemma-4-e4b.txt` - Output 12B: `/home/rafa/bench-gemma-2026-06-08/outputs/feadulta__google_gemma-4-12b.txt`

rafa closed this issue

2026-06-28 19:14:03 +00:00

Sign in to join this conversation.

1 Participants

Notifications

Due Date

No due date set.

Dependencies

No dependencies set.

Reference: rafa/feadulta#69