Añadir mu-plugins y scripts de feadulta
This commit is contained in:
@@ -0,0 +1,340 @@
|
||||
#!/usr/bin/env python3
|
||||
"""
|
||||
translate_post.py — Traduce posts de feadulta (ES → EN/FR/IT/PT) con Gemma 4B local
|
||||
y los enlaza como traducciones de Polylang, SIN servicios de pago.
|
||||
|
||||
Diseño (issue rafa/feadulta#75, fase 1):
|
||||
- Gemma (LM Studio, http://172.19.128.1:1234/v1) traduce título + contenido HTML.
|
||||
- Reglas estrictas: preserva HTML/shortcodes, NO traduce referencias bíblicas, respeta
|
||||
nombres propios y un glosario fijo del proyecto. Traducción fiel (sin resumir).
|
||||
- La lógica WordPress/Polylang vive en fea_translate_helper.php (corre dentro del
|
||||
contenedor cargando wp-load.php; no necesita wp-cli ni proc_open).
|
||||
- Idempotente y reanudable: si ya existe la traducción en ese idioma, se salta.
|
||||
|
||||
Uso:
|
||||
python3 scripts/translate_post.py --post-id 45018 --langs en,fr,it,pt
|
||||
python3 scripts/translate_post.py --carta 45018 # carta + sus _carta_id
|
||||
python3 scripts/translate_post.py --post-id 45018 --langs en --status publish --force
|
||||
|
||||
Pensado para que Codex lo lance en lote sobre la cola priorizada (cartas/destacados).
|
||||
"""
|
||||
|
||||
from __future__ import annotations
|
||||
|
||||
import argparse
|
||||
import fcntl
|
||||
import json
|
||||
import os
|
||||
import re
|
||||
import subprocess
|
||||
import sys
|
||||
import time
|
||||
from pathlib import Path
|
||||
|
||||
# ── Configuración ────────────────────────────────────────────────────────────
|
||||
WP_CONTAINER = os.environ.get("FEA_WP_CONTAINER", "wordpress-web")
|
||||
DB_CONTAINER = os.environ.get("FEA_DB_CONTAINER", "wordpress-mysql")
|
||||
DB_NAME = os.environ.get("FEA_DB_NAME", "wordpress_db")
|
||||
DB_USER = os.environ.get("FEA_DB_USER", "wordpress_user")
|
||||
DB_PASS = os.environ.get("FEA_DB_PASS", "wordpress_pass")
|
||||
|
||||
LM_BASE_URL = os.environ.get("OPENAI_BASE_URL", "http://172.19.128.1:1234/v1")
|
||||
MODEL = os.environ.get("LOCAL_MODEL", "google/gemma-4-e4b")
|
||||
|
||||
# Motor de traducción: "gemma" (local, por defecto) o "haiku" (Claude Haiku 4.5 vía API).
|
||||
# Haiku da más calidad y no necesita trocear (contexto 200k). Reutiliza translate_haiku.py.
|
||||
ENGINE = os.environ.get("FEA_ENGINE", "gemma").lower()
|
||||
if ENGINE == "haiku":
|
||||
MODEL = "claude-haiku-4-5"
|
||||
sys.path.insert(0, str(Path(__file__).resolve().parent))
|
||||
import translate_haiku # carga la API key de portfolio-tracker/.env
|
||||
elif ENGINE == "minimax":
|
||||
MODEL = os.environ.get("LOCAL_MODEL", "MiniMax-Text-01")
|
||||
MINIMAX_URL = os.environ.get("MINIMAX_URL", "https://api.minimax.io/v1/text/chatcompletion_v2")
|
||||
_kf = Path(os.environ.get("MINIMAX_KEY_FILE", "/home/rafa/Feadulta/minimax.txt"))
|
||||
_keys = [l.strip() for l in _kf.read_text().splitlines() if l.strip().startswith("sk-")]
|
||||
MINIMAX_KEY = _keys[-1] if _keys else ""
|
||||
|
||||
HELPER_SRC = Path(__file__).resolve().parent / "fea_translate_helper.php"
|
||||
HELPER_DST = "/tmp/fea_translate_helper.php"
|
||||
STATE_FILE = Path(os.environ.get("FEA_TR_STATE", "/tmp/feadulta-translate-state.json"))
|
||||
LOG_FILE = Path(os.environ.get("FEA_TR_LOG", "/tmp/feadulta-translate.log"))
|
||||
|
||||
LANG_NAMES = {"en": "English", "fr": "French (français)", "it": "Italian (italiano)", "pt": "Portuguese (português)"}
|
||||
|
||||
# Glosario: términos que NO se traducen o se fijan.
|
||||
GLOSSARY = {
|
||||
"Fe Adulta": {"en": "Fe Adulta", "fr": "Fe Adulta", "it": "Fe Adulta", "pt": "Fe Adulta"},
|
||||
"EFFA": {"en": "EFFA", "fr": "EFFA", "it": "EFFA", "pt": "EFFA"},
|
||||
}
|
||||
|
||||
CHUNK_LIMIT = 5000 # caracteres por llamada a Gemma (parte por </p> si se supera)
|
||||
|
||||
|
||||
# ── Utilidades de proceso ────────────────────────────────────────────────────
|
||||
def log(msg: str) -> None:
|
||||
line = f"[{time.strftime('%Y-%m-%d %H:%M:%S')}] {msg}"
|
||||
print(line, flush=True)
|
||||
try:
|
||||
LOG_FILE.open("a", encoding="utf-8").write(line + "\n")
|
||||
except OSError:
|
||||
pass
|
||||
|
||||
|
||||
def sh(cmd: list[str], *, stdin: str | None = None, timeout: int = 120) -> str:
|
||||
r = subprocess.run(cmd, input=stdin, capture_output=True, text=True, timeout=timeout)
|
||||
if r.returncode != 0:
|
||||
raise RuntimeError(f"cmd falló ({r.returncode}): {' '.join(cmd)}\n{r.stderr.strip()}")
|
||||
return r.stdout
|
||||
|
||||
|
||||
_helper_ready = False
|
||||
|
||||
|
||||
def php_helper(subcmd: str, *args: str, stdin: str | None = None) -> str:
|
||||
"""Copia el helper al contenedor (una vez) y lo ejecuta cargando wp-load.php."""
|
||||
global _helper_ready
|
||||
if not _helper_ready:
|
||||
sh(["docker", "cp", str(HELPER_SRC), f"{WP_CONTAINER}:{HELPER_DST}"])
|
||||
_helper_ready = True
|
||||
cmd = ["docker", "exec", "-i", WP_CONTAINER, "php", HELPER_DST, subcmd, *args]
|
||||
return sh(cmd, stdin=stdin, timeout=180)
|
||||
|
||||
|
||||
# ── Gemma (LM Studio) ────────────────────────────────────────────────────────
|
||||
def gemma(messages: list[dict], *, max_tokens: int) -> str:
|
||||
import urllib.request
|
||||
|
||||
body = json.dumps({
|
||||
"model": MODEL,
|
||||
"messages": messages,
|
||||
"temperature": 0.2,
|
||||
"max_tokens": max_tokens,
|
||||
"reasoning_effort": "none",
|
||||
}).encode("utf-8")
|
||||
req = urllib.request.Request(
|
||||
f"{LM_BASE_URL}/chat/completions", data=body,
|
||||
headers={"Content-Type": "application/json"},
|
||||
)
|
||||
with urllib.request.urlopen(req, timeout=300) as resp:
|
||||
data = json.loads(resp.read().decode("utf-8"))
|
||||
return data["choices"][0]["message"]["content"]
|
||||
|
||||
|
||||
def minimax(messages: list[dict], *, max_tokens: int) -> str:
|
||||
import urllib.request
|
||||
|
||||
body = json.dumps({
|
||||
"model": MODEL,
|
||||
"messages": messages,
|
||||
"temperature": 0.2,
|
||||
"max_tokens": max_tokens,
|
||||
}).encode("utf-8")
|
||||
req = urllib.request.Request(
|
||||
MINIMAX_URL, data=body,
|
||||
headers={"Content-Type": "application/json", "Authorization": f"Bearer {MINIMAX_KEY}"},
|
||||
)
|
||||
with urllib.request.urlopen(req, timeout=300) as resp:
|
||||
data = json.loads(resp.read().decode("utf-8"))
|
||||
return data["choices"][0]["message"]["content"]
|
||||
|
||||
|
||||
def _extract(text: str) -> str:
|
||||
"""Extrae la traducción del ÚLTIMO bloque <<<INI>>>…<<<FIN>>>.
|
||||
|
||||
Gemma (modo reasoning) escribe un preámbulo que MENCIONA las propias marcas,
|
||||
así que hay que quedarse con la última ocurrencia, no la primera.
|
||||
"""
|
||||
start_tok, end_tok = "<<<INI>>>", "<<<FIN>>>"
|
||||
i = text.rfind(start_tok)
|
||||
if i != -1:
|
||||
rest = text[i + len(start_tok):]
|
||||
j = rest.find(end_tok)
|
||||
out = (rest[:j] if j != -1 else rest).strip()
|
||||
else:
|
||||
out = text.strip()
|
||||
# Quita vallas de código markdown si Gemma las añade.
|
||||
out = re.sub(r"^```[a-z]*\n?", "", out)
|
||||
out = re.sub(r"\n?```$", "", out)
|
||||
return out.strip()
|
||||
|
||||
|
||||
def _system_prompt(lang: str) -> str:
|
||||
target = LANG_NAMES[lang]
|
||||
glos = "; ".join(f'"{k}" → "{v[lang]}"' for k, v in GLOSSARY.items())
|
||||
return (
|
||||
f"Eres un traductor profesional de textos religiosos cristianos (espiritualidad y "
|
||||
f"teología católica). Traduce del español al {target}. REGLAS ESTRICTAS:\n"
|
||||
f"1. Conserva EXACTAMENTE el marcado HTML (etiquetas y atributos) y los shortcodes "
|
||||
f"entre [ ] y { '{' } { '}' }. No los traduzcas ni los reordenes.\n"
|
||||
f"2. NO traduzcas las referencias bíblicas ni sus abreviaturas (p.ej. 'Jn 3, 16', "
|
||||
f"'Isaías 5, 1-7', 'Mt 5'). Déjalas idénticas.\n"
|
||||
f"3. Conserva los nombres propios de persona y lugar (salvo exónimos establecidos).\n"
|
||||
f"4. Glosario fijo: {glos}.\n"
|
||||
f"5. Traducción FIEL: no resumas, no añadas, no comentes.\n"
|
||||
f"6. Devuelve SOLO la traducción entre las marcas <<<INI>>> y <<<FIN>>>, sin nada más."
|
||||
)
|
||||
|
||||
|
||||
def translate_text(text: str, lang: str, *, is_title: bool = False) -> str:
|
||||
text = text.strip()
|
||||
if not text:
|
||||
return ""
|
||||
if ENGINE == "haiku":
|
||||
out, _usage = translate_haiku.translate(text, lang, is_title=is_title)
|
||||
return out
|
||||
user = f"<<<INI>>>{text}<<<FIN>>>"
|
||||
if is_title:
|
||||
kind = "el TÍTULO"
|
||||
task = (
|
||||
f"Traduce {kind} que va entre las marcas.\n"
|
||||
f"Debe quedar en {LANG_NAMES[lang]} de forma natural. "
|
||||
f"No lo dejes en inglés salvo que el original ya sea un nombre propio o una marca.\n"
|
||||
f"Responde solo con el título traducido entre las marcas:\n{user}"
|
||||
)
|
||||
else:
|
||||
kind = "el texto"
|
||||
task = f"Traduce {kind} que va entre las marcas:\n{user}"
|
||||
messages = [
|
||||
{"role": "system", "content": _system_prompt(lang)},
|
||||
{"role": "user", "content": task},
|
||||
]
|
||||
max_tokens = max(800, int(len(text) * 1.6))
|
||||
engine_fn = minimax if ENGINE == "minimax" else gemma
|
||||
raw = engine_fn(messages, max_tokens=max_tokens)
|
||||
return _extract(raw)
|
||||
|
||||
|
||||
def translate_html(html: str, lang: str) -> str:
|
||||
"""Trocea por párrafos si el contenido es largo, para no saturar el contexto de Gemma."""
|
||||
if ENGINE == "haiku":
|
||||
# Haiku tiene 200k de contexto: el artículo entero de una vez (mejor coherencia).
|
||||
return translate_text(html, lang)
|
||||
if len(html) <= CHUNK_LIMIT:
|
||||
return translate_text(html, lang)
|
||||
parts = re.split(r"(?<=</p>)", html)
|
||||
chunks, buf = [], ""
|
||||
for p in parts:
|
||||
if len(buf) + len(p) > CHUNK_LIMIT and buf:
|
||||
chunks.append(buf)
|
||||
buf = ""
|
||||
buf += p
|
||||
if buf:
|
||||
chunks.append(buf)
|
||||
log(f" contenido largo ({len(html)} car) → {len(chunks)} trozos")
|
||||
return "".join(translate_text(c, lang) for c in chunks)
|
||||
|
||||
|
||||
# ── Datos / estado ───────────────────────────────────────────────────────────
|
||||
def read_post(post_id: int) -> dict:
|
||||
return json.loads(php_helper("read", str(post_id)))
|
||||
|
||||
|
||||
def translation_exists(es_id: int, lang: str) -> int:
|
||||
return int(php_helper("exists", str(es_id), lang).strip() or "0")
|
||||
|
||||
|
||||
WP_LOCK_FILE = Path(os.environ.get("FEA_TR_LOCK", "/tmp/feadulta-translate.lock"))
|
||||
|
||||
|
||||
def create_translation(es_id: int, lang: str, title: str, content: str, status: str) -> int:
|
||||
payload = json.dumps({"title": title, "content": content, "model": MODEL})
|
||||
# Lock entre procesos: serializa SOLO la escritura/enlace Polylang (rápido), no la
|
||||
# traducción LLM (lenta), para que 4 streams por idioma no pisen el grupo de traducciones.
|
||||
with WP_LOCK_FILE.open("w") as lk:
|
||||
fcntl.flock(lk, fcntl.LOCK_EX)
|
||||
try:
|
||||
return int(php_helper("create", str(es_id), lang, status, stdin=payload).strip())
|
||||
finally:
|
||||
fcntl.flock(lk, fcntl.LOCK_UN)
|
||||
|
||||
|
||||
def carta_article_ids(carta_id: int) -> list[int]:
|
||||
q = (f"SELECT post_id FROM wp_postmeta WHERE meta_key='_carta_id' "
|
||||
f"AND meta_value='{carta_id}' ORDER BY post_id;")
|
||||
out = sh(["docker", "exec", DB_CONTAINER, "mysql", f"-u{DB_USER}", f"-p{DB_PASS}",
|
||||
DB_NAME, "-N", "-e", q])
|
||||
return [int(x) for x in out.split() if x.strip().isdigit()]
|
||||
|
||||
|
||||
def load_state() -> dict:
|
||||
if STATE_FILE.exists():
|
||||
try:
|
||||
return json.loads(STATE_FILE.read_text())
|
||||
except json.JSONDecodeError:
|
||||
pass
|
||||
return {"done": {}}
|
||||
|
||||
|
||||
def save_state(state: dict) -> None:
|
||||
STATE_FILE.write_text(json.dumps(state, ensure_ascii=False, indent=2))
|
||||
|
||||
|
||||
# ── Orquestación ─────────────────────────────────────────────────────────────
|
||||
def process_post(post_id: int, langs: list[str], status: str, force: bool, state: dict) -> None:
|
||||
src = read_post(post_id)
|
||||
if src.get("lang") and src["lang"] != "es":
|
||||
log(f"#{post_id} no es ES (lang={src['lang']}) — saltado")
|
||||
return
|
||||
log(f"#{post_id} «{src['title'][:60]}»")
|
||||
|
||||
for lang in langs:
|
||||
key = f"{post_id}:{lang}"
|
||||
existing = translation_exists(post_id, lang)
|
||||
if existing and not force:
|
||||
log(f" {lang}: ya existe (#{existing}) — saltado")
|
||||
state["done"][key] = existing
|
||||
continue
|
||||
if existing and force:
|
||||
php_helper("unlink", str(post_id), lang)
|
||||
log(f" {lang}: --force, eliminada traducción previa #{existing}")
|
||||
try:
|
||||
t0 = time.time()
|
||||
title = translate_text(src["title"], lang, is_title=True)
|
||||
content = translate_html(src["content"], lang)
|
||||
new_id = create_translation(post_id, lang, title, content, status)
|
||||
dt = time.time() - t0
|
||||
log(f" {lang}: creado #{new_id} ({dt:.0f}s) → «{title[:50]}»")
|
||||
state["done"][key] = new_id
|
||||
save_state(state)
|
||||
except Exception as exc: # noqa: BLE001
|
||||
log(f" {lang}: ERROR {exc}")
|
||||
state.setdefault("errors", {})[key] = str(exc)
|
||||
save_state(state)
|
||||
|
||||
|
||||
def main() -> int:
|
||||
ap = argparse.ArgumentParser(description="Traduce posts de feadulta con Gemma local + Polylang.")
|
||||
g = ap.add_mutually_exclusive_group(required=True)
|
||||
g.add_argument("--post-id", type=int, help="ID de un post ES a traducir.")
|
||||
g.add_argument("--carta", type=int, help="ID de carta: traduce la carta y todos sus artículos (_carta_id).")
|
||||
g.add_argument("--ids-file", help="Fichero con un ID de post ES por línea.")
|
||||
ap.add_argument("--langs", default="en,fr,it,pt", help="Idiomas destino separados por coma.")
|
||||
ap.add_argument("--status", default="draft", choices=["draft", "publish"], help="Estado de la traducción.")
|
||||
ap.add_argument("--force", action="store_true", help="Regenera aunque ya exista la traducción.")
|
||||
args = ap.parse_args()
|
||||
|
||||
langs = [l.strip() for l in args.langs.split(",") if l.strip() in LANG_NAMES]
|
||||
if not langs:
|
||||
log("Sin idiomas válidos."); return 1
|
||||
|
||||
if args.post_id:
|
||||
ids = [args.post_id]
|
||||
elif args.ids_file:
|
||||
ids = [int(x) for x in Path(args.ids_file).read_text().split() if x.strip().isdigit()]
|
||||
log(f"ids-file {args.ids_file}: {len(ids)} posts")
|
||||
else:
|
||||
ids = [args.carta] + carta_article_ids(args.carta)
|
||||
log(f"Carta {args.carta}: {len(ids)} posts (carta + {len(ids)-1} artículos)")
|
||||
|
||||
state = load_state()
|
||||
for pid in ids:
|
||||
process_post(pid, langs, args.status, args.force, state)
|
||||
save_state(state)
|
||||
log(f"FIN. {len(state['done'])} traducciones registradas, "
|
||||
f"{len(state.get('errors', {}))} errores. Estado: {STATE_FILE}")
|
||||
return 0
|
||||
|
||||
|
||||
if __name__ == "__main__":
|
||||
raise SystemExit(main())
|
||||
Reference in New Issue
Block a user