Metodología

El punto de partida de este análisis es el sitio Monitor Ciudadano Elecciones 2026 (autor: iDrJoe), publicado el 16 de abril de 2026 como reporte preliminar de auditoría forense electoral.

¿Qué hace el sitio de referencia?

Analiza 75,927 actas presidenciales (88% del universo ONPE) más 8,570 imputadas vía promedio provincial, cubriendo el 98% de las 86,240 mesas totales.

Detecta mesas donde Rafael López Aliaga (Renovación Popular) obtuvo significativamente menos votos de lo esperado, y mesas donde Sánchez Palomino (Juntos por el Perú) obtuvo significativamente más. Reporta 107 mesas anómalas para RLA y 154 para Sánchez, con un total de 2,058 votos de RLA identificados como "desaparecidos".

La metodología declarada es un test binomial comparando cada mesa contra sus mesas hermanas del mismo local de votación, con umbral ≥ 4σ (p < 10⁻⁴). En la práctica, el slider del sitio está configurado en σ ≥ 3.0 por defecto, que es el umbral real de los 107 y 154 casos reportados.

2. Nuestras mejoras

2.1 Todos los candidatos, en ambas direcciones

El sitio de referencia analiza únicamente dos candidatos específicos: uno que pierde votos y otro que los gana. Nuestro análisis corre el mismo test sobre los 38 partidos en competencia, detectando tanto mesas donde un partido obtuvo más de lo esperado como mesas donde obtuvo menos — sin presuponer quiénes son las víctimas ni los beneficiarios.

2.2 Mejores métodos estadísticos

2.3 Test multivariado (chi-cuadrado)

Los tests por candidato pueden perderse fraudes "distribuidos" donde ningún candidato individual alcanza el umbral pero el patrón conjunto es estadísticamente imposible. El test chi-cuadrado examina la distribución completa de votos de cada mesa.

2.4 Corrección de Bonferroni

Con 76,115 mesas × 38 candidatos = 2.9 millones de tests simultáneos, se esperan miles de falsos positivos por azar puro. La corrección de Bonferroni ajusta el umbral a σ ≥ 5.64 para controlar la tasa de error al 5% en todo el conjunto.

3. Los métodos explicados sin jerga

3.1 Test binomial (método original del sitio de referencia)

La idea central es simple: si en un colegio hay 10 mesas y en 9 de ellas López Aliaga saca el 15% de los votos, esperamos que la décima también esté cerca del 15%. Si saca 0%, ¿qué tan raro es eso?

Cada voto es como lanzar una moneda con probabilidad p de caer en "RLA". Con n votos válidos en la mesa focal, el número esperado de votos para RLA es simplemente n × p.

p = votos RLA en mesas hermanas / total votos válidos en mesas hermanas z = (votos observados − n × p) / √(n × p × (1 − p))

El resultado z mide cuántas desviaciones estándar se aleja el resultado observado del esperado. Un z = −5 significa que el resultado está a 5 desviaciones estándar por debajo de lo esperado — algo que ocurre por azar con probabilidad de 1 en 3.5 millones.

Limitación clave

Este test trata p como un valor conocido y exacto. En realidad, p es una estimación basada en las mesas hermanas — si hay pocas hermanas, esa estimación es ruidosa y el test sobreestima la significancia. Una mesa con 2 hermanas y σ = −4 es mucho menos confiable que una con 20 hermanas y el mismo σ.

3.2 Test de dos proporciones (nuestra mejora principal)

En vez de tratar p como conocido, reconocemos que ambos lados son estimados: la mesa focal y las hermanas son muestras. Comparamos dos proporciones directamente.

p_focal = votos RLA en la mesa focal / n_focal p_hermanas = votos RLA en hermanas / n_hermanas p_pooled = (votos RLA focal + votos RLA hermanas) / (n_focal + n_hermanas) z = (p_focal − p_hermanas) / √(p_pooled × (1 − p_pooled) × (1/n_focal + 1/n_hermanas))

El término 1/n_hermanas en el denominador es la diferencia clave: cuando hay pocas hermanas, ese término crece, el denominador crece, y el z-score se achica — el test se vuelve más conservador precisamente cuando menos datos tenemos.

¿Cuánto cambia?

Con 1,800 votos en hermanas, la diferencia entre métodos es pequeña (−5.9σ vs −5.6σ). Con solo 60 votos en hermanas, el binomial da −5.9σ mientras el test de dos proporciones da −3.1σ — una diferencia enorme que determina si la mesa se flaggea o no. El test de dos proporciones reduce los positivos totales en ~39%.

3.3 Chi-cuadrado multivariado

Los tests anteriores miran a un candidato a la vez. Pero si en una mesa RLA pierde 8 votos, Sánchez gana 6 y Fuerza Popular pierde 4, ninguno dispara el umbral individualmente — pero el patrón conjunto es sospechoso. El chi-cuadrado mide eso.

χ² = Σᵢ (observado_i − esperado_i)² / esperado_i donde la suma es sobre todos los partidos con esperado_i ≥ 1

Es la suma de los cuadrados de todas las desviaciones normalizadas. Si todos los candidatos están cerca de lo esperado, χ² es pequeño. Si varios se desvían simultáneamente, χ² crece aunque ninguno individualmente sea extremo. El p-valor se calcula con la distribución chi-cuadrado con df = candidatos − 1 grados de libertad.

En nuestro análisis

Encontramos 1,815 mesas con p < 10⁻⁴ en el test chi-cuadrado (baseline local), de las cuales 425 sobreviven la corrección de Bonferroni. El toggle "Solo confirmadas χ²" en la tabla principal filtra los resultados por candidato a solo estas mesas — combinando evidencia individual y multivariada.

3.4 Corrección de Bonferroni

Imagina lanzar una moneda justa 2.9 millones de veces. Esperas que salgan muchas rachas de varios caras seguidas, aunque la moneda sea justa. Si tienes 2.9 millones de tests estadísticos, esperas miles de "resultados significativos" por puro azar, aunque no haya fraude.

La corrección de Bonferroni divide el nivel de significancia entre el número de tests:

Con este umbral, se esperaría menos de 1 falso positivo en todo el análisis si no hubiera ninguna anomalía real. Es un estándar muy estricto — similar al "5σ" que usan los físicos de partículas para confirmar un descubrimiento.

Limitación

Bonferroni asume que todos los tests son independientes. En realidad, los votos de un mismo local están correlacionados entre sí — si un local tiene un patrón inusual, varias de sus mesas lo dispararán a la vez. Esto hace que Bonferroni sea demasiado conservador: elimina algunas anomalías genuinas junto con los falsos positivos. Es útil como filtro adicional, no como el único criterio.

4. Apéndice: reproducción de resultados del sitio de referencia

Para validar nuestro análisis, raspamos las 107 mesas de la tabla RLA y las 154 mesas de la tabla Sánchez del sitio de referencia, y las cruzamos contra nuestros resultados con distintos métodos y umbrales.

Notas sobre las diferencias esperadas

Comparación de conteos por método y umbral

* El sitio de referencia usa σ ≥ 3.5 para los 154 casos de Sánchez (verificado contando las sigmas de la tabla scrapeada).

Coincidencia mesa a mesa (σ ≥ 4.0, baseline local)

Interpretación

La coincidencia del 85–90% a σ ≥ 4 confirma que el núcleo del análisis es el mismo. Las discrepancias menores se deben a diferencias de redondeo en el cálculo de σ (usamos la misma fórmula pero con ligeras diferencias en la precisión numérica de p), y a 4 mesas presentes en el dataset del sitio pero ausentes del nuestro.

La gran diferencia en los conteos a σ ≥ 3.0 — nuestros 217 vs 57 de Sánchez para RLA, y 784 vs 154 para JxP — refleja que el sitio de referencia aplica filtros adicionales no documentados en su metodología (posiblemente un mínimo de votos absolutos perdidos, o un umbral diferente por candidato).

Candidato	Umbral	Sitio ref.	Binomial local	2-prop local
RLA votos MENOS	σ ≥ 3.0	57	265	217
	σ ≥ 4.0	41	38	37
	Bonferroni (σ ≥ 5.6)	5	4	4
Sánchez votos MÁS	σ ≥ 3.0 / 3.5*	154	1,313	784
	σ ≥ 4.0	141	316	161
	Bonferroni (σ ≥ 5.6)	29	53	24

Candidato	En sitio	Coinciden	% coincidencia	Solo en sitio	Razón del faltante
RLA menos	41	35	85%	6	4 ausentes del CSV, 2 near-miss (σ=−3.97 vs −4.0)
Sánchez más	141	127	90%	14	0 ausentes, 12 near-miss, 2 sin flaggear

1. El sitio de referencia