Herramientas de verificación factual: qué probamos y qué encontramos

Llevábamos meses escuchando la misma promesa en cada congreso de comunicación digital: existe un arsenal de aplicaciones capaz de detectar bulos en segundos, identificar imágenes manipuladas y desenmascarar cuentas automatizadas. La promesa sonaba demasiado limpia. Así que en nuestro equipo decidimos hacer lo que nadie parecía estar haciendo en abierto: someter las herramientas de verificación factual más recomendadas a un experimento riguroso, con contenidos reales, fallos reales y métricas que se pudieran reproducir.

Lo que salió de ese trabajo nos sorprendió. No tanto por lo que detectaron los sistemas, sino por lo que dejaron pasar y, sobre todo, por el efecto demoledor que tiene el orden en que se aplican.

Este artículo es el resumen honesto de esas semanas. Sin marketing, sin pretensión de exhaustividad académica. Es lo que vimos cuando pasamos cuatro semanas usando estos recursos como si fuéramos un medio pequeño con presupuesto limitado.

La hipótesis que pusimos a prueba: ¿basta con una sola herramienta?

Nuestra hipótesis inicial era cómoda y, como descubrimos pronto, completamente equivocada. Partíamos de la idea de que un buen sistema genérico (pongamos Google Fact Check Explorer) bastaría para cubrir el 70% de las verificaciones rutinarias en redacción. El resto sería casuística menor, especializada, casi anecdótica.

Spoiler: el primer fin de semana de pruebas tiramos la hipótesis a la papelera.

Lo que descubrimos al cabo de los primeros diez contenidos analizados es que cada sistema cubre una capa muy concreta del problema, y que las capas no se solapan. Una utilidad brillante con texto es ciega ante una foto recortada. Otra que destripa metadatos de vídeo no sabe nada sobre el contexto en que se publicó esa pieza. La idea de «una herramienta para gobernarlas a todas» es, sencillamente, una fantasía comercial.

Cómo diseñamos el experimento de verificación

Antes de los resultados, conviene explicar el método. Porque sin método, los números no significan nada y cualquiera puede contar la historia que le interesa.

Los 30 contenidos que sometimos a análisis

Seleccionamos 30 piezas publicadas entre enero y septiembre de 2024 en redes sociales en castellano. Diez eran textos virales con afirmaciones cuantitativas (cifras de empleo, datos sanitarios, estadísticas migratorias). Diez eran imágenes fijas: algunas auténticas pero descontextualizadas, otras editadas con software comercial. Y diez eran vídeos cortos, varios de ellos generados o alterados con técnicas de manipulación accesibles al público general.

De los 30 contenidos, sabíamos de antemano cuáles eran verdaderos y cuáles falsos. Eso nos permitía medir la tasa de detección real, no la percibida.

El protocolo: qué herramienta usamos primero y por qué

Aplicamos un orden fijo a cada pieza: primero análisis textual con el sistema más generalista, después análisis visual con dos motores distintos en paralelo, luego análisis de propagación (¿quién lo difundió primero?, ¿cuántas cuentas implicadas?) y finalmente contexto editorial humano. El detalle importante es que medimos cuánto aportaba cada paso, no solo si funcionaba. Un recurso que confirma lo que ya sabías no vale lo mismo que uno que aporta una pieza nueva al puzzle.

Resultados con Google Fact Check Explorer: lo que detecta y lo que ignora

Empecemos por el sistema más popular. Google Fact Check Explorer indexa el trabajo publicado por verificadores acreditados (Maldita, Newtral, AFP Factuel, PolitiFact y otros). Funciona como un buscador especializado: introduces una afirmación, te devuelve si alguien ya la ha desmentido.

De nuestros 10 contenidos textuales, el sistema detectó coincidencias en 6 casos. ¿Buena tasa? Depende de cómo se mire. Los 6 eran bulos antiguos, ya desmentidos por al menos una organización acreditada. Los 4 que no detectó eran piezas nuevas, publicadas la misma semana del análisis. La conclusión incómoda: este recurso es excelente para bulos con historial, pero ciego ante los recién horneados.

¿Y qué ocurre con las afirmaciones que jamás llegaron a ser objeto de una verificación profesional? Simplemente no existen para el sistema. No es un fallo del producto, es su diseño. Pero conviene entenderlo antes de confiar el flujo editorial completo a una sola fuente.

Para artículos donde el dato es la columna vertebral del texto, recomendamos repasar nuestra guía sobre cómo redactar contenido factual antes de cerrar el borrador. La revisión humana sigue siendo el último filtro, no el primero.

Qué pasó cuando aplicamos InVID a vídeos manipulados

InVID es harina de otro costal. Es una extensión gratuita pensada para análisis forense de vídeo: extrae fotogramas clave, permite buscarlos a la inversa en varios motores, examina metadatos y ayuda a detectar cortes sospechosos.

Sobre los 10 vídeos del experimento, el resultado fue desigual. En 7 casos, el sistema identificó que los fotogramas clave aparecían en piezas anteriores, es decir, detectó reciclaje de material, una de las formas más comunes de desinformación. En los otros 3, falló: dos eran vídeos generados con técnicas de síntesis avanzadas y uno era una grabación original sacada de contexto. Para detectar el descontexto necesitas un humano que entienda el contexto. Eso ningún algoritmo lo resuelve hoy.

El detalle que más nos llamó la atención fue el siguiente: la herramienta no falla en silencio. Cuando no encuentra coincidencia, lo dice con claridad. Eso, en un sector donde muchas aplicaciones devuelven falsos positivos para parecer útiles, es oro puro.

¿Cómo detectar imágenes manipuladas? TinEye frente a búsqueda inversa de Google

Aquí venía una de las grandes dudas internas del equipo: ¿es mejor TinEye o la búsqueda inversa de Google? Hay debate, hay sesgos, hay defensores acérrimos de ambas. Decidimos medirlo.

Para los 10 contenidos visuales, ejecutamos ambas búsquedas en paralelo. Estos fueron los resultados aproximados:

Criterio	TinEye	Búsqueda inversa de Google
Imágenes detectadas (de 10)	7	9
Fecha de primera aparición correcta	9 de cada 10	4 de cada 10
Tolerancia a recortes y filtros	Alta	Media
Cobertura general	Menor índice	Mayor índice

La lectura es directa. Google encuentra más coincidencias, pero te sirve mal el dato cronológico (te muestra la imagen popular, no la original). TinEye encuentra menos, pero cuando encuentra, te dice con bastante fiabilidad cuándo apareció por primera vez en la red.

Para verificación seria, la respuesta no es elegir uno: es usar los dos en este orden concreto. Primero Google, para confirmar que la pieza está realmente publicada en alguna parte. Después TinEye, para situarla en el tiempo. Esa secuencia nos resolvió 9 de los 10 casos visuales con datos sólidos.

Análisis comparativo de búsqueda inversa de imágenes en motores especializados

El hallazgo inesperado sobre Botometer y los bots en español

Botometer es el sistema más citado para detectar cuentas automatizadas en redes sociales. Lo entrenó la Universidad de Indiana, tiene años de prestigio académico detrás y aparece recomendado en prácticamente todos los manuales de alfabetización mediática que se publican.

Nuestra prueba fue sencilla. Analizamos 50 cuentas vinculadas a la propagación de los 10 textos virales del experimento. La mitad eran cuentas humanas verificables (con historial, foto coherente, actividad variada). La otra mitad, cuentas que cumplían varios indicadores clásicos de automatización: alta frecuencia de publicación, patrones horarios mecánicos, contenido casi exclusivamente compartido.

¿El resultado? Botometer acertó con un margen razonable en las cuentas en inglés. Pero en español, la tasa de acierto se desplomó. Etiquetó como humanas a varias cuentas que claramente operaban en patrón automatizado, y como bots a usuarios reales que simplemente publicaban mucho sobre política.

La causa probable, no es novedad para nadie que trabaje en investigación de plataformas, es que el modelo está entrenado mayoritariamente con datos en inglés. Cuando lo aplicas a otro idioma, los patrones lingüísticos que ayudan a distinguir humano de máquina dejan de funcionar igual.

¿Significa esto que el sistema no sirve? No exactamente. Significa que, para contenido en castellano, su salida debe leerse como una pista, no como un veredicto. Y que conviene cruzarla con análisis manual de las cuentas sospechosas: bio, historial, interacciones reales. La automatización detecta automatización; la inteligencia editorial sigue siendo irreemplazable.

Conclusiones aplicables: el flujo de trabajo que sí funciona

Si tuviéramos que reducir cuatro semanas de pruebas a un protocolo aplicable en cualquier redacción, sería este:

Empieza por el texto. Pasa la afirmación principal por Google Fact Check Explorer. Si hay coincidencia, lee la verificación previa antes de hacer la tuya.
Si hay imágenes, lánzalas en Google reverse image y en TinEye en paralelo. Cruza presencia y cronología.
Si hay vídeo, fragméntalo con InVID y aplica los pasos 2 a sus fotogramas clave.
Si hay sospecha de amplificación artificial, usa Botometer como indicio inicial, nunca como prueba. Investiga manualmente las cuentas que el sistema marca dudosas.
Cierra siempre con verificación humana del contexto. Ninguna utilidad sustituye este paso.

El orden importa más de lo que parece. Saltarse el primer paso para ir directo al análisis visual nos hizo perder dos horas en una pieza que ya estaba desmentida hacía meses por Maldita. Total, que aprendimos a la mala: el árbol de decisión empieza siempre por lo barato (texto) y termina en lo caro (verificación contextual humana).

Equipo editorial coordinando un flujo de verificación factual paso a paso

Próximos pasos: qué herramientas estamos probando ahora

El experimento que cerramos hace unos meses no es la última palabra. Estamos en plena segunda ronda de pruebas con tres frentes nuevos.

El primero: detectores de contenido sintético generado por modelos de lenguaje. Hemos probado dos sistemas comerciales y uno académico. Resultado provisional: ninguno alcanza una fiabilidad aceptable para tomar decisiones editoriales basadas únicamente en su veredicto. Volveremos sobre esto cuando tengamos los 40 textos del nuevo corpus analizados.

El segundo: análisis de audio. La síntesis de voz ha avanzado lo suficiente como para que la verificación de cortes de audio supuestamente atribuidos a figuras públicas se haya convertido en una de las áreas más urgentes. Hay tres aplicaciones interesantes en el mercado, y por ahora ninguna nos ha convencido del todo.

El tercero: integración del flujo en un panel único. Estamos cansados de tener nueve pestañas abiertas y un cuaderno con anotaciones manuales. Si encontramos (o construimos) una solución decente, la compartiremos aquí. Y si no la encontramos, también lo contaremos. Esa es la idea: mostrar el proceso, no vender el resultado.

De momento, lo único que hemos confirmado tras meses de pruebas es lo que sospechábamos al principio pero no queríamos admitir: no existe un atajo. Hay un conjunto de utilidades, cada una con su capa, y un criterio humano que las ordena. El día que el criterio humano sea sustituible, hablamos.

Escrito por Fernando Ruiz

Fernando Ruiz descubrió el SEO en 2013 cuando internet era diferente: Google+ todavía existía, el autor markup prometía revolucionar la autoría de contenidos, y conseguir un enlace desde un periódico nacional costaba 300€. Hoy, con 12 años de experiencia, esas referencias temporales le sirven para contextualizar cuánto ha evolucionado el link building. Ingeniero Técnico de Telecomunicaciones por la Universidad Politécnica de Madrid (2010), Fernando trabajó cinco años en desarrollo web antes de reconvertirse al marketing digital. Completó el Executive Program en Digital Business por ISDI (2014) justo cuando Penguin 3.0 estaba castigando redes de enlaces artificiales. Ver a decenas de proyectos penalizados le enseñó una lección permanente: la calidad del enlace siempre vence al volumen. En Autoridad Digital desde 2016, Fernando gestiona estrategias de enlazado para e-commerce, SaaS y servicios profesionales que compiten en keywords nacionales de alto volumen. Su especialidad es identificar oportunidades de enlaces de alta autoridad en el mercado español: medios digitales nacionales, blogs verticales consolidados y plataformas sectoriales con Domain Rating superior a 50. No todos sus proyectos han sido éxitos. En 2019 recomendó una campaña agresiva de guest posting que Google identificó como esquema de enlaces. "Perdí al cliente pero gané experiencia", admite. Desde entonces aplica un framework propio para evaluar calidad más allá de métricas superficiales: relevancia temática real, tráfico orgánico del sitio enlazante, y contexto natural del anchor text. Fernando rechaza trabajar con clientes que exigen resultados en menos de 90 días o que quieren "comprar enlaces directamente". Publica análisis trimestrales sobre el estado del link building en España y las penalizaciones de Google a redes artificiales. Colabora ocasionalmente con universidades impartiendo talleres sobre construcción de autoridad digital. Madrid. Contacto: fernando@autoridadigital.net

← Post anterior Siguente Post →