Etiqueta: Islandia

驴Qu茅 tecnolog铆a hay detr谩s de los Papeles de Panam谩?

Para poder a dar a conocer m谩s de 2TB de informaci贸n del bufete Mossack Fonseca, el software que ha ayudado a filtrar los documentos involucrados en el esc谩ndalo de los Panama Papers proviene de la compa帽铆a australiana Nuix.

La filtraci贸n de los 鈥淧apeles de Panam谩鈥 que ha filtrado documentos del bufete paname帽o Mossack Fonseca y que ha dejado al descubierto los para铆sos fiscales de muchos l铆deres pol铆ticos y otras personalidades est谩 marcando la actualidad informativa estos d铆as. El software que ha ayudado a filtrar esos documentos tan valiosos proven铆a de la compa帽铆a Nuix, con sede en Australia. Carl Barron, consultor senior de Nuix, nos ha contado informaci贸n sobre c贸mo se ha desarrollado toda esta historia. La empresa, Nuix, tiene una fuerte relaci贸n con el International Consortium Investigate Journalists (ICIJ) desde hace m谩s de cinco a帽os, incluyendo una alianza con la corporaci贸n Australian Firepower contra el fraude. El ICIJ recomend贸 a Nuix al diario alem谩n S眉ddeutsche Zeitung (SZ), con el que han colaborado durante la investigaci贸n de los pagos de Panam谩.

鈥淪Z nos consult贸 y trabajamos juntos en el hardware y los procesos de trabajo鈥, explic贸 Barron. 鈥淣os involucramos con ambas partes, tanto con SZ como con el ICIJ. La investigaci贸n actual empez贸 en septiembre del a帽o pasado, aunque no creo que los datos llegaran en un gran lote. Nos llevar铆a un d铆a y medio indexar los 11.5 millones de documentos de la colecci贸n de 2.6 terabytes鈥. Los datos recogidos por el ICIJ y el SZ conten铆an algunos retos en cuando a reconocimiento 贸ptico de caracteres (OCR). 鈥淓ran datos electr贸nicos algunos de ellos, pero basados en documentos en papel. Hab铆a una gran cantidad de correos electr贸nicos. En total, unos 11.5 millones de documentos y cerca de cinco millones de correos. Hab铆a documentos PDF e im谩genes que necesitaban el OCR para convertir el texto en formato electr贸nico鈥, explic贸 Barron.

Indexaci贸n de documentos

Nuix se utiliz贸 para indexar documentos, buscarlos e identificar las relaciones entre ellos. 鈥淣uix es una potente herramienta de indexaci贸n que extrae textos y metadatos de los documentos, para luego poder hacer consultas muy simples o muy complejas o encontrar la relaci贸n entre nombres que aparecen en los documentos o los remitentes de otros correos electr贸nicos鈥, coment贸 Barron. El proyecto empez贸 con un peque帽o ordenador y posteriormente SZ compr贸 un servidor Windows para procesar los datos. El tama帽o del volumen de datos era 鈥渘ormal鈥. No es una gran cantidad de datos pero entiendo que hab铆a una gran cantidad de OCR聽 por lo que el reto se convirti贸 en descubrir lo que era basura y lo que no鈥. Tras un despliegue inicial de consultor铆a en hardware y flujo de trabajo, SZ y el ICIJ estaban preparados para analizar el tesoro tras un firewall que mantuviera su trabajo en privado.

Dentro de la opini贸n de Barron, a煤n hay margen para futuras revelaciones cuando los periodistas e investigadores consigan a帽adir m谩s criterios de b煤squeda y encontrar nuevas relaciones entre los nombres y los datos.

Martin Veitch