El mito de Gutmann

[Editado el 14 de septiembre de 2016, elementos editados en negritas]

Desde que comencé a dedicarme a la informática he escuchado mucho sobre la recuperación de archivos, y de hecho más de una vez me ha sido necesario el uso de programas para recuperar datos. He usado de todo: gratuitos, de paga, basados en software, en hardware y hasta he pagado a laboratorios especializados que me han ayudado a recuperar archivos muy importantes(1). También conozco laboratorios de análisis forense que, en casos legales, de información muy importante o de mucha sensibilidad, son de gran ayuda y tienen una experiencia muy amplia en casos civiles, de gobierno, nacionales e internacionales(2).

Desde entonces había tomado como un corolario del almacenamiento que los datos al ser borrados de un disco no son borrados definitivamente, lo cual es totalmente cierto, y eso me ha permitido la recuperación de archivos aun después de que se hubiera formateado el disco o eliminado el archivo de la papelera de reciclaje. Pero otro corolario que había asumido como cierto era que los archivos, aun después de haber sido sobre escritos mantenían una imagen "fantasma" derivada de las reminiscencias magnéticas dejadas a la hora de sobre-escribir los sectores, debido a que es muy difícil de escribir exactamente encima, lo que deja esta huella "fantasma" en los bordes de la pista de escritura. Esto está soportado por una tesis del doctor Gutmann de 1996, en la cual asegura que por medio de equipo de microscopía electrónica sería posible leer dicha información remanente. De ahí surgen los famosos algoritmos de borrado seguro, en los cuales según el esquema más conocido y confiable, que es el de Gutmann se requiere de 35 "pasadas" de escritura, y otros más conservadores que realizan 7, 12, 15, 20 y cualquier número hasta llegar a las míticas 35 pasadas, que deben borrar hasta de la memoria del autor los documentos eliminados con este método.

Sin embargo, por razones que empezaron como necesidad y después se convirtieron en necedad, quise recuperar un archivo sobre escrito en mi disco.

Al poco tiempo me di cuenta de que no había ningún software libre, gratuito o comercial que recuperara archivos sobre escritos, ni tampoco laboratorios que ofrecieran el servicio, y por más que busqué no hallé nada.

Entonces me di a la tarea por primera vez de leer lo que dice la tesis de Gutmann de 1996 (3) y qué implicaciones técnicas tiene. En realidad parece que todo es una mala interpretación de lo que Gutmann vio como una situación hipotética que podría darse si se utilizara un microscopio electrónico muy sensible que permitiera leer los bordes de la pista de escritura, que al parecer tendrían posibilidad de retener los bits sobre escritos debido a las imperfecciones del cabezal y otros factores como la acumulación de magnetismo.

De hecho el mismo Gutmann en un epílogo de su propio trabajo establece que su postulado era hipotético y aplicaba a las tecnologías existentes en 1986, año en el que escribió su ensayo, pero éste fue publicado hasta 10 años después cuando la realidad de la tecnología de escritura había cambiado y la densidad de bits por centímetro cuadrado había aumentado drásticamente, por lo que dice que una simple sobre escritura aleatoria de una sola pasada sería suficiente para evitar que pudieran ser recuperados los datos sobre escritos.

Aquí el extracto del epílogo del trabajo de Gutmann:

Epilogue
In the time since this paper was published, some people have treated the 35-pass overwrite technique described in it more as a kind of voodoo incantation to banish evil spirits than the result of a technical analysis of drive encoding techniques. As a result, they advocate applying the voodoo to PRML and EPRML drives even though it will have no more effect than a simple scrubbing with random data. In fact performing the full 35-pass overwrite is pointless for any drive since it targets a blend of scenarios involving all types of (normally-used) encoding technology, which covers everything back to 30+-year-old MFM methods (if you don’t understand that statement, re-read the paper). If you’re using a drive which uses encoding technology X, you only need to perform the passes specific to X, and you never need to perform all 35 passes. For any modern PRML/EPRML drive, a few passes of random scrubbing is the best you can do. As the paper says, “A good scrubbing with random data will do about as well as can be expected”. This was true in 1996, and is still true now.
Looking at this from the other point of view, with the ever-increasing data density on disk platters and a corresponding reduction in feature size and use of exotic techniques to record data on the medium, it’s unlikely that anything can be recovered from any recent drive except perhaps one or two levels via basic error-cancelling techniques. In particular the the drives in use at the time that this paper was originally written have mostly fallen out of use, so the methods that applied specifically to the older, lower-density technology don’t apply any more. Conversely, with modern high-density drives, even if you’ve got 10KB of sensitive data on a drive and can’t erase it with 100% certainty, the chances of an adversary being able to find the erased traces of that 10KB in 80GB of other erased traces are close to zero.

Buscando un poco más, traté de encontrar algún “paper” ya sea de un investigador de la academia o de algún científico forense en donde hubieran logrado la recuperación real de datos sobre escritos y, pese a un par de trabajos en donde se había logrado recuperar un par de bits y otros en donde el margen de error era altísimo, llegué a una de dos conclusiones:

a) he vivido engañado y creyendo ciegamente en una leyenda urbana, que a menos que me equivoque y yo sea el único con delirio, está profundamente arraigada en el mundo de la informática y en particular de la seguridad.

b) el gobierno al buscar ser el único con la capacidad de realizar tales hazañas ha comprado o cerrado cualquier laboratorio o estudio que haya tenido resultados satisfactorios en la materia. Un poco de conspiroparanoiquismo para alegrar el día.

Creo que sería probable recuperar muy pequeños fragmentos, esporádicos y repartidos en distintas partes del medio de almacenamiento, y que eso probablemente pudiera dar pie a soportar una investigación forense y un fallo judicial, tal vez por hallar alguna palabra en específico o fragmentos de imágenes o archivos de audio, aunque creo que en realidad los casos que hayan ocupado esta técnica son prácticamente inexistentes.

De hecho el NIST (National Institute of Standards and Technology de E.E.U.U) tiene publicado un docuemento llamado «Special Publication 800-88 Guidelines for Media Sanitization» (6) y que en una de su secciones dice:
    
“ …the change in track density and the related changes in the storage medium have created a situation where the acts of clearing and purging the media have converged. That is, for ATA disk drives manufactured after 2001 (over 15 GB) clearing by overwriting the media once is adequate to protect the media from both keyboard and laboratory attack.”

Textualmente dice que sobrescribir la información “una vez” es suficiente para evitar la recuperación, ya sea por ataques de teclado (se refiere a software) o de laboratorio.

Hay que distinguir entre el borrado seguro de un disco completo, que significa sobrescribir el medio entero y el borrado seguro de un archivo. En este último caso es muy importante considerar que lo archivos al ser utilizados dejan rastros en distintas partes del sistema, se generan copias temporales y éstas podrían ser recuperadas aun cuando el archivo haya sido eliminado de forma segura. Por ello es recomendable también borrar los archivos temporales de del sistema, la memoria virtual (swap y page file) y es recomendable realizar un borrado seguro del espacio vacío del disco, para eliminar la posible recuperación de estos archivos.

Por último, es conveniente hablar de los discos de estado sólido, que por sus características físicas y método de almacenamiento de la información realizan operaciones donde la información no se almacena de la misma forma que en los discos duros magnéticos, los dos de estado sólido (ya sea una memoria portátil o un disco duro) utilizan mecanismos para almacenar la información de forma que el desgaste de las celdas de almacenamiento sea uniforme, lo que hace que si se sobrescribe un archivo en particular, aunque para el sistema operativo esté escribiendo “encima” del mismo archivo, la escritura se da en realidad en celdas distintas. Por esto es que en discos de estado sólido no es posible realizar sobre escritura de archivos parciales y habría que borrar todo el espacio vacío del disco para asegurar que fueron sobrescritas todas las celdas donde pudo haber estado el archivo a eliminar, esto aunado a las recomendaciones de antes borrar los archivos temporales del sistema y los de memoria virtual antes de hacer el borrado del espacio vacío.

Hace poco discutiendo con un amigo me decía que los métodos seguros de borrado requieren de al menos 3 pasadas y con información aleatoria. Yo estoy convencido de que no existe posibilidad de recuperar información una vez que ha sido sobre escrita una sola vez, aun con un mismo patrón de puros 0’s o 1’s. Ahora bien, si tienen información que valga lo suficiente como para que un país-estado, los mayores investigadores forenses del mundo, James Bond y Elliot trabajen juntos y le dediquen los recursos que requeriría crear un método de recuperación que hoy es inexistente, entonces sí, elijan las 35 pasadas y mientras esperan me pueden invitar varios pares de cervezas.

Dejaré a mis amigos y compañeros expertos en la materia forense que den su opinión al respecto, que como en muchos otros temas es más categórica y mejor fundada que la mía.

Para terminar, si están interesados en poder recuperar información sobrescrita en su disco requieren más de una medida preventiva que una correctiva. En el artículo de referencia viene una forma de activar el control histórico de versiones en Windows y Mac (5) aunque también la realización de respaldos frecuentes es una excelente alternativa.

Referencias:

(1) Http://recuperaciondedatos.com.mx/
(2) http://mattica.com
(3) https://www.cs.auckland.ac.nz/~pgut001/pubs/secure_del.html
(4) http://blogs.computerworld.com/node/5687?mm_ref=https%3A%2F%2Fwww.google.com.mx%2F
(5) http://m.wikihow.com/Recover-Overwritten-Files
(6) http://nvlpubs.nist.gov/nistpubs/SpecialPublications/NIST.SP.800-88r1.pdf
Otras referencias:
http://m.nber.org//sys-admin/overwritten-data-guttman.html
http://vocaro.com/trevor/blog/2006/09/18/the-myth-of-the-gutmann-method/
http://privazer.com/overwriting_hard_drive_data.The_great_controversy.pdf
http://security.stackexchange.com/questions/26132/is-data-remanence-a-myth/26134#26134


Comentarios

  1. Interesante articulo que da mucho que pensar. Todos pensando que se podía recuperar lo irrecuperable, si esta sobreescrito, esta sobreescrito.

    ResponderEliminar

Publicar un comentario

Entradas populares de este blog

Investigación Forense con Autopsy

Preocupaciones y propuestas sobre los cambios en la ley Telecom y la CURP biométrica

Plausibilidad técnica vs prudencia analítica: mi análisis sobre el caso del presunto uso de Claude para vulnerar datos en México