Algunas opciones de deduplicación de documentos para evitar duplicidad
La deduplicación de documentos es un proceso que elimina la duplicidad y reduce el almacenamiento.

La deduplicación de documentos es un proceso que elimina la duplicidad y reduce el exceso de almacenamiento. Las técnicas de deduplicación te aseguran que va a existir una única instancia del documento guardada en los medios de almacenamiento. Los documentos redundantes en el sistema de gestión documental son reemplazados con un puntero a esa única copia del documento.

También te puede interesar
Los procesos de negocio como habilitadores del éxito en las organizaciones
El problema de la duplicidad de documentos y archivos
Cuando se recopila mucha documentación en bruto de múltiples usuarios, nos vamos a encontrar con mucha duplicidad. En las cadenas de correo electrónico de toda la empresa, por ejemplo, se envía un mensaje a varios destinatarios y se almacena en el buzón de cada persona. Dependiendo de las políticas de retención de la organización, se pueden encontrar copias del mismo archivo en la unidad de disco duro del empleado, en el servidor de archivos y en una cinta de backup de la empresa.
Una persona encargada de identificar, recopilar y revisar toda esa cantidad de documentos recopilados en bruto, debería realizar una revisión exhaustiva de un conjunto de documentos lleno de duplicidad y eso afecta a su rentabilidad y eficiencia, además de aumentar ciertos riesgos, ya que la duplicidad de documentos incrementa la posibilidad de inconsistencia e incluso su revisión puede acarrear problemas de confidencialidad.
La deduplicación puede mitigar estos problemas
Para mitigar estas preocupaciones, muchos profesionales recurren a tecnologías de deduplicación dónde la duplicidad de documentos es identificada y gestionada durante el proceso inicial de descubrimiento, minimizando de esta forma la revisión redundante.
La deduplicación puede reducir el número de documentos a ser revisados hasta en un 90% y en promedio entre un 30 % y un 40 %.
Con la deduplicación se crea una huella digital electrónica para cada documento a nivel de bit aprovechando un algoritmo de hashing. Las huellas digitales resultantes se comparan entre sí para determinar qué documentos son duplicados exactos. Esas huellas digitales cambian con casi cualquier tipo de modificación en el archivo, como un espacio extra o cambios de formato.
Sin embargo, la identificación de duplicidad es solo el primer paso. Eliminar todos los duplicados eliminaría también información contextual potencialmente importante, como, por ejemplo, quién hizo modificaciones o tuvo acceso a un correo electrónico importante o a un documento. Las sofisticadas tecnologías de esta primera fase de descubrimiento han evolucionado para permitir varias opciones, de forma que los equipos puedan examinar estos detalles asociados.
Diferentes opciones de deduplicación
Existen varias opciones de deduplicación que se deben tener en cuenta cuando se elige el método que vamos a seguir para llevar a cabo la deduplicación, y que dependen de cada caso concreto:
- No deduplicación. Todos los documentos afectados por la duplicidad se revisan y categorizan, por lo que tenemos un gran número de documentos por revisar. Se trata de un método bastante desalentador en aquellos casos en los que están involucradas grandes cantidades de datos procedentes de de cintas de backups o cuando se han recogido documentos varias veces sin revisarlos.
- Deduplicación horizontal o global. A medida que se carga cada documento, se compara con todo el conjunto de datos. Solo se utiliza la primera instancia de cada documento único para su revisión y categorización, por lo que resulta un menor número de documentos por revisar. Sin embargo, se debe tener cuidado al emplear este método de deduplicación, ya que solo tenemos un documento con el que comparar otros casos de duplicidad.
- Deduplicación vertical. Cada documento se carga y se compara con un conjunto limitado de documentos que integran un mismo conjunto acotado de documentos, por periodo de tiempo u otro segmento de documentos. Solo se proporciona para su revisión la primera instancia de cada documento único por porción de datos. Sin embargo, el mismo documento puede tener duplicidad en otros conjuntos de datos. En esos casos se proporciona para una revisión independiente. Este tipo de deduplicación es particularmente útil cuando se procesan múltiples cintas de backup para los mismos conjuntos de datos a lo largo del tiempo o cuando se discierne el contexto de un documento específico.