Change language
Change country

Algunas opciones de deduplicación de documentos para evitar duplicidad

La deduplicación de documentos es un proceso que elimina la duplicidad y reduce el almacenamiento.
deduplicación de documentos

La deduplicación de documentos es un proceso que elimina la duplicidad y reduce el exceso de almacenamiento. Las técnicas de deduplicación te aseguran que va a existir una única instancia del documento guardada en los medios de almacenamiento. Los documentos redundantes en el sistema de gestión documental son reemplazados con un puntero a esa única copia del documento.  

Cloud computing y movilidad en la empresa

También te puede interesar

Cloud computing y movilidad en la empresa.

El problema de la duplicidad de documentos y archivos

Cuando se recopila mucha documentación en bruto de múltiples usuarios, nos vamos a encontrar con mucha duplicidad. En las cadenas de correo electrónico de toda la empresa, por ejemplo, se envía un mensaje a varios destinatarios y se almacena en el buzón de cada persona. Dependiendo de las políticas de retención de la organización, se pueden encontrar copias del mismo archivo en la unidad de disco duro del empleado, en el servidor de archivos y en una cinta de backup de la empresa.

Una persona encargada de identificar, recopilar y revisar toda esa cantidad de documentos recopilados en bruto, debería realizar una revisión exhaustiva de un conjunto de documentos lleno de duplicidad y eso afecta a su rentabilidad y eficiencia, además de aumentar ciertos riesgos, ya que la duplicidad de documentos incrementa la posibilidad de inconsistencia e incluso su revisión puede acarrear problemas de confidencialidad. 

 

La deduplicación puede mitigar estos problemas

Para mitigar estas preocupaciones, muchos profesionales recurren a tecnologías de deduplicación dónde la duplicidad de documentos es identificada y gestionada durante el proceso inicial de descubrimiento, minimizando de esta forma la revisión redundante.

La deduplicación puede reducir el número de documentos a ser revisados hasta en un 90% y en promedio entre un 30 % y un 40 %.

Con la deduplicación se crea una huella digital electrónica para cada documento a nivel de bit aprovechando un algoritmo de hashing. Las huellas digitales resultantes se comparan entre sí para determinar qué documentos son duplicados exactos. Esas huellas digitales cambian con casi cualquier tipo de modificación en el archivo, como un espacio extra o cambios de formato.

Sin embargo, la identificación de duplicidad es solo el primer paso. Eliminar todos los duplicados eliminaría también información contextual potencialmente importante, como, por ejemplo, quién hizo modificaciones o tuvo acceso a un correo electrónico importante o a un documento. Las sofisticadas tecnologías de esta primera fase de descubrimiento han evolucionado para permitir varias opciones, de forma que los equipos puedan examinar estos detalles asociados. 

 

Diferentes opciones de deduplicación

Existen varias opciones de deduplicación que se deben tener en cuenta cuando se elige el método que vamos a seguir para llevar a cabo la deduplicación, y que dependen de cada caso concreto:

  • No deduplicación. Todos los documentos afectados por la duplicidad se revisan y categorizan, por lo que tenemos un gran número de documentos por revisar. Se trata de un método bastante desalentador en aquellos casos en los que están involucradas grandes cantidades de datos procedentes de de cintas de backups o cuando se han recogido documentos varias veces sin revisarlos.
  • Deduplicación horizontal o global. A medida que se carga cada documento, se compara con todo el conjunto de datos. Solo se utiliza la primera instancia de cada documento único para su revisión y categorización, por lo que resulta un menor número de documentos por revisar. Sin embargo, se debe tener cuidado al emplear este método de deduplicación, ya que solo tenemos un documento con el que comparar otros casos de duplicidad.
  • Deduplicación vertical. Cada documento se carga y se compara con un conjunto limitado de documentos que integran un mismo conjunto acotado de documentos, por periodo de tiempo u otro segmento de documentos. Solo se proporciona para su revisión la primera instancia de cada documento único por porción de datos. Sin embargo, el mismo documento puede tener duplicidad en otros conjuntos de datos. En esos casos se proporciona para una revisión independiente. Este tipo de deduplicación es particularmente útil cuando se procesan múltiples cintas de backup para los mismos conjuntos de datos a lo largo del tiempo o cuando se discierne el contexto de un documento específico. 
Digitalización empresarial desde cero

También te puede interesar

Digitalización empresarial desde cero

Artículos relacionados:

  • Procesos de gestión documental

    El archivo de documentos se ha convertido hoy en día en un gran reto para las empresas.

  • Firma electrónica cualificada ¿Cúando utilizarla?

    La firma electrónica aumenta la seguridad, haciendo que el traspaso de información sea más seguro.

  • Archivo de documentos: todo lo que debes saber

    El archivo de documentos sirve para gestionar, clasificar, ordenar y conservar documentos.

Las cookies y su privacidad.

Utilizamos cookies esenciales para hacer que las interacciones con nuestro sitio web sean fáciles y efectivas, cookies estadísticas para comprender mejor cómo se utiliza nuestro sitio web y las cookies de marketing para adaptar la publicidad para usted. Puede seleccionar sus preferencias de cookies usando el botón 'Preferencias' a continuación, o seleccionar 'Acepto' para continuar con todas las cookies.

Preferencias de cookies

Utilizamos cookies para asegurarnos de que nuestro sitio web funciona correctamente o, ocasionalmente, para proporcionar un servicio a su solicitud (como la gestión de sus preferencias de cookies). Estas cookies están siempre activas a menos que configure su navegador para bloquearlas, lo que puede provocar que algunas partes del sitio web no funcionen correctamente.

Estas cookies nos permiten medir y mejorar el rendimiento de nuestra web.

Estas cookies solo se colocan en caso de que usted dé su consentimiento. Utilizamos cookies de marketing para hacer un seguimiento de las páginas que visita de nuestra web para mostrarle contenido según sus intereses y para mostrarle anuncios personalizados. Si no desea aceptar estas cookies por favor marque esta casilla.