KYOCERA Document Solutions

Mi Kyocera

Change language

Change country

Kyocera en el Mundo

Algunas opciones de deduplicación de documentos para evitar duplicidad

La deduplicación de documentos es un proceso que elimina la duplicidad y reduce el almacenamiento.

La deduplicación de documentos es un proceso que elimina la duplicidad y reduce el exceso de almacenamiento. Las técnicas de deduplicación te aseguran que va a existir una única instancia del documento guardada en los medios de almacenamiento. Los documentos redundantes en el sistema de gestión documental son reemplazados con un puntero a esa única copia del documento.

También te puede interesar

Los procesos de negocio como habilitadores del éxito en las organizaciones

Descarga el ebook

El problema de la duplicidad de documentos y archivos

Cuando se recopila mucha documentación en bruto de múltiples usuarios, nos vamos a encontrar con mucha duplicidad. En las cadenas de correo electrónico de toda la empresa, por ejemplo, se envía un mensaje a varios destinatarios y se almacena en el buzón de cada persona. Dependiendo de las políticas de retención de la organización, se pueden encontrar copias del mismo archivo en la unidad de disco duro del empleado, en el servidor de archivos y en una cinta de backup de la empresa.

Una persona encargada de identificar, recopilar y revisar toda esa cantidad de documentos recopilados en bruto, debería realizar una revisión exhaustiva de un conjunto de documentos lleno de duplicidad y eso afecta a su rentabilidad y eficiencia, además de aumentar ciertos riesgos, ya que la duplicidad de documentos incrementa la posibilidad de inconsistencia e incluso su revisión puede acarrear problemas de confidencialidad.

La deduplicación puede mitigar estos problemas

Para mitigar estas preocupaciones, muchos profesionales recurren a tecnologías de deduplicación dónde la duplicidad de documentos es identificada y gestionada durante el proceso inicial de descubrimiento, minimizando de esta forma la revisión redundante.

La deduplicación puede reducir el número de documentos a ser revisados hasta en un 90% y en promedio entre un 30 % y un 40 %.

Con la deduplicación se crea una huella digital electrónica para cada documento a nivel de bit aprovechando un algoritmo de hashing. Las huellas digitales resultantes se comparan entre sí para determinar qué documentos son duplicados exactos. Esas huellas digitales cambian con casi cualquier tipo de modificación en el archivo, como un espacio extra o cambios de formato.

Sin embargo, la identificación de duplicidad es solo el primer paso. Eliminar todos los duplicados eliminaría también información contextual potencialmente importante, como, por ejemplo, quién hizo modificaciones o tuvo acceso a un correo electrónico importante o a un documento. Las sofisticadas tecnologías de esta primera fase de descubrimiento han evolucionado para permitir varias opciones, de forma que los equipos puedan examinar estos detalles asociados.

Diferentes opciones de deduplicación

Existen varias opciones de deduplicación que se deben tener en cuenta cuando se elige el método que vamos a seguir para llevar a cabo la deduplicación, y que dependen de cada caso concreto:

No deduplicación. Todos los documentos afectados por la duplicidad se revisan y categorizan, por lo que tenemos un gran número de documentos por revisar. Se trata de un método bastante desalentador en aquellos casos en los que están involucradas grandes cantidades de datos procedentes de de cintas de backups o cuando se han recogido documentos varias veces sin revisarlos.
Deduplicación horizontal o global. A medida que se carga cada documento, se compara con todo el conjunto de datos. Solo se utiliza la primera instancia de cada documento único para su revisión y categorización, por lo que resulta un menor número de documentos por revisar. Sin embargo, se debe tener cuidado al emplear este método de deduplicación, ya que solo tenemos un documento con el que comparar otros casos de duplicidad.
Deduplicación vertical. Cada documento se carga y se compara con un conjunto limitado de documentos que integran un mismo conjunto acotado de documentos, por periodo de tiempo u otro segmento de documentos. Solo se proporciona para su revisión la primera instancia de cada documento único por porción de datos. Sin embargo, el mismo documento puede tener duplicidad en otros conjuntos de datos. En esos casos se proporciona para una revisión independiente. Este tipo de deduplicación es particularmente útil cuando se procesan múltiples cintas de backup para los mismos conjuntos de datos a lo largo del tiempo o cuando se discierne el contexto de un documento específico.

Artículos relacionados:

Procesos de gestión documental

El archivo de documentos se ha convertido hoy en día en un gran reto para las empresas.

Firma electrónica cualificada ¿Cúando utilizarla?

La firma electrónica aumenta la seguridad, haciendo que el traspaso de información sea más seguro.

Archivo de documentos: ¿por qué, para qué, dónde y cómo?

Archivo de documentos: todo lo que debes saber

El archivo de documentos sirve para gestionar, clasificar, ordenar y conservar documentos.

Procesos de gestión documental
Firma electrónica cualificada ¿Cúando utilizarla?
Archivo de documentos: todo lo que debes saber

Las cookies y su privacidad.

Usamos cookies esenciales para asegurar el correcto funcionamiento de nuestro sitio web. Las cookies estadísticas nos ayudan a entender mejor cómo se utiliza nuestra página, mientras que las cookies de marketing nos permiten personalizar el contenido para nuestros visitantes. Puedes elegir tus preferencias de cookies usando el botón de "Preferencias" a continuación, o seleccionar "Aceptar todas las cookies" para continuar con todas ellas. Al hacer clic en "Aceptar todas las cookies", aceptas el almacenamiento de estas cookies en tu dispositivo. Si prefieres rechazar las cookies no esenciales, selecciona "Aceptar solo las cookies esenciales", lo que permitirá únicamente las necesarias para el correcto funcionamiento de nuestro sitio web.

Declaración de Cookies

Preferencias de cookies

Cookies Esenciales campo obligatorio

Utilizamos cookies para asegurarnos de que nuestro sitio web funciona correctamente o, ocasionalmente, para proporcionar un servicio a su solicitud (como la gestión de sus preferencias de cookies). Estas cookies están siempre activas a menos que configure su navegador para bloquearlas, lo que puede provocar que algunas partes del sitio web no funcionen correctamente.

Cookies de estadísticas campo obligatorio

Las cookies estadísticas nos ayudan a entender mejor cómo se utiliza nuestra página.

Cookies de marketing campo obligatorio

Las cookies de marketing nos permiten personalizar el contenido para nuestros visitantes.

Puede encontrar una lista completa de las cookies disponibles en nuestra Declaración de cookies.