Qu'est-ce que la déduplication ?
La déduplication est une technologie de compression des données qui réduit le volume des données en identifiant et en éliminant les informations redondantes. Les premières technologies dédiées au stockage des données d'une seule machine et basée sur la déduplication au niveau du fichier ont largement disparu du marché et ont été remplacées par des technologies basées sur la déduplication au niveau bloc qui segmente les fichiers en plusieurs blocs. Chaque bloc d'un fichier est comparé à des blocs déjà connus. Si un bloc a déjà été stocké auparavant, il sera simplement référencé plutôt que d'être stocké à nouveau. Chaque bloc est non seulement stocké qu’une seule fois, mais aussi compressé.
Qu'est-ce que le "single instance storage" (SIS) et en quoi est-ce différent de la déduplication ?
La technologie SIS n'est rien d'autre que la déduplication au niveau du fichier. Il s'agit de détecter des copies dupliqués d'un même fichier, au même nom ou avec des noms différents, et d'en stocker qu'une copie sur le disque. En comparaison, la déduplication basée sur des blocs intevient à l'intérieur du fichier et assure que seulement les blocs uniques sont stockés. De plus, la déduplication basée sur des blocs permet de meilleurs taux de compression que la technologie SIS. Par exemple, si ne serait-ce qu'un mot est ajouté à un document, SIS ne reconnaitra pas les redondances et stockera le fichier entier comme un nouveau fichier. Dans le cas de la déduplication basée sur des blocs, seul les blocs nouvellement crées seront stockés.
Pourquoi la déduplication est-elle importante pour les sauvegardes ?
La déduplication est importante pour les sauvegardes parce qu'une grande partie des données dans un jeu de sauvegardes est constituée de données redondantes. De nombreux fichiers (tels que les fichiers système ou les pièces jointes d'emails) sont utilisés par plusieurs ordinateurs. La déduplication permet de sauvegarder chaque fichier qu'une seule fois. Quand il existe plusieurs versions d'un même fichier qui ne comportent que des différences minimes, la déduplication au niveau bloc permet de ne stocker que des blocs uniques.
Pourquoi la déduplication à la source est-elle importante pour les solutions de sauvegardes ?
La déduplication à la source est importante pour les solutions de sauvegarde parce qu'elle accélère le processus de sauvegarde. Des sauvegardes plus rapides permettent des fenêtres de sauvegarde plus courtes et une meilleure intégration du processus de sauvegarde dans les opérations courantes d'une entreprise. La déduplication à la source rend les sauvegardes plus rapides car elle réduit le trafic réseau en ne transférant que des blocs uniques sur le réseau. Ces avantages s'appliquent également à la restauration de fichiers. Un autre avantage de la déduplication à la source est la réduction de l'espace de stockage requis pour les sauvegardes.
Quel est le lien entre la "réplication" et la "déduplication" ?
La réplication de jeux de sauvegardes via un WAN est une alternative intéressante par rapport au transport physique des données. La déduplication des données sauvegardées avant leur réplication permet une réduction importante du temps nécessaire pour le transfert des données via une bande passante faible. Pour la sauvegarde des "clouds", la déduplication permet également une réduction non négligeable de la fenêtre de sauvegarde.
Comment la déduplication fonctionne t'elle dans les environnements virtualisés ?
La déduplication est particulièrement intéressante pour les environnements virtualisés car ils comportent un volume important de données redondantes de systèmes d'exploitation. Cette redondance existe tant au niveau d'une seule image d'une machine virtuelle qu'à travers plusieurs images. La déduplication est également indiquée dans les cas ou des technologies comme le "changed block tracking" (CBT) de VMware sont employées.
Comment la déduplication fonctionne-t-elle avec des données chiffrées ?
Avec la déduplication à la source, les données sont d'abord dédupliquées au niveau de la machine cliente. Ensuite, les blocs uniques ainsi que les blocs référencés sont chiffrés avant d'être transférés sur le réseau.
Quel sera l'impact de la déduplication sur la performance des sauvegardes ?
Arkeia a fait l'acquisition de Kadena dans le but d'accélérer les sauvegardes et restaurations. La déduplication à la source améliore la performance de plusieurs manières :
- La déduplication accélère les sauvegardes et restaurations en réduisant le trafic réseau. Si un bloc à sauvegarder se trouve déjà sur le serveur de sauvegarde, le bloc n'a plus besoin d'être transféré sur le réseau.
- La déduplication accélère les restaurations en permettant le stockage de davantage de jeux de sauvegarde sur un disque, dans la limite du volume destockage alloué au disque.
Alors qu’en pratique la quasi-totalité des jobs de sauvegarde bénéficient de la déduplication à la source, un administrateur peut spécifier les clients pour lesquels les données ne devront pas être dédupliquées à la source. Dans ce cas, les données peuvent être soit dédupliquées sur le serveur de media (i.e à la destination) soit être simplement sauvegardées sans déduplication. Un seul job de sauvegarde Arkeia peut associer ces trois types de sauvegardes.
Est-ce que la déduplication sera disponible avec des versions antérieures d'Arkeia Network Backup? Est-il nécessaire d'installer de nouveaux agents ?
La déduplication à la destination sera disponible avec toutes les versions existantes d'Arkeia Network Backup. L'utilisation de la déduplication à la source nécessitera la mise à jour des agents avec la version 9 d'Arkeia Network Backup.
Est-ce que la déduplication sera disponible en tant qu'appliance ou en tant que logiciel ?
La déduplication sera disponible avec notre appliance physique, notre appliance virtuelle et sous forme de solution logicielle traditionnelle. Toutes les appliances Arkeia peuvent être mises à jour avec la version 9.0 si bien que les utilisateurs actuels d’appliances peuvent bénéficier de la déduplication à la source. Aucune mise à jour matérielle n’est nécessaire, la déduplication à la source tirant pleinement parti des processeurs du matériel de la machine cliente, pour compresser les données avant qu’elles ne circulent sur le réseau.