3 veci, ktoré musíte zvážiť pred deduplikáciou dát

Jozef Brngál

Product manager - NetApp

jozef.brngal@alef.com

Kedy dáva deduplikácia zmysel a ako vybrať riešenie, ktoré najlepšie vyhovie vašim požiadavkám?

Málokto si dnes ešte spomenie, že prvé pevné disky z 50-tych rokov minulého storočia mali kapacitu len niekoľko megabajtov, ale pritom boli väčšie ako dnešné chladničky. Na evolúcii diskov vidno, ako kapacita úložných zariadení rastie a ceny klesajú. Mimoriadne rýchlo sa však zväčšuje aj objem dát, ktoré vytvárame a zdieľame.

Navyše, v IT systémoch sa z rôznych dôvodov hromadia duplicitné dáta (napríklad objemné prílohy emailov rozposlané na všetkých kolegov), ktoré na diskoch zbytočne zaberajú miesto. Keď firmy úložné zariadenia nevyužívajú efektívne, musia do nich neraz investovať viac, ako je nevyhnutné.

Pomocnú ruku môže dať v takýchto prípadoch takzvaná deduplikácia, známa tiež ako inteligentná kompresia. Zjednodušene – ide o odstraňovanie kópií identických blokov dát a ich nahradzovanie jednoduchými odkazmi na jediný blok.

Cieľom a prínosom deduplikácie je:

  • ušetrenie diskového priestoru,
  • zníženie zaťaženia siete pri prenose dát
  • skrátenie doby zálohovania a obnovy.

Deduplikácia dát nie je novinka, v ostatných rokoch však prešla zmenami a dozrela. Dnes poskytuje deduplikáciu prakticky každý výrobca diskových polí a zálohovacích riešení. Jednotlivé algoritmy sú však odlišné a nie je jedno, ktorý z nich si vyberiete. Treba starostlivo zvážiť, kde vo vašej IT infraštruktúre majú prínosy deduplikácie zmysel a vybrať riešenie, ktoré najlepšie vyhovie vašim požiadavkám.

Detailov, na ktoré sa dá pri výbere vhodného riešenia prihliadať je veľa, ale bez zváženia nasledovných troch kritérií optimálnu voľbu určite neurobíte.

  1. Zvážte či máte vhodný typ dát

    Deduplikácia je náročná na množstvo pamäte a výpočtový výkon, keďže spočíva v porovnávaní veľkého množstva dátových blokov. Niektoré dáta, napríklad videostreamy, ani akékoľvek komprimované dáta, nie sú pre deduplikáciu vhodné, lebo systému sa nepodarí nájsť dostatok rovnakých blokov.

    Deduplikácia má vo všeobecnosti zmysel, ak sa pri hľadaní rovnakých blokov dát podarí dosiahnuť aspoň 50 až 60 % úspešnosť. Vhodnými typmi dát pre deduplikáciu sú napríklad databázy, textové dokumenty či emaily.

  2. Vyberte vhodný spôsob deduplikácie

    K porovnávaniu dát môže dochádzať vo chvíli, keď sa zapisujú na storage (takzvané inline porovnávanie blokov dát), alebo až následne po tom, ako sa všetky zálohujú na záložný disk (takzvaná post-process metóda). Prvý spôsob je náročnejší na pamäť a výpočtový výkon. Druhý síce spotrebuje menej systémových zdrojov, ale vyžaduje viac miesta na disku, keďže k eliminácii duplicít dôjde až po zápise všetkých dát.

    Ak chcete minimalizovať doby zálohovania dát, potom bude pre vás zrejme lepšou voľbou zariadenie s post-processovým spôsobom deduplikácie. Ak potrebujete rýchlo replikovať deduplikované dáta na vzdialený storage mimo firmy, môže byť lepšou voľbou inline zariadenie. Výsledná voľba technológie závisí vždy od viacerých vecí – napríklad od požiadaviek na dobu zálohovania, od objemu redundantných dát či od lokality a typu cieľového zariadenia (napr. vzdialená lokalita, alebo páskové zálohovacie zariadenie).

  3. Zdrojová alebo cieľová

    Deduplikácia môže prebiehať v cieli, čiže priamo v storage, kam zálohované dáta cez sieť putujú, alebo v zdroji, čiže tam kde vznikajú (na serveri či na klientskom zariadení). Niektorí dodávatelia majú aj hybridný model.

    Výhodou zdrojového spôsobu deduplikácie je kratšia doba zálohovania a menší objem premávky v LAN či WAN sieti počas zálohovania. Vo všeobecnosti je tento prístup vhodný vtedy, keď nedochádza denne k veľkým zmenám v zálohovaných dátach. Častejšie sa však podniky rozhodujú pre deduplikáciu na cieľovom zariadení, aby neznižovali odozvu serverov.