| Deduplikace: šetřete úložným prostorem |
|
|
|
|
Autorem odborného článku k hlavnímu tématu je Lukáš Kříž, externí redaktor. Datová deduplikace omezuje množství dat, která musí být fyzicky uložena. To je základní myšlenka této technologie. Eliminuje redundantní a zdvojené informace a nahrazuje, resp. zkracuje iterace, které lze dopočítat. Deduplikační produkty prozkoumávají data až na úroveň bloků a bitovou úroveň. Pouze změněné části, které objeví, uloží. Zbytek je vynechán Existuje rovněž deduplikace na úrovni souborů neboli jednoinstanční ukládání. Jsou-li dva soubory identické, jedna kopie je uložena, další odstraněny. Tato forma není tak účinná jako předešlé dvě. Dojde-li ke změně jediného bitu, musí být uložen celý soubor jako nový. Jaké praktické výhody datová deduplikace má? Začněme nevýhodou. Datová deduplikace vyžaduje velký výpočetní výkon. V podstatě ji nelze provádět na primárních úložištích aplikací. Zde by totiž ubírala na procesorovém čase potřebnějším procesům. Datová deduplikace omezuje objem dat, který musí být uložen. Znamená to, že organizace musí zakoupit méně úložného prostoru a trvá déle než Jakých úrovní deduplikace dosahuje? Míry deduplikace velmi variují v závislosti na typu zpracovávaných dat. Projevuje se zde i časový rozměr, resp. perioda, v níž zpracování probíhá. Data, která obsahují mnoho opakujících se informací, dosahují vysokých úrovní deduplikace, tj. úspory prostoru. Jde zejména o e-maily nebo databáze. Obvyklé míry deduplikace se zde za vhodných okolností pohybují od 30 do 50násobku. Naopak, data s velkým množství unikátních informací nebudou obsahovat mnoho redundancí, jež lze redukovat. Příkladem mohou být obrazové soubory nebo burzovní záznamy. Jaké jsou výhody hardwarové deduplikace v porovnání se softwarovou? Jednoúčelová deduplikační zařízení snižují zátěž běžných transakčních, resp. provozních systémů. Naopak, softwarové aplikace výkon serverů odčerpávají. Hardwarová deduplikační zařízení lze rovněž nastavit tak, aby spolupracovala s různým úložným hardwarem, a to i virtuálním. Ve hře Softwarová deduplikace obvykle eliminuje redundanci dat přímo u zdroje. Hardwarová ji naopak provádí na úložném subsystému. Z tohoto důvodu neposkytuje žádnou úsporu přenosového pásma, zato šetří výkon serverů a dosahuje vyšších úrovní. Softwarová deduplikace zase zátěž sítě Hardwarová deduplikace poskytuje vyšší výkon, škálovatelnost a relativně bezproblémovou implementaci. Typicky bývá doporučována pro nasazení Softwarová reduplikace je na pořízení i implementaci obecně levnější. Navíc nevyžaduje žádné závažnější zásahy do síťové infrastruktury. Na druhou stranu mívá softwarová verze problematičtější instalaci a je náročnější na údržbu. Typicky vyžaduje přítomnost odlehčených agentů na každém hostitelském systému, které komunikují s centrálním záložním serverem, na němž pracuje stejná aplikace. Alokované programy musí jednotně reagovat na změny provozního prostředí, což představuje velkou výzvu pro správce IT. Deduplikace na zdroji rovněž klade nemalé požadavky na výpočetní výkon. Hostitelské systému musí být pro tuto zátěž disponovány. Jak se liší okamžité a odložené zpracování? Datová reduplikace může být prováděna ve chvíli ukládání nebo později. První varianta, tj. in-line nebo in-band odstraňuje redundantní data ve chvíli zápisu na médium. Jde o časově efektivní postup. Data jsou přijata a simultánně zpracována pouze jednou a najednou. Nevýhodu představují Datová reduplikace v režimu ex-post neboli out-of-band probíhá až poté, co byla data zapsána na médium. Tato metoda nezatěžuje hostitelský systém a nezpomaluje zpracování nebo reakce. Nevzniká rovněž úzké hrdlo mezi zálohovacím serverem a úložným zařízením. Pouze datový provoz, resp. využití přenosového pásma, není deduplikací sníženo. Odložená reduplikace vyžaduje větší úložný prostor, neboť v první fázi jsou data ukládána v původní podobě. Problém s výkonem nastává v okamžiku, kdy uživatel chce přistoupit k datům, na nichž právě probíhá deduplikace. Příslušný disk bude jeho požadavkem přetížen. Výběr deduplikačního řešení není pouze o testu různých metod, které se osvědčí nebo neosvědčí v konkrétním prostředí. Vyzkoušet by se rovněž měly rozdílné velikosti bloků dat, jejich typy a počty přenosových kanálů nebo linek. Nedílnou součástí správy datových úložišť a deduplikace |

















