重復數據刪除技術
發布人:scutech 發布日期:2012-09-27 16:38:23 點擊數:3553
1.什么是重復數據刪除技術?
首先,重復數據刪除技術不同于普通的壓縮技術。壓縮是通過壓縮算法消除文件內的冗余數據來縮減文件大小,而重復數據刪除是通過算法消除分布在存儲系統中的相同文件或者數據塊。其次,重復數據刪除也不同于普通的增量備份。增量備份的要旨是只備份新產生的數據,而重復數據刪除技術的關鍵是只保留唯一的數據實例,所以重復數據刪除技術在減少數據存儲量方面更加有效。大部分廠商聲稱其重復數據刪除產品能將數據縮減到正常容量的1/20。重復數據刪除技術的基本原理是將數據分塊篩選,找出相同的數據塊并以指向唯一實例的指針取代。重復數據刪除技術是一種數據縮減技術,通常用于基于磁盤的備份系統,旨在減少存儲系統中使用的存儲容量。它的工作方式是在某個時間周期內查找不同文件中不同位置的重復可變大小數據塊。重復的數據塊用指示符取代。高度冗余的數據集(例如備份數據)從數據重復刪除技術的獲益極大;用戶可以實現10比1至50比1的縮減比。而且,重復數據刪除技術可以允許用戶的不同站點之間進行高效,經濟的備份數據復制。
2.基于軟件的重復數據刪除和基于硬件的重復數據刪除的優缺點
基于軟件的重復數據刪除旨在消除源的冗余,而基于硬件的重復數據刪除強調存儲系統本身的數據削減。雖然基于硬件的重復數據刪除無法提供帶寬補償,而在源中進行重復數據刪除中有可能獲得帶寬補償,但是基于硬件的重復數據刪除的壓縮級別通常會更高,并且基于硬件的重復數據刪除產品需要的維護更少。硬件重復數據刪除設備以它們的高性能、可擴展性以及相對不間斷的部署而備受關注。正常情況下,備份軟件會將專用設備看作是一種一般的“磁盤系統”,并且完全不會發覺其內部正在進行的重復數據刪除進程。小型企業或遠程辦公通常會避免使用設備,因為這些設備的費用要比用軟件來實現重復數據刪除的費用高,但是,它們確實是企業級部署的理想選擇。基于硬件的重復數據刪除也可能融合到其它存儲(目標)平臺上。例如,重復數據刪除經常是VTL系統的一項功能之一。VTL系統通過使用磁盤而不是磁帶進行存儲,從而提高備份任務的速度,而且,添加重復數據刪除使VTL磁盤使用率達到最大。在很多情況下,VTL重復數據刪除是作為一種out-of-band進程來執行的。這是其一項優勢,因為所有VTL的內容都可以通過重復數據刪除技術以達到很好的壓縮比率。不好之處在于重復數據刪除不是實時的。然而,一些VTL系統在接收到備份服務器的數據之后,引入了in-band重復備份數據刪除的處理能力。
3.硬件的重復數據刪除產品中In-band和Out-of-band比較
基于硬件的重復數據刪除產品的好處:基于硬件的重復數據刪除產品能減輕與基于軟件的重復數據刪除產品相關的處理負擔。重復數據刪除功能還被融合到其它數據保護硬件中,如備份平臺、虛擬磁帶庫(VTL)系統甚至通用存儲系統像網絡附加存儲(NAS)等。通常這種方法并不旨在縮小備份窗口或恢復目標,但是一般而言,用戶能借此達到最高的壓縮級別,從而創造最大的可用存儲空間。in-band重復數據刪除在數據寫入存儲器時削減數據。盡管進程處理需要額外的處理能力從而可能擴大備份窗口的大小,但是in-band重復刪除是有效率的,因為它只執行一次。out-of-band重復數據刪除是在數據存儲完之后執行。這種方法不會影響備份窗口的大小,并且能緩解對CPU進程處理的關注,從而避免在備份服務器和存儲器之間產生瓶頸。然而,out-of-band重復數據刪除在執行過程中使用稍微多一點的磁盤空間。還有,out-of-band重復數據刪除需要花費的時間可能要比實際的備份窗口長。磁盤競爭是另一個問題,因為用戶在重復數據刪除過程期間嘗試訪問存儲器,從而降低了磁盤性能。
4.兩種主要的重復數據刪除方法
目前有兩種主要的重復數據刪除方法:基于散列的方法和基于字節比較的方法。基于散列的方法利用一種算法對輸入數據進行處理來創建很小的表達式和數據唯一的標識符(即所謂的散列值)。然后,將其與保存在查尋表中的散列值進行比較。但是,利用查尋表來確定重復的散列串會造成巨大的性能壓力,并且可能需要幾周時間才能取得最優的重復刪除效率。效率更高的方法是在對象級上進行比較。例如,將Word文檔與另一個Word文檔進行比較,要么采用模式匹配算法;要么采用效率更高的智能分析技術。智能分析在更詳細地比較兩個文件之前會分析備份文件和參考數據集合來確定可能是冗余的文件。由于把處理重點放在可能的重復數據上,它可以更徹底地去除重復數據和避免不必要的處理新文件。一些技術在數據備份過程中進行重復數據刪除。這種在線的重復數據刪除會降低備份性能,增加備份的復雜性。另一些技術執行帶外的重復數據刪除,在執行時,它們首先備份數據,然后再執行重復數據刪除。字節級重復數據刪除可提供高達25:1數據壓縮率。當與典型的VTL特性,即壓縮技術配合使用時,企業無須增加存儲容量就可在同樣的空間中多保存50倍的數據。這種壓縮技術不僅使用戶可以在線保存更多的數據,并使數據保持更長的在線時間,還帶來了將數據保存在硬盤上的優勢。例如,把數據保存在硬盤上比保存在磁帶上占用更少的物理空間,并大大減少電源、冷卻、安全和其他運營與基礎設施費用。重復數據刪除技術通過使備份到VTL的費用大大低于純基于硬盤的數據保護解決方案,改進了數據保護的經濟性。同時,它也是數據中心應對急劇增加的能源、勞動力和空間費用,以及管理即將出現的電源和冷卻容量短缺的重要的途徑。