解析分级存储管理(HSM)

  众所周知,企业的应用系统在线处理大量的数据,随着数据量的不断加大,如果都采用传统的在线存储方式,就需要大容量本地一级硬盘。这样一来一方面投资会相当较大,而且管理起 来…

  众所周知,企业的应用系统在线处理大量的数据,随着数据量的不断加大,如果都采用传统的在线存储方式,就需要大容量本地一级硬盘。这样一来一方面投资会相当较大,而且管理起 来也相对较复杂;另一方面由于磁盘中存储的大部分数据访问率并不高,但仍然占据硬盘空间,会导致存取速度下降。在这种情况下,层次化存储管理软件,或称为数据迁移软件,可以在性能和价格间作出最好的平衡。这就是本文要与大家讨论的分级存储管理(HSM)。首先来了解一下分级存储中所涉及的三种存储方式。
    
一、  三种存储方式

    所谓分级存储,就是根据数据不同的重要性、访问频次等指标分别存储在不同性能的存储设备上,采取不同的存储方式。这样一方面可大大减少非重要性数据在一级本地磁盘所占用的空间,还可加快整个系统的存储性能。在这里就涉及到几种不同性能的存储设备和不同的存储形式了。
    目前常用于数据存储的存储设备主要有磁盘(包括磁盘阵列)、磁带(包括磁带机和磁带库)和光盘(包括一切CD-R、CD-RW、DVD-R、DVD-RW等光盘塔和光盘库设备)。从性能上来说,磁盘当然是最好的,光盘次之,最差的是磁带。而从价格上来说,单位容量成本上升磁盘最贵、光盘次之,磁带最低。这就为我们不同的应用追求最佳性价比提供了条件,因为这些不同的存储媒介可应用于不同的存储方式中。这不同的存储形式包括在线存储(OnStore)、近线存储(NearStore)和离线存储(OffStore)。
    在线存储
    在线存储又称工作级的存储,存储设备和所存储的数据时刻保持“在线”状态,是可随意读取的,可满足计算平台对数据访问的速度要求。如我们PC机中常用的磁盘基本上都是采用这种存储形式的。一般在线存储设备为磁盘和磁盘阵列等磁盘设备,价格相对昂贵,但性能最好。
    离线存储
    离线存储主要是用于对在线存储的数据进行备份,以防范可能发生的数据灾难,因此又称备份级的存储。离线海量存储的典型产品就是磁带或磁带库,价格相对低廉。离线存储介质上的数据在读写时是顺序进行的。当需要读取数据时,需要把带子卷到头,再进行定位。当需要对已写入的数据进行修改时,所有的数据都需要全部进行改写。因此,离线海量存储的访问是慢速度、低效率的。
    近线存储
    所谓近线存储,就是指将那些并不是经常用到,或者说数据的访问量并不大的数据存放在性能较低的存储设备上。对这些的设备要求是寻址迅速、传输率高。因此,近线存储对性能要求相对来说并不高,但由于不常用的数据要占总数据量的大多数,这也就意味着近线存储设备首先要保证的是容量。
    在分级数据存储结构中,磁带库等成本较低的存储资源用来存放访问频率较低的信息,而磁盘或磁盘阵列等成本高、速度快的设备,用来存储经常访问的重要信息。数据分级存储的工作原理是基于数据访问的局部性。通过将不经常访问的数据自动移到存储层次中较低的层次,释放出较高成本的存储空间给更频繁访问的数据,可以获得更好的总体性价比。

二、  分级存储的必要性和主要优点

    今天企业的数据中心非常复杂,数据保护是其关键。但是,并非所有的数据都具有同样的价值,也并非所有的企业都具有同样的需求。的确如此,通常认为企业中的关键和非关键数据量也符合“二八原则”,就是只有20%的关键数据,而80%都是非关键的。系统中60%至80%的数据经常在一个月,甚至一年中都不会被访问。而在经常访问的数据中,重要性差别也十分突出,有的数据与用户的业务联系紧密,可靠性、可用性及性能要求都很高,有的尽管经常使用但是与业务联系不是特别紧密。一般来说,重用数据的概率自数据创建3天之后就会下降50%,当数据创建30天后,重用的概率通常会降至很低,而高达90%的数据超过90天后就不会或很少被读取。为了提供良好的数据保护,IT部门通常都保留巨大的空余空间,用以防止出现容量不足的现象。
    IT企业总是要面对增长起来无休无止的数据量。各种应用都在创建越来越大的文件,用户也很少删除数据和存档,这就导致要访问旧一些的文件已经变得非常困难。之所以要采取分组存储,是因为它既能最大限度地满足用户随时访问所有需要经常使用的数据,又可使存储成本最小化。综合起来,可以得出分级存储的优点主要体现在以下两个方面:
    1、  减少总体存储成本
    在传统的在线存储中,所有数据都存储在一线磁盘存储设备上,而由于绝大多数数据的访问率并不高,占住了大量宝贵的磁盘空间,在一定程度上是一种浪费。如果把这些数据转移到存储性能稍低的磁盘(如IDE或SATA接口磁盘)或光盘存储设备上,存储成本可得以大幅降低。
    2、  提高整体系统性能
    由于绝大部分数据转移到下级存储设备上,那需要时刻保持在线的数据就少了,系统资源的占用也就少了许多,整体系统性能自然也就提高了。如果采用了离线存储方式对很少使用的数据保存在像磁带这样的离线存储媒体上时,则不仅可提高系统性能,还可确保数据的安全性。
   
三、  分级存储的管理
    分级存储管理(Hierarchical Storage Management,HSM)就是要将用户拥有的所有存储资源统一管理,提高每种存储设备的利用率,节约了成本。在分级存储中,存储的分级是十分明显的,仅从设备上说,就有磁带机、磁带库、NAS、中低端盘阵、高端存储系统等等。而且在线、近线与离线存储存放的数据价值不同,如何根据用户数据的不同价值合理利用好每种存储资源是一个不小的挑战。
    分级存储管理起源于1978年,首先使用于IBM的大型机系统。近10年来,HSM被广泛应用于开放系统的Unix和Windows平台。其中最关键的技术就是近线存储和数据迁移技术。
    分级存储管理是一种将离线存储与在线存储融合的技术。它将高速、高容量的非在线存储设备作为磁盘设备的下一级设备,然后将磁盘中常用的数据按指定的策略自动迁移到磁带库等二级大容量存储设备上。当需要使用这些数据时,分级存储系统会自动将这些数据从下一级存储设备调回到上一级磁盘上。对于用户来说,上述数据迁移操作完全是透明的,只是在访问磁盘的速度上略有怠慢,而在逻辑磁盘的容量上明显感觉大大提高了。通俗地讲,数据迁移是一种可以把大量不经常访问的数据存放在磁带库、光盘库等离线介质上,只在磁盘阵列上保存少量访问频率高的数据的技术。当那些磁带等介质上数据被访问时,系统自动地把这些数据回迁到磁盘阵列中;同样,磁盘阵列中很久未访问的数据被自动迁移到磁带介质上,从而大大降低投入和管理成本。
    HSM应用也具备监测磁盘容量并在关键容量情况下做出反应的能力。这种软件经过配置后可以为某个卷设定一个最小的剩余空间,当达到这个极限后自动向用户发出警告,提示用户或自动进行数据迁移。这样便可以立即释放空间,管理员也可以在今后有空闲时再来解决空间的问题。
    由此可见,分级存储管理更多从降低成本、不影响数据应用效果的角度解决数据的存储问题。事实上,降低成本、提高效率已成为IT厂商追逐技术进步的一个目标。近线存储就是这种进步的产物。伴随单盘成本的下降,近线存储市场渐热,有业内专家预测,不久的将来,近线存储技术将取代数据迁移技术,用户将以模拟海量空间的、更为安全可靠的磁盘介质保存历史数据。而成熟完善的数据迁移软件技术将更为恰到好处的融入到近线存储设备中,为近线存储技术的发展起到推波助澜的作用。

转自:https://blog.51cto.com/fangtsm/127346

作者: admin

为您推荐

发表评论

返回顶部