前言

什么是存储,存储存的是什么?数据的载体是谁?什么是信息,什么是数据?人类做出哪些努力?未来存储的发展趋势是什么?

什么是数据

定义

SNIA对于数据的定义是:数据是对所有事务(文字、视频、音频等)的数字表现,在计算机当中通常用“0”或“1”来表示。

类型

为了便于管理数据,主要分为三种类型:结构化、半结构化、非结构化数据。结构化数据可以使用关系型数据库表示和存储,通常以二维表的形式,例如:图书馆系统存储和管理图书信息,学生等级系统存储和管理学生信息;半结构化数据不符合关系型数据库或其他数据表的形式,但使用相关标记分隔语义元素、或对记录和字段分层,例如:路由器的配置文件,游戏应用配置文件,视频播放信息文件等;非结构化数据是数据结构不规则或不完整,没有预定义的数据模型,例如:图片、电影、音乐等。

数据处理周期

数据处理是人或机器对数据进行的重组或重新排序,以增加其特定的价值。数据处理包括以下基本步骤:输入、处理和输出。这三个步骤构成了数据处理周期

什么是信息

  • 信息是已经被处理、具有逻辑关系的数据,是对数据的解释。
  • 信息是经过处理的数据,其中包括具有上下文,相关性和目的的数据。

数据与信息的关系

数据经过加工处理之后,能够成为信息;而信息需要经过数字化转变成数据才能存储和传输。

对比项数据信息
特征没有特定目的有价值的、有逻辑的
本质原始素材加工后的数据
依赖关系不依赖于信息取决于数据
举例各区域演唱会的门票销售量 气象数据和卫星影像资料销售报告 天气预报

数据存储

  • 狭义的存储指的是根据不同的业务,将信息数据存放在具有冗余、保护、迁移等功能的物理媒介。比如软盘、CD、以及DVD和硬盘,甚至磁带。
  • 广义存储是一组为企业提供信息存取、保护、优化和利用的整体解决方案,是数据为中心信息架构的支柱。

数据存储系统

  • 存储技术不是一个单独而孤立的技术,实际上,完整的存储系统应该是由一系列组件构成。
  • 存储系统分为存储硬件、存储软件以及存储解决方案。硬件部分又分为存储设备和连接设备,主要是指存储设备和存储网络连接设备,比如磁盘阵列、磁带库和FC交换机等。存储软件使存储设备的可用性得到了大大的提高,数据的镜像、复制、自动的数据备份等数据操作都可以通过对存储软件的控制来完成。

存储的物理结构

  • 一个单一的存储设备包括硬盘子系统、控制子系统、连接子系统和存储管理软件子系统四大部分。
  • 存储从物理结构上来看,底层主要是磁盘,其通过相关的连接件如光纤线、串口线等,与存储的内部后端卡和控制器相连。
  • 存储通过前端板卡与存储网络交换设备连接为主机提供数据访问服务。
  • 存储管理的软件是用于配置、监控和优化存储内部的众多子系统和连接件。

存储的分类

  • 存储系统可以根据存储器和主机的位置关系,大致分为内置存储和外置存储。
  • 内置存储系统直接与主机总线相连,主要包括CPU运算所需要的高速缓存、内存,与计算机主板直接相连的硬盘、光驱等。容量往往不大,不方便扩展。
  • 外置存储根据连接的方式分为:直连式存储(Direct-Attached Storage,简称DAS)和网络化存储(Fabric-Attached Storage,简称FAS)。
  • 网络化存储根据传输协议又分为:网络接入存储(Network-Attached Storage,简称NAS)和存储区域网络(Storage Area Network,简称SAN)。

数据管理技术的演变

  • 数据管理是利用计算机硬件和软件技术对数据进行有效的收集、存储、处理和应用的过程。其目的在于充分有效地发挥数据的作用。实现数据有效管理的关键是数据组织。
  • 数据管理技术是对数据进行分类、组织、编码、输入、存储、检索、维护和输出的技术。计算机数据存储设备及计算机应用系统的发展,推动了数据库和数据管理技术的发展。按照时间顺序计算机系统中的数据管理经历了人工管理、文件系统管理、传统数据库系统管理、大数据管理4个阶段。

数据存储的应用

  • 由个人和组织产生的数据,通过计算系统的处理保存在数据存储中。
  • ICT背景下,存储的主要作用:
    • 数据的存取
    • 数据的保护-安全性
    • 数据的管理

存储技术的发展

存储架构的发展

存储架构历程

1950s 传统存储

传统存储是由单硬盘组成,1956年IBM发明了世界上第一块机械硬盘,这个硬盘有50个24英寸盘片,容量只有5MB。体积与两台冰箱差不多大,重量超过一吨。被用于当时的工业领域,且独立于主机
以外。

1980s 外挂存储

外挂存储即直连存储,最早的形态是JBOD,仅仅是将一些磁盘串联在一起,被称为JBOD(Just a Bunch Of Disks,磁盘簇),主机看到的就是一堆独立的硬盘,只增加了容量,无法提供安全保障。

1990s 存储网络

SAN是典型的存储网络,主要使用FC网络传输数据,随后出现了IP存储区域网络。

本世纪 分布式存储

分布式存储采用通用服务器硬件构建存储资源池,更适合云计算的场景。

从硬盘到磁盘阵列

硬盘在服务器内部

硬盘被直接安装在服务器内部,这种安装方式的缺点很明显,无论是扩展性还是可靠性都非常差,容易造成存储空间使用率低下。

早期外挂存储

JBOB的出现在一定程度上解决了槽位有限的问题,后续RAID技术的出现则帮助解决了可靠性和性能的问题。虽然解决了容量的问题,但是还是存在资源利用的问题。

存储阵列

存储阵列是目前广泛使用的一项技术,特别是在大型数据中心当中。存储阵列可以提升传输性能、提高数据冗余与可靠性,同时兼顾拓展性和灵活性,显著提高了资源的利用效率。

从分离到融合

  • DAS(Direct-Attached Storage,直连式存储)的特点:
    • 数据分散
    • 存储空间利用率低
  • 存储发展需求:
    • 数据共享
    • 提升资源利用率
    • 距离延长
  • 网络的出现给存储带来了新的生机
    • SAN(Storage Area Network,存储区域网络):在存储设备与服务器之间组成网络,主要提供块存储服务。
    • NAS(Network Attached Storage,网络附加存储):使用网络连接服务器与带有文件系统的存储,主要提供文件存储服务。
  • 2011年左右,支持SAN和NAS多协议的统一存储迅速成为热点,融合的趋势再次出现:通过整合降低成本,将NAS和SAN结合起来,同时提供数据库与文件共享服务,简化存储管理,提高存储利用率。

云存储

云存储系统是一个多存储设备、多应用、多服务协同工作的集合体,它使用高度虚拟化的多租户基础设施为企业提供可扩展的存储资源,可以根据组织的要求动态配置。

以华为云为例,云存储提供的服务从存储层面来分为文件存储和块存储。文件存储基于NFS/CIFS协议,广泛兼容各种系统,提供共享、高容量、低延迟存储的一种方式。块存储基于SCSI协议,通过直接挂载到服务器上面提供存储服务,能够提供高性能存储。基于存储方式分为对象存储和分布式存储,通过将数据存储在不同地方的方式,能够提供EB级别的容量,适合大数据分析、静态网站托管、视频存储等大块数据的使用场景。

存储介质的发展

存储介质是数据的物理载体,是数据的物理体现。存储介质从古代的纸张、竹编,到现在的磁和电所经历的过程称为存储介质的发展。在上世纪,主要以磁存储为主,本世纪主要以电存储为主。但是这并不意味着磁存储会直接退出历史舞台,相对于电存储有者不可替代的优势。

机械硬盘发展简史

  • 机械硬盘的发展:
    • 1970年到1991年间,硬盘盘片的存储密度以每年25%到30%的速度增长;
    • 1991年开始,以每年60%到80%的速度增长;
    • 从1997年开始以100%甚至200%的惊人速度提升,这得益于IBM的GMR(Giant Magneto Resistive,巨磁阻)技术,它使磁头灵敏度进一步提升,进而提高了储存密度。
  • IBM 1301:使用空气轴承消除了摩擦力,容量达到了28MB。
  • IBM 3340:被装进了盒子,容量达到了30MB,恰好是当时的“温彻斯特来福枪”的口径和填弹量,因此也被称为“温彻斯特”。
  • 1992年,1.8寸HDD诞生。

GMR效应的核心是多层磁性薄膜结构​(如铁磁层与非磁层交替堆叠)。当外磁场作用于这些层时,相邻磁性层的磁矩方向会发生变化,导致电阻显著改变(变化率可达25%以上,远高于传统磁阻效应的1%-3%)这种效应由法国科学家费尔和德国科学家格林贝格尔于1988年独立发现,两人因此获得2007年诺贝尔物理学奖。相比于传统的磁阻MR技术,GMR的电阻变化率更高,能探测更微弱的磁场型号。GMR磁头可实现10Gbit-40Gbit/in²的盘片密度,远超MR磁头的3Gbit-5Gbit/in²,显著提升硬盘容量。


1950s 巨型硬盘

1960s 14寸硬盘

1970s 8寸硬盘

1980s 便携硬

1990s 微硬盘

固态硬盘发展简史

相对于机械硬盘,固态硬盘最大的不同之处在于使用电存储技术。具体通过将电子束缚起来以维持一个状态,通过不同的状态表示二进制。虽然固态硬盘出现的时间很早,但是由于当时机械硬盘成本较低发展速度快速而没有受到青睐。
但是随着HDD容量的不断提升,遇到了物理瓶颈,也就是邻道干扰(ATI)和热扰动以及超顺磁效应。导致HDD在单位容量上很难取得进步,虽然通过叠瓦式(SMR)技术解决了一定的问题,但是寿命较短,且成本下降没有理想中的差距。

当HDD陷入发展瓶颈的时候,SSD方面的发展取得了阶段性的突破:浮栅晶体管,Floating Gate Transistor:由韩裔科学家姜大元和华裔科学家施敏一起发明,是NAND Flash技术的基础。借助该项技术,电子可以很容易的在长时间维持在一个状态,这为电存储的持久化提供了解决思路。相对于HDD存储,SSD使用了浮栅晶体管,可以将单位容量提升到HDD难以企及的地位,同时没有HDD复杂的机械结构带来的寻道时间,在可靠性和性能全方面优于HDD。

1967年

·贝尔实验室
·浮栅晶体管

1976年

·Dataram出售Bulk Core
·2MB容量

1991年

·SanDisk推出Flash SSD
·20MB容量

1999年

·BiTMICRO推出Flash SSD
·18GB容量

2006年

·三星发布固态硬盘笔记本
·32GB容量

2010年

·成本不断降低
·容量不断提升

SSD发展初期,使用的2D平面的物理结构,在逻辑上一个cell存储两种状态,即1bit,这样导致一个问题就是单位制造成本一直居高。为了解决这个问题,在单个cell上存储4种不同状态,可以实现2bit。在2007年,东芝提研发出3D堆叠架构,通过垂直堆叠突破2D平面的限制,可以在单位平面上实现更多的容量。顺着这些思路,cell不仅仅可以存储2bit的数据,还可以存储3bit、4bit等。

•SLC(1bit), Single-Level Cell – 读写速度快,使用寿命长

•MLC(2bit), Multi-Level Cell – 读写速度和寿命适中

•TLC(3bit), Triple-Level Cell – 成熟的主流技术

•QLC(4bit), Quad-Level Cell – 更大更廉价,适用温数据

接口协议的发展

接口协议

  • 硬盘接口是硬盘与主机系统间的连接部件。
  • 接口协议(Interface Protocol)指的是需要进行信息交换的接口间需要遵从的通信方式和要求。

硬盘接口主要分为两大类:串行接口和并行接口。

接口协议发展简史

  • 存储协议一方面是传输速率的提升,另一方面随着介质从机械硬盘发展到固态存储,协议从SCSI演进到NVMe,包括基于PCIe的NVMe协议和前端接主机网络的NVMe over Farbic(NVMe-oF)协议。
  • NVMe Over Fabric(简称NVMe-oF)借助RDMA等超低延时的传输协议,可远程访问SSD,解决了下一代数据中心在横向扩展 (Scale-Out) 时所遭遇的性能、功能、容量三者之间难以取舍的权衡问题。
  • 最初NVMe-oF规范发布于2016年,它支持通过光纤通道(Fibre Channel)和远程直接内存访问(RDMA),在RDMA协议框架下,InfiniBand支持融合以太网和广域Internet RDMA协议。
  • 2018年11月发布的NVMe-oF1.1规范中,添加了TCP作为架构选项,即RoCE(RDMA over Converged Ethernet),不需要缓存,CPU可直接访问硬盘。

NVMe与NVMe-oF

lNVMe, Non-Volatile Memory Express

  • 提升性能
  • 降低时延

lNVMe-oF, NVMe over Fabrics

  • 潜力:低延迟,高带宽
  • 目的:加速服务器主机和目标存储设备之间的数据传输

存储产品的发展趋势

存储产品发展历程

介质趋势:从传统磁盘到混合闪存存储、全闪存存储,存储闪存化趋势明显。

架构趋势:从集中式存储架构到分布式存储架构,将计算、存储、网络分离,组成共享池,并提供软件来进行统一管理,优化了资源配置,降低了运维成本。

管理趋势:从传统人工运维发展到存储管理自动化;从存储管理向数据管理发展。

专业存储:存储产品与特定场景结合,带来新的客户价值,如配套容器使用的存储。

整体趋趋势:

  • 闪存化-对应存储介质:闪存颗粒价格逐年下降,机械硬盘逐渐退化成类似磁带地位的介质。
  • 云化-对应存储架构:除了分布式架构带来的弹性可扩展之外,云化还意味着可以减少持有成本。
  • 智能化-对应智能运维:除了软件带来的智能运维功能外,智能化还包括一些带有智能化功能的硬件,比如智能硬盘框。

智能时代对数据存储的新要求

高可用:能够随时随地提供服务。

高性能:能够提高吞吐量低延迟。

大容量:能够提供海量存储容量。

智能时代数据存储的特征

数据存储发展趋势

存储网络发展趋势

华为存储产品发展历程

智能数据存储架构

智能数据缩减

  • AI预测;
  • CPU、GPU智能缩减算法

智能数据存储

  • 智能预取、数据分级、热点识别、数据缓存等技术,实现最优介质组合

智能调度

  • 异构算力资源动态管理;近数据计算调度;容器,快速拉起

Memory Fabric:以内存为中心,构建高性能网络

  • 支持ns级时延高性能网络
  • 内存池化、分级

ALL IP:SSD介质构建极致成本

  • 深度盘控配合,SLC/QLC/OLC演进
  • ALL IP 构建极简网络

二次元!不是的?喜欢数码科技吗?我来带你了解。
最后更新于 2025-04-22