大数据将进入“感知”时代,“东数西算”最应关注的四大问题
admin
2022-02-20 15:06:53
0

  近期四部门联合印发文件,同意在京津冀、长三角、粤港澳大湾区、成渝、内蒙古、贵州、甘肃、宁夏8地启动建设国家算力枢纽节点,并规划10个国家数据中心集群,“东数西算”工程将正式全面启动。

  而众所周知的是东部地区经济发达,企业/人口较多,因此产生的数据量也比西部多。而西部地区地域辽阔,有大量的土地面积,电力能源,电价相对西部地区也较低,因此从经济属性来看,西部地区确实很适合建设数据中心。

  本文的重点将放在以下四个方面:

  1、“东部”哪些数据传输到“西部”

  3、数据的传输的途径

  4、数据中心建设的关键指标

  5、安全性和云服务面临的挑战

  即将进入大数据爆发式时代

  复盘大数据的产生过程来看,一般是经历三个阶段。而当下我们所处于大数据产生的第二阶段向第三阶段过度的时代。

  第一、运营式系统阶段

  是生产经营活动产生的信息进行数据化存储。比方说:商场的销售账务从手写账本转化为电子系统,每一条销售数据都可以存储在数据库中。这就是信息数据化的过程。这一阶段的特点是:数据量增长速度较慢。毕竟能够写在本子上,说明数据量还是相对较小的。

  第二、用户原创内容阶段

  数据开始爆发式增长就是源于这个阶段,因为新型社交网络的快速发展,使得每个用户可随时随地都可以在网络平台进行信息交互,比如视频、网络聊天、游戏等等。海量的应用场景和众多的交互群体,会在每分钟产生大量的信息,因而数据量开始极速增长。

  第三、感知式系统阶段

  这也是我们即将进入快速发展的阶段,元宇宙是我们现在观察到的一个雏形。每个人都是一个数据产生终端,通过XR设备可穿越空间进行交互,将自身的虚拟人投影到远端场景,因此人的每一个行为都是一条数据信息。

  其实第三阶段与第二阶段最主要的不同在于:第二阶段人是通过如手机、电脑来产生数据的,是有意识的创造数据。而在第三阶段,每个人都是一个独立的数据终端,通过一些传感器设备就可以将信息上传,与多场景、终端进行信息交互,这是无意识的自动创造数据行为。因而,未来将进入海量数据的阶段。

  大数据按照分析方式可以大致划分为交易数据、人为数据、移动数据、机器和传感数据。如果大数据计算要求反馈非常迅速,那么这类的数据就需要进行本地计算。比如未来的自动驾驶判断交通信号灯这样的需求,就不可能放到西部进行数据计算和信号传递。像是一个城市的人口管理大数据、用电10年历史记录、大企业5年以上的档案管理数据,这类数据不需要在极短的时间内进行计算和反馈的海量信息可以放在西部进行计算和存储。

  传输途径是什么

  企业、政府终端用户可以将数据上传并存储到本地服务器或者云服务器,再由远端的服务器进行数据下载,并在本地进行运算,最后将计算后的结果通过服务器传递回用户端。这里涉及到的就是服务器以及传输速度。

  服务器是数据交互的终端:数据信息通过光线光缆传递到服务器。

  数据的传输速度靠带宽:带宽越大,在每秒钟传输的数据量越大。企业级带宽远远高于家庭用户带宽速度。

  数据中心的关键指标

  数据中心存放了大量的服务器、每分每秒的访问会消耗极高的能量,因此,数据中心是非常耗电的。根据国家要求:新建大型及以上数据中心电能利用效率PUE降低到1.3以下;寒和寒冷地区力争降低到1.25以下,此前该数值在1.35。

  PUE=数据中心总能耗/IT设备能耗;

  数值越接近1表明,IT设备电能消耗越低。从另一方面来看,IT设备的能量消耗要逐步增加新能源的利用率。

  通过另一组数据来看:全国数据中心机架规模年均增速保持在20%左右。到年底,全国数据中心平均利用率约55%,到2023年底,该数值目标提升到60%以上。我们认为,数据中心的平均利用率非常低也可以看出经济发展和资源的不匹配问题,这也是数据和资源调度的一部分原因。

  西部地区如果承接了大量的数据计算需求,一方面是对于数据中心的访问量增加;另一方面就是对于数据的计算能力提出了更高的要求。对于数据算法的处理难度越高,就会要求计算机有更有高的性能。根据国家对数据中心的规划,国家枢纽节点算力规模占比超过70%。到2023年总算力计划要超过200 EFLOPS,高性能算力占比达到10%。

  而本次规划的8个算力枢纽,将会在未来加大算力能力的提升。将会增加高性能计算机的硬件设备采购以及核心算法研发人员的招聘。

  另一方面,从相关研究报告的量化数据显示:计算力指数平均每提高1个百分点,数字经济和GDP将分别增长3.3‰和1.8‰。此次东数西算的政策,也能够大力扶持西部地区的经济发展,提高城市GDP,符合共同富裕的方针。

  数据的安全性是核心

  企业级数据都是具有极高的私密属性,大部分数据都存在本地服务器中,而且采用内网的访问方式,这也就是说一旦企业级数据进行远端计算,最先考虑到的就是数据是否具备很强的安全访问性,计算能力往往不是企业最先考虑的。如果做不到安全性,企业宁愿在本地进行计算。

  但是,问题出现了。

  如果是数据量产生极大的互联网企业,本地服务器很难承载超高频和高速的访问量,这时候就需要建设数据中心。而建设数据中心的成本又是极高的,中小型企业很难承担这部分的自建费用,也就催生了企业级云服务的需求。

  云服务器的经济性高,但渗透力增加面临挑战

  云服务器的出现有效降低了企业IT设备的支出成本:云服务器可以按需租用,并且不需要支付设备押金,对于数据量/业务量很大弹性的公司是非常受益的。

  而依照云服务器的类型,可划分为公有云、私有云和混合云。

  对于信息保密程度没有极高要求的会采用公有云,比如互联网公共平台访问、视频数据访谈等场景。像是保密单位、政府部分、大型国有资产企业等对保密性要求很严格的公司或单位,如果有上云的需求,将会采用私有云方式。而混合云也将是未来主流的方式,一部分数据进行保密存储,一部分进行公开访问,适用的场景最多。

  我们通过对企业的访谈调研了解到,云服务这几年虽然发展很快,但是主要诉求来自互联网企业,而能源、工业、农业等领域对云服务的接受度并不高。一方面是考虑到数据的安全性,另一方面,这些领域的每年新增数据量没有非常大的变化,本地服务器容量是可以满足的。

(文章来源:华尔街见闻)

相关内容

热门资讯

linux入门---制作进度条 了解缓冲区 我们首先来看看下面的操作: 我们首先创建了一个文件并在这个文件里面添加了...
C++ 机房预约系统(六):学... 8、 学生模块 8.1 学生子菜单、登录和注销 实现步骤: 在Student.cpp的...
A.机器学习入门算法(三):基... 机器学习算法(三):K近邻(k-nearest neigh...
数字温湿度传感器DHT11模块... 模块实例https://blog.csdn.net/qq_38393591/article/deta...
有限元三角形单元的等效节点力 文章目录前言一、重新复习一下有限元三角形单元的理论1、三角形单元的形函数(Nÿ...
Redis 所有支持的数据结构... Redis 是一种开源的基于键值对存储的 NoSQL 数据库,支持多种数据结构。以下是...
win下pytorch安装—c... 安装目录一、cuda安装1.1、cuda版本选择1.2、下载安装二、cudnn安装三、pytorch...
MySQL基础-多表查询 文章目录MySQL基础-多表查询一、案例及引入1、基础概念2、笛卡尔积的理解二、多表查询的分类1、等...
keil调试专题篇 调试的前提是需要连接调试器比如STLINK。 然后点击菜单或者快捷图标均可进入调试模式。 如果前面...
MATLAB | 全网最详细网... 一篇超超超长,超超超全面网络图绘制教程,本篇基本能讲清楚所有绘制要点&#...
IHome主页 - 让你的浏览... 随着互联网的发展,人们越来越离不开浏览器了。每天上班、学习、娱乐,浏览器...
TCP 协议 一、TCP 协议概念 TCP即传输控制协议(Transmission Control ...
营业执照的经营范围有哪些 营业执照的经营范围有哪些 经营范围是指企业可以从事的生产经营与服务项目,是进行公司注册...
C++ 可变体(variant... 一、可变体(variant) 基础用法 Union的问题: 无法知道当前使用的类型是什...
血压计语音芯片,电子医疗设备声... 语音电子血压计是带有语音提示功能的电子血压计,测量前至测量结果全程语音播报࿰...
MySQL OCP888题解0... 文章目录1、原题1.1、英文原题1.2、答案2、题目解析2.1、题干解析2.2、选项解析3、知识点3...
【2023-Pytorch-检... (肆十二想说的一些话)Yolo这个系列我们已经更新了大概一年的时间,现在基本的流程也走走通了,包含数...
实战项目:保险行业用户分类 这里写目录标题1、项目介绍1.1 行业背景1.2 数据介绍2、代码实现导入数据探索数据处理列标签名异...
记录--我在前端干工地(thr... 这里给大家分享我在网上总结出来的一些知识,希望对大家有所帮助 前段时间接触了Th...
43 openEuler搭建A... 文章目录43 openEuler搭建Apache服务器-配置文件说明和管理模块43.1 配置文件说明...