与传统的数据和信息处理模式相比,“大数据(Big data)”主要有两个方面的新特征:
一是数据来源要广泛的多,可以全面收集各行各业的公开数据(如报告或报表的引用,互联网爬虫程序(注1)的自动采集,专门开展的调查等),或是提供接口,收集一些特定的共享数据库中(如人行征信系统,通信企业,水电燃气管理,政府信息公开平台等)的数据。这些数据汇集起来,具有海量的特点。
在传统的数据存储和处理模式下,数据容量一般使用bit、Byte、KB、MB、GB。而到了大数据时代,由于存储技术的提升,数据容量出现了爆炸式的增长,出现了TB、PB、EB、ZB、YB、BB、NB、DB这些单位。以上单位除了bit、Byte,都是以1024倍的速度来增长的。(注2)
二是数据处理方法比传统模式有了很大提升,采用了云计算,云存储,分布式数据库,分布式文件系统,大规模并行处理数据库,互联网,虚拟化,极强的随时可扩展等新技术。简单的说,就是打通了不同地区,不同领域之间的“数据鸿沟”,可能数据并不存储在同一位置的计算机系统中,甚至可能不在同一地区,但都可以随时集中起来,做综合分析,为科研、管理(运维)、决策提供更加详细,更加可靠,更具有针对性的支持。在数据处理过程中,大数据强调了对原始数据的“清洗”,即去除其中不真实,没有用,或是重复的部分,必要时还会按统一格式重新整理,把看起来无序的、分散的数据重新编排,增强其相互之间的关联性,以便提高下一步数据查询的效率。
比如说导航或交通管理系统,运用大数据技术,可以同时接收全国各地的摄像头采集的数据,对上面可能会多达1亿辆的汽车的运行状态做汇总分析,绘制出路况(拥堵)态势图,还可以对未来的路况进行预测,给出避开拥堵,调整红绿灯等方面的方案。又比如说近期的疫情防控,把交通管理系统,居民身份信息识别系统,社区网格化管理系统,医疗系统等方面的数据结合起来,便能够绘制出特定人群的行动轨迹,分析其行为偏好,在“用户画像”基础上开展疫情变化和区域风险水平的分析,从而更加灵活的调配人力、物力。
简要的说,大数据技术主要分为四个步骤,分别为:数据采集→数据处理→数据存储→数据展示(应用)
大数据技术的典型应用就是“云上贵州”。贵州省位于西南边陲,境内遍布崇山峻岭,发展传统工业的自然条件不太好,交通(区位)优势也不突出。但贵州的优势是水电资源丰富,电价较低,可以为大数据产业的设备基础(主要是几万到几十万台服务器)提供充足而廉价的电力。同时,贵州有大量的喀斯特地形,天然岩洞里常年保持低温,并有大山区洁净的自然风来回流动,这为大规模服务器集群的散热提供了良好条件,都不用安装机房空调设备,节约了空调采购和使用(电费)费用。“云上贵州”为相对落后地区提供了新的产业链发展思路,为其弯道超车创造了条件。
注1:爬虫又叫做网络蜘蛛,网络机器人等,是互联网上的一种程序。爬虫会按照事先设定好的规则,自动在互联网上访问各种网站或数据库,采集其中有用的信息,并将其收录到特定的数据库中。常见的搜索引擎,如百度、谷歌等等,其核心部分就是典型的爬虫。
注2:bit(比特)是最基本的数据存储单位,表示一个计算机所能够识别的二进制数的一个数位(‘0’或‘1’)。
8个bit为一个Byte(字节)。Byte是计算机存储可以(在屏幕上)表示出来的资料的基本单位,代表一个英文字母(A-Z),一个数字(0-9)、或一个符号(,.?!%&+-*/),而一个中文(汉字)则需要占用两Bytes。
1024个Byte为一个KB,1024个KB为一个MB,以此类推。1024是2的10次方。
据叫叫计算,1DB等于十万亿亿亿KB。这样级别的数据,一般会采取分布式的存储模式,分在许多个地方的服务器集群里,而其中一个地方的服务器集群,常常也要有几万台到几十万台服务器一起来工作了。
- 谢谢你浏览本页内容,你的关注与支持是本站不断发展的最大动力!
- 如果你有什么意见或建议,请点击这里告诉我们。
- 如果你觉得本页内容对你确实有所帮助,请点击页面右边浮窗中的分享按钮,将本页推荐给更多的朋友。本站将努力为你奉献更多有用的内容。
- 转载请注明:本文转载自我们家(http://stuit.cn/Family/)谢谢合作!
发表评论:
◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。