关于本站 | 联系方式 | 网站地图 | 版权声明 | 查看权限 | WAP版  行者,雪兔和叫叫的家庭主页
你现在的位置:网站首页 / 分享|科普知识 / 正文内容

【原创】大数据(和云计算)
时间:2020-2-11 12:51:30 | 作者 : 行者 | 分类 : 分享|科普知识 | 浏览: 次 | 已有 1 人对本文发表了看法

与传统的数据和信息处理模式相比,“大数据(Big data)”主要有两个方面的新特征:

一是数据来源要广泛的多,可以全面收集各行各业的公开数据(如报告或报表的引用,互联网爬虫程序(注1)的自动采集,专门开展的调查等),或是提供接口,收集一些特定的共享数据库中(如人行征信系统,通信企业,水电燃气管理,政府信息公开平台等)的数据。这些数据汇集起来,具有海量的特点。

在传统的数据存储和处理模式下,数据容量一般使用bit、Byte、KB、MB、GB。而到了大数据时代,由于存储技术的提升,数据容量出现了爆炸式的增长,出现了TB、PB、EB、ZB、YB、BB、NB、DB这些单位。以上单位除了bit、Byte,都是以1024倍的速度来增长的。(注2)

二是数据处理方法比传统模式有了很大提升,采用了云计算,云存储,分布式数据库,分布式文件系统,大规模并行处理数据库,互联网,虚拟化,极强的随时可扩展等新技术。简单的说,就是打通了不同地区,不同领域之间的“数据鸿沟”,可能数据并不存储在同一位置的计算机系统中,甚至可能不在同一地区,但都可以随时集中起来,做综合分析,为科研、管理(运维)、决策提供更加详细,更加可靠,更具有针对性的支持。在数据处理过程中,大数据强调了对原始数据的“清洗”,即去除其中不真实,没有用,或是重复的部分,必要时还会按统一格式重新整理,把看起来无序的、分散的数据重新编排,增强其相互之间的关联性,以便提高下一步数据查询的效率。

比如说导航或交通管理系统,运用大数据技术,可以同时接收全国各地的摄像头采集的数据,对上面可能会多达1亿辆的汽车的运行状态做汇总分析,绘制出路况(拥堵)态势图,还可以对未来的路况进行预测,给出避开拥堵,调整红绿灯等方面的方案。又比如说近期的疫情防控,把交通管理系统,居民身份信息识别系统,社区网格化管理系统,医疗系统等方面的数据结合起来,便能够绘制出特定人群的行动轨迹,分析其行为偏好,在“用户画像”基础上开展疫情变化和区域风险水平的分析,从而更加灵活的调配人力、物力。

简要的说,大数据技术主要分为四个步骤,分别为:数据采集→数据处理→数据存储→数据展示(应用)

大数据技术的典型应用就是“云上贵州”。贵州省位于西南边陲,境内遍布崇山峻岭,发展传统工业的自然条件不太好,交通(区位)优势也不突出。但贵州的优势是水电资源丰富,电价较低,可以为大数据产业的设备基础(主要是几万到几十万台服务器)提供充足而廉价的电力。同时,贵州有大量的喀斯特地形,天然岩洞里常年保持低温,并有大山区洁净的自然风来回流动,这为大规模服务器集群的散热提供了良好条件,都不用安装机房空调设备,节约了空调采购和使用(电费)费用。“云上贵州”为相对落后地区提供了新的产业链发展思路,为其弯道超车创造了条件。

注1:爬虫又叫做网络蜘蛛,网络机器人等,是互联网上的一种程序。爬虫会按照事先设定好的规则,自动在互联网上访问各种网站或数据库,采集其中有用的信息,并将其收录到特定的数据库中。常见的搜索引擎,如百度、谷歌等等,其核心部分就是典型的爬虫。

注2:bit(比特)是最基本的数据存储单位,表示一个计算机所能够识别的二进制数的一个数位(‘0’或‘1’)。

8个bit为一个Byte(字节)。Byte是计算机存储可以(在屏幕上)表示出来的资料的基本单位,代表一个英文字母(A-Z),一个数字(0-9)、或一个符号(,.?!%&+-*/),而一个中文(汉字)则需要占用两Bytes。

1024个Byte为一个KB,1024个KB为一个MB,以此类推。1024是2的10次方。

据叫叫计算,1DB等于十万亿亿亿KB。这样级别的数据,一般会采取分布式的存储模式,分在许多个地方的服务器集群里,而其中一个地方的服务器集群,常常也要有几万台到几十万台服务器一起来工作了。

  • 谢谢你浏览本页内容,你的关注与支持是本站不断发展的最大动力!
  • 如果你有什么意见或建议,请点击这里告诉我们
  • 如果你觉得本页内容对你确实有所帮助,请点击页面右边浮窗中的分享按钮,将本页推荐给更多的朋友。本站将努力为你奉献更多有用的内容。
  • 转载请注明:本文转载自我们家(http://stuit.cn/Family/)谢谢合作!
  • 行者 发布于 2020/2/11 13:01:50  回复该留言1#
  • 【网上分享导语】寒假延长,叫叫没闲着,在刻苦学习科技知识。当然,这是以老父亲的勤勤恳恳查资料,战战兢兢怕写错为代价的~~~
    得亏当年老父亲我在网络与信息中心混过两年,要不,现在连吃老本都木有机会^_^

发表评论:

必填项 敬请留下你的尊姓大名或网络昵称

选填项 绝对保密,主要是方便我们随后联系到你

选填项 欢迎站长留下链接以便互访

必填项 防范注册机的措施。如果看不清楚,可以直接点击验证码以刷新

记住我,下次回复时不用重新输入个人信息

◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。

Copyright 2010-2020 行者,雪兔和叫叫(Family.StuIt.Cn)All Rights Reserved.