大数据究竟是什么?大数据有哪些技术呢?
就以悟空问答为例说说大数据的故事。以下说的数字都不是真实的,都是我的***设。
比如每天都有1亿的用户在悟空问答上回答问题或者阅读问答。
***设平均有1000万的用户每天回答一个问题。一个问题平均有1000的字, 平均一个汉字占2个字节byte,三张图片, 平均一帐图片300KB。那么一天的数据量就是:
文字总量:10,000,000 * 1,000 * 2 B = 20 GB
图片总量: 10,000,000 * 3 * 300KB = 9 TB
为了收集用户行为,所有的进出悟空问答页面的用户。点击,查询,停留,点赞,转发,收藏都会产生一条记录存储下来。这个量级更大。
所以粗略估计一天20TB的数据量. 一般的PC电脑配置大概1TB,一天就需要20台PC的存储。
如果一个月的,一年的数据可以算一下有多少。传统的数据库系统在量上就很难做到。
另外这些数据都是文档类型的数据。需要各种不同的存储系统支持,比如NoSQL数据库。
大数据包括结构化、半结构化和非结构化数据,非结构化数据越来越成为数据的主要部分。据IDC的调查报告显示:企业中80%的数据都是非结构化数据,这些数据每年都按指数增长60%。 [6] 大数据就是互联网发展到现今阶段的一种表象或特征而已,没有必要神话它或对它保持敬畏之心,在以云计算为代表的技术创新大幕的衬托下,这些原本看起来很难收集和使用的数据开始容易被利用起来了,通过各行各业的不断创新,大数据会逐步为人类创造更多的价值。
想要系统的认知大数据,必须要全面而细致的分解它,着手从三个层面来展开:
第一层面是理论,理论是认知的必经途径,也是被广泛认同和传播的基线。在这里从大数据的特征定义理解行业对大数据的整体描绘和定性;从对大数据价值的探讨来深入解析大数据的珍贵所在;洞悉大数据的发展趋势;从大数据隐私这个特别而重要的视角审视人和数据之间的长久博弈。
第二层面是技术,技术是大数据价值体现的手段和前进的基石。在这里分别从云计算、分布式处理技术、存储技术和感知技术的发展来说明大数据从***集、处理、存储到形成结果的整个过程。
第三层面是实践,实践是大数据的最终价值体现。在这里分别从互联网的大数据,***的大数据,企业的大数据和个人的大数据四个方面来描绘大数据已经展现的美好景象及即将实现的蓝图。
这是我通常与想要了解大数据的人进行对话:
问:什么是大数据?
答:大数据是描述庞大数据的术语。
问:现在,大数据有多大?
答:如此庞大,以至于无法用常规工具处理?
问:通常的工具是什么意思?
答:普通文件系统,数据库等工具。
所有这些大数据工具都有一个共同的特性:分布式计算。
因此,大数据是一个通常只能通过分布式的工具才能解决的问题。我知道这些天,每个人都在尝试将他们的BI(商业情报)工具描绘成大数据工具,但不要被喧闹声所欺骗。
问:哪些典型的大数据问题?
大数据技术可以定义为一种软件应用程序,旨在分析,处理和提取来自极其复杂的大型数据信息,而传统数据处理软件则无法处理。
我们需要大数据处理技术来分析大量实时数据,并提出预测和方案以减少未来的风险。
在类别中的大数据技术分为两大类型:
1.运营大数据技术
2.分析大数据技术
首先,运营大数据与我们生成的常规日常数据有关。这可能是在线交易,社交媒体或特定 组织的数据等。
运营大数据技术的一些示例如下:
·在线购物是您的淘宝,京东交易等等。
·来自社交媒体网站(如微信,QQ等)的数据。
·任何跨国公司的员工详细信息。
大数据是对海量数据进行存储、计算、统计、分析处理的一系列处理手段,处理的数据量通常是TB级,甚至是PB或EB级的数据,这是传统数据处理手段所无法完成的,其涉及的技术有分布式计算、高并发处理、高可用处理、集群、实时性计算等,汇集了当前IT领域热门流行的IT技术。
去过的哪些地方让你感觉名副其实?
去过很多地方,有得地方因为工作原因也多次前往,但是去过这么多地方最让我流连忘返的就是碛口古镇了,这个地方是我唯一的不是因为工作原因而主动去过8次的地方,至今还没有哪个地方能代替,也许西藏、新疆都很美,但那么遥远去一次就够了,碛口是我目前为止最喜欢的地方之一:
碛口古镇位于山西吕梁市临县,是黄河边的一个古镇,在文物众多的山西,碛口古镇仿佛一个丑小鸭,又好像一个藏在深闺无人识的小家碧玉,很少有人知道。但是这不影响她的美,相反正因为僻静、人少,才更显出她独特的美。
碛口古镇是中国历史文化名镇,原来是晋商从宁夏、内蒙运送山西往返货物的水路码头,因为碛口往南就是著名的大同碛,水流湍急,无法行船,所以走水路的货物都从这里中转,再经太原运送到全国各地。正因为碛口的先天的独特地理优势,使得这里在明清之际非常的繁华,也因为这个原因,使得周围的村子在贫瘠的吕梁山区显得特立独行、十分富裕。后来因为晋商的没落和整个大时代变为海洋经济,碛口古镇逐渐没落并最终被人遗忘。
我很喜欢碛口古镇用石块铺满的街道,也喜欢黄土高坡粗矿的地理环境与黄河母亲河还有晋商文化的交融,喜欢碛口的老街,喜欢碛口的窑洞。坐在临河边的窑洞二楼,旁边就是黄河,河对岸就是陕西,和几个知交好友喝酒聊天,真是人生一大乐事;徜徉在傍晚的古镇街道和小巷里,特别悠闲而又浪漫。
碛口古镇也是很多写生和摄影爱好者的乐园。
碛口古镇旁边的西湾村,是中国历史文化名村,西湾从外表看和山西很多古村子差不多,没什么特别的,但是西湾村子从风水学来说很有价值,他的五条巷子正好和五行的金木水火土相对应,背后靠山,面前是一条小河,对面又有比较山,形制特别好。这也是能够进入首批中国历史文化明村的原因吧,村名都是罗哲文题写。
碛口古镇南边几公里的山上有李家山,吴冠中先生把她和张家界和陕晋蒙黄土高原并列为自己一生的三***现,足以证明这个村子在吴先生心中的分量。李家山整个村子是由两个大地主斗富建起来的,两边高低各十几排窑洞,气势非凡。这里是写生学生的最爱,一般在这里住一个月写生,每天农户收25一个人,管三顿饭,是不是很便宜?不过饭都是当地土饭,就是大烩菜加花卷之类的。