l******o 发帖数: 52 | 1 --- 海量数据,"大数据", 和高频数据讨论之结篇
我之前讨论过"Big Data"的概念。最早用它的人主要强调三个方面: Volume, Variety,
and Velocity, 数据量, 数据种类,和速度。以后再定义的人(例子可供索取)有所发
挥,不过定义"Big Data"的核心还是在这几个方面。
这里想提醒大家注意,直到目前为止,绝大多数人说起"Big Data"还是指非结构化数据
(比如说互联网的有关用户上网活动的数据), 而不是传统的结构化数据(比如说订单和
客户数据等等)。金融市场的数据是结构化数据的一种,尤其以定义严格和其对时间指
标(time stamp)的严重依赖性而著称。
近十几年来Internet 行业的发展,可以说与从互联网上产生和需要处理的数据量的指
数成长息息相关。某种程度上讲,指数成长的数据量和有关的指数成长的用户群相得益
彰,推进了互联网企业的发展和整个社会的互联网化。这成为"Big Data"这个概念被广
泛接受和广泛使用的直接动因。作为这个行业长期旗帜的Google, 可能最早解决工业层
次的"Scalability"的问题。他们并把相关技术以学术论文的方式公之与众(不知他们是
否有意为之),是当今"Big Data"产业的最大使能因素。由此之后产生的大量应用,比如
社群网络(Facebook, Linkedin), 微出版(twitter, Weibo), 和社群评价网(Yelp, 购
物网站的用户评论)不论在用户群的发展和技术上都得益与此。这些不同应用(这里只以
互联网应用为主)在产生大量新数据的同时,也产生了大量不同种类(Variety)的数据。
另一方面,相对于金融方面的实时数据和相关应用(比如高频交易)而言,基于互联网的
数据在速度上还是差别很多。所以,无论从哪方面讲,对于"Big Data"一般所指的非结
构化数据而言,数据量都是这个概念的关键。
基于此,我个人建议,"Big Data" 的翻译,应使用海量数据而不是也许已某种程度上
流俗的"大数据"。我建议同时保留"大数据时代"的用法,以作为对于当前技术世代基本
认知的肯定。这样的用词组合的好处在于: 1). 体现我们华人技术人士对于这看似混沌
的"Big Data"概念发展的认知; 2). 体现中文的丰富性; 3) 对于未来非结构化数据处
理与结构化数据处理的融合留下更大的命名空间; 4)为高频数据留下定义空间。
支持本帖的朋友,请帮忙顶一下。欢迎讨论,欢迎转载,请注明出处。 | g********s 发帖数: 3652 | 2 haobo是高手,他的文我会好好拜读!
‘绝大多数人说起"Big Data"还是指非结构化数据
(比如说互联网的有关用户上网活动的数据), 而不是传统的结构化数据(比如说订单和
客户数据等等)。’
感谢澄清这点! | d*****t 发帖数: 7903 | | d*****t 发帖数: 7903 | 4 能简单谈谈你对big data和云计算的关系的理解吗?
Variety,
【在 l******o 的大作中提到】 : --- 海量数据,"大数据", 和高频数据讨论之结篇 : 我之前讨论过"Big Data"的概念。最早用它的人主要强调三个方面: Volume, Variety, : and Velocity, 数据量, 数据种类,和速度。以后再定义的人(例子可供索取)有所发 : 挥,不过定义"Big Data"的核心还是在这几个方面。 : 这里想提醒大家注意,直到目前为止,绝大多数人说起"Big Data"还是指非结构化数据 : (比如说互联网的有关用户上网活动的数据), 而不是传统的结构化数据(比如说订单和 : 客户数据等等)。金融市场的数据是结构化数据的一种,尤其以定义严格和其对时间指 : 标(time stamp)的严重依赖性而著称。 : 近十几年来Internet 行业的发展,可以说与从互联网上产生和需要处理的数据量的指 : 数成长息息相关。某种程度上讲,指数成长的数据量和有关的指数成长的用户群相得益
| l*******m 发帖数: 468 | | j********p 发帖数: 9680 | | l******o 发帖数: 52 | 7 @ddheart: 云计算实际是client/server 结构的泛化。Big Data 某种程度上是并行处
理的平民化。当然这个问题可能不完全那么简单,但基本是时事造英雄。 | l******o 发帖数: 52 | 8 --- 海量数据,"大数据", 和高频数据讨论之结篇
我之前讨论过"Big Data"的概念。最早用它的人主要强调三个方面: Volume, Variety,
and Velocity, 数据量, 数据种类,和速度。以后再定义的人(例子可供索取)有所发
挥,不过定义"Big Data"的核心还是在这几个方面。
这里想提醒大家注意,直到目前为止,绝大多数人说起"Big Data"还是指非结构化数据
(比如说互联网的有关用户上网活动的数据), 而不是传统的结构化数据(比如说订单和
客户数据等等)。金融市场的数据是结构化数据的一种,尤其以定义严格和其对时间指
标(time stamp)的严重依赖性而著称。
近十几年来Internet 行业的发展,可以说与从互联网上产生和需要处理的数据量的指
数成长息息相关。某种程度上讲,指数成长的数据量和有关的指数成长的用户群相得益
彰,推进了互联网企业的发展和整个社会的互联网化。这成为"Big Data"这个概念被广
泛接受和广泛使用的直接动因。作为这个行业长期旗帜的Google, 可能最早解决工业层
次的"Scalability"的问题。他们并把相关技术以学术论文的方式公之与众(不知他们是
否有意为之),是当今"Big Data"产业的最大使能因素。由此之后产生的大量应用,比如
社群网络(Facebook, Linkedin), 微出版(twitter, Weibo), 和社群评价网(Yelp, 购
物网站的用户评论)不论在用户群的发展和技术上都得益与此。这些不同应用(这里只以
互联网应用为主)在产生大量新数据的同时,也产生了大量不同种类(Variety)的数据。
另一方面,相对于金融方面的实时数据和相关应用(比如高频交易)而言,基于互联网的
数据在速度上还是差别很多。所以,无论从哪方面讲,对于"Big Data"一般所指的非结
构化数据而言,数据量都是这个概念的关键。
基于此,我个人建议,"Big Data" 的翻译,应使用海量数据而不是也许已某种程度上
流俗的"大数据"。我建议同时保留"大数据时代"的用法,以作为对于当前技术世代基本
认知的肯定。这样的用词组合的好处在于: 1). 体现我们华人技术人士对于这看似混沌
的"Big Data"概念发展的认知; 2). 体现中文的丰富性; 3) 对于未来非结构化数据处
理与结构化数据处理的融合留下更大的命名空间; 4)为高频数据留下定义空间。
支持本帖的朋友,请帮忙顶一下。欢迎讨论,欢迎转载,请注明出处。 | g********s 发帖数: 3652 | 9 haobo是高手,他的文我会好好拜读!
‘绝大多数人说起"Big Data"还是指非结构化数据
(比如说互联网的有关用户上网活动的数据), 而不是传统的结构化数据(比如说订单和
客户数据等等)。’
感谢澄清这点! | d*****t 发帖数: 7903 | | | | d*****t 发帖数: 7903 | 11 能简单谈谈你对big data和云计算的关系的理解吗?
Variety,
【在 l******o 的大作中提到】 : --- 海量数据,"大数据", 和高频数据讨论之结篇 : 我之前讨论过"Big Data"的概念。最早用它的人主要强调三个方面: Volume, Variety, : and Velocity, 数据量, 数据种类,和速度。以后再定义的人(例子可供索取)有所发 : 挥,不过定义"Big Data"的核心还是在这几个方面。 : 这里想提醒大家注意,直到目前为止,绝大多数人说起"Big Data"还是指非结构化数据 : (比如说互联网的有关用户上网活动的数据), 而不是传统的结构化数据(比如说订单和 : 客户数据等等)。金融市场的数据是结构化数据的一种,尤其以定义严格和其对时间指 : 标(time stamp)的严重依赖性而著称。 : 近十几年来Internet 行业的发展,可以说与从互联网上产生和需要处理的数据量的指 : 数成长息息相关。某种程度上讲,指数成长的数据量和有关的指数成长的用户群相得益
| l*******m 发帖数: 468 | | j********p 发帖数: 9680 | | l******o 发帖数: 52 | 14 @ddheart: 云计算实际是client/server 结构的泛化。Big Data 某种程度上是并行处
理的平民化。当然这个问题可能不完全那么简单,但基本是时事造英雄。 | h*****7 发帖数: 6781 | 15 讲得好!
不过海量数据老让我想起海量存储......
可能以前SAN搞多了
金融行业,比如HFT用的机器什么级别?
我知道G用的很吓人
Variety,
【在 l******o 的大作中提到】 : --- 海量数据,"大数据", 和高频数据讨论之结篇 : 我之前讨论过"Big Data"的概念。最早用它的人主要强调三个方面: Volume, Variety, : and Velocity, 数据量, 数据种类,和速度。以后再定义的人(例子可供索取)有所发 : 挥,不过定义"Big Data"的核心还是在这几个方面。 : 这里想提醒大家注意,直到目前为止,绝大多数人说起"Big Data"还是指非结构化数据 : (比如说互联网的有关用户上网活动的数据), 而不是传统的结构化数据(比如说订单和 : 客户数据等等)。金融市场的数据是结构化数据的一种,尤其以定义严格和其对时间指 : 标(time stamp)的严重依赖性而著称。 : 近十几年来Internet 行业的发展,可以说与从互联网上产生和需要处理的数据量的指 : 数成长息息相关。某种程度上讲,指数成长的数据量和有关的指数成长的用户群相得益
|
|