由买买提看人间百态

boards

本页内容为未名空间相应帖子的节选和存档,一周内的贴子最多显示50字,超过一周显示500字 访问原贴
Quant版 - 海量数据 <->"大数据"
相关主题
quant 用matlab要用matlab oop吗?继续做码工还是转risk support?
Structured product翻译成?问一下 有没有方法提高自己海量数据统计的经验
码工试题寻求建议:如何准备和这个面试官的电面?
求组各位大神:怎么把下面的三段话翻译成英文?此文提到了著名的mitbbs QUANT版
大数据技术似乎对于金融没啥用大家都是怎么处理海量的csv log的?
Sell side Quant是不是没前途了?怎么本站现在出现了海量的BSO贴?
worldquant是不是现在不招人了?根据数据推出pdf的方法叫啥来着?
诚心请教职业规划一个quant的问题
相关话题的讨论汇总
话题: 数据话题: 海量话题: 结构化话题: 桅杆话题: 大浪
进入Quant版参与讨论
1 (共1页)
l******o
发帖数: 52
1
--- 海量数据,"大数据", 和高频数据讨论之结篇
我之前讨论过"Big Data"的概念。最早用它的人主要强调三个方面: Volume, Variety,
and Velocity, 数据量, 数据种类,和速度。以后再定义的人(例子可供索取)有所发
挥,不过定义"Big Data"的核心还是在这几个方面。
这里想提醒大家注意,直到目前为止,绝大多数人说起"Big Data"还是指非结构化数据
(比如说互联网的有关用户上网活动的数据), 而不是传统的结构化数据(比如说订单和
客户数据等等)。金融市场的数据是结构化数据的一种,尤其以定义严格和其对时间指
标(time stamp)的严重依赖性而著称。
近十几年来Internet 行业的发展,可以说与从互联网上产生和需要处理的数据量的指
数成长息息相关。某种程度上讲,指数成长的数据量和有关的指数成长的用户群相得益
彰,推进了互联网企业的发展和整个社会的互联网化。这成为"Big Data"这个概念被广
泛接受和广泛使用的直接动因。作为这个行业长期旗帜的Google, 可能最早解决工业层
次的"Scalability"的问题。他们并把相关技术以学术论文的方式公之与众(不知他们是
否有意为之),是当今"Big Data"产业的最大使能因素。由此之后产生的大量应用,比如
社群网络(Facebook, Linkedin), 微出版(twitter, Weibo), 和社群评价网(Yelp, 购
物网站的用户评论)不论在用户群的发展和技术上都得益与此。这些不同应用(这里只以
互联网应用为主)在产生大量新数据的同时,也产生了大量不同种类(Variety)的数据。
另一方面,相对于金融方面的实时数据和相关应用(比如高频交易)而言,基于互联网的
数据在速度上还是差别很多。所以,无论从哪方面讲,对于"Big Data"一般所指的非结
构化数据而言,数据量都是这个概念的关键。
基于此,我个人建议,"Big Data" 的翻译,应使用海量数据而不是也许已某种程度上
流俗的"大数据"。我建议同时保留"大数据时代"的用法,以作为对于当前技术世代基本
认知的肯定。这样的用词组合的好处在于: 1). 体现我们华人技术人士对于这看似混沌
的"Big Data"概念发展的认知; 2). 体现中文的丰富性; 3) 对于未来非结构化数据处
理与结构化数据处理的融合留下更大的命名空间; 4)为高频数据留下定义空间。
支持本帖的朋友,请帮忙顶一下。欢迎讨论,欢迎转载,请注明出处。
g********s
发帖数: 3652
2
此文作者haobo是具有高深学术背景的数据科学家。
‘绝大多数人说起"Big Data"还是指非结构化数据
(比如说互联网的有关用户上网活动的数据), 而不是传统的结构化数据(比如说订单和
客户数据等等)。’
感谢澄清这点!
l******o
发帖数: 52
3
大浪里面,要站在桅杆上:-)--- 多谢夸奖。
l******o
发帖数: 52
4
--- 海量数据,"大数据", 和高频数据讨论之结篇
我之前讨论过"Big Data"的概念。最早用它的人主要强调三个方面: Volume, Variety,
and Velocity, 数据量, 数据种类,和速度。以后再定义的人(例子可供索取)有所发
挥,不过定义"Big Data"的核心还是在这几个方面。
这里想提醒大家注意,直到目前为止,绝大多数人说起"Big Data"还是指非结构化数据
(比如说互联网的有关用户上网活动的数据), 而不是传统的结构化数据(比如说订单和
客户数据等等)。金融市场的数据是结构化数据的一种,尤其以定义严格和其对时间指
标(time stamp)的严重依赖性而著称。
近十几年来Internet 行业的发展,可以说与从互联网上产生和需要处理的数据量的指
数成长息息相关。某种程度上讲,指数成长的数据量和有关的指数成长的用户群相得益
彰,推进了互联网企业的发展和整个社会的互联网化。这成为"Big Data"这个概念被广
泛接受和广泛使用的直接动因。作为这个行业长期旗帜的Google, 可能最早解决工业层
次的"Scalability"的问题。他们并把相关技术以学术论文的方式公之与众(不知他们是
否有意为之),是当今"Big Data"产业的最大使能因素。由此之后产生的大量应用,比如
社群网络(Facebook, Linkedin), 微出版(twitter, Weibo), 和社群评价网(Yelp, 购
物网站的用户评论)不论在用户群的发展和技术上都得益与此。这些不同应用(这里只以
互联网应用为主)在产生大量新数据的同时,也产生了大量不同种类(Variety)的数据。
另一方面,相对于金融方面的实时数据和相关应用(比如高频交易)而言,基于互联网的
数据在速度上还是差别很多。所以,无论从哪方面讲,对于"Big Data"一般所指的非结
构化数据而言,数据量都是这个概念的关键。
基于此,我个人建议,"Big Data" 的翻译,应使用海量数据而不是也许已某种程度上
流俗的"大数据"。我建议同时保留"大数据时代"的用法,以作为对于当前技术世代基本
认知的肯定。这样的用词组合的好处在于: 1). 体现我们华人技术人士对于这看似混沌
的"Big Data"概念发展的认知; 2). 体现中文的丰富性; 3) 对于未来非结构化数据处
理与结构化数据处理的融合留下更大的命名空间; 4)为高频数据留下定义空间。
支持本帖的朋友,请帮忙顶一下。欢迎讨论,欢迎转载,请注明出处。
g********s
发帖数: 3652
5
此文作者是具有高深学术背景的数据科学家。
‘绝大多数人说起"Big Data"还是指非结构化数据
(比如说互联网的有关用户上网活动的数据), 而不是传统的结构化数据(比如说订单和
客户数据等等)。’
感谢澄清这点!
l******o
发帖数: 52
6
大浪里面,要站在桅杆上:-)--- 多谢夸奖。
g********s
发帖数: 3652
7
智慧!

【在 l******o 的大作中提到】
: 大浪里面,要站在桅杆上:-)--- 多谢夸奖。
1 (共1页)
进入Quant版参与讨论
相关主题
一个quant的问题大数据技术似乎对于金融没啥用
求救--论文数据,怎么下载option数据? (转载)Sell side Quant是不是没前途了?
关于金融数据的处理 (转载)worldquant是不是现在不招人了?
Re: 关于金融数据的处理诚心请教职业规划
quant 用matlab要用matlab oop吗?继续做码工还是转risk support?
Structured product翻译成?问一下 有没有方法提高自己海量数据统计的经验
码工试题寻求建议:如何准备和这个面试官的电面?
求组各位大神:怎么把下面的三段话翻译成英文?此文提到了著名的mitbbs QUANT版
相关话题的讨论汇总
话题: 数据话题: 海量话题: 结构化话题: 桅杆话题: 大浪