由买买提看人间百态

boards

本页内容为未名空间相应帖子的节选和存档,一周内的贴子最多显示50字,超过一周显示500字 访问原贴
DataSciences版 - 问个大数据的问题
相关主题
1 big Hadoop&Hbase vs 1 Hadoop + 1 HbaseHow to prepare for the DS interview?
data scientist的五个方面有没有open source DB像greenplum那样同时支持RDBMS 和hadoop呢 (转载)
问个feature selection的问题有没有这样的软件?
三星samsung创新部门招大数据工程师 (转载)大数据日报 2015年2月楼
大妈想找数据库方面的工作 是否需要证书 在哪里上培训班?san bruno ds position
如何学习Hadoop?克劳迪亚 管理员 培训材料
Re: MapR Technologies continue hiring a lot of positions (转载)text mining中的relation extraction
Chief Data Scientist at NYCdatascientist几个基本问题
相关话题的讨论汇总
话题: data话题: sensor话题: 算法话题: 问题话题: anormaly
进入DataSciences版参与讨论
1 (共1页)
m******h
发帖数: 74
1
问个大数据的问题,
假设我有一个sensor,接受streaming data, 数据进来以后就process(一些general
的 signal processing, filtering, feature extracting), 目的是anormaly
detection, 所以输出是whether or not abormaly is detected. 这些是算法问题,可
以解决。
现在的问题是如果我有1 million 这样的sensor, 相互之间是独立的,每个sensor
streaming进来自己的data, 同样的data processing 算法来对它自己收到的data 做
anormaly detection。
怎么才能让这个big data 问题最优化? 怎么设计系统和平行算法?
我本人做算法,不是data scientist, 所以请教大牛们! 谢谢!
T*****u
发帖数: 7103
2
sensor独立是什么意思?sensor探测到的data相互独立吗?
m******h
发帖数: 74
3
是的,就是假设sensor探测到的data相互独立。信号处理算法只处理自己的sensor
data,不存在depend on data from other sensors.
谢谢!

【在 T*****u 的大作中提到】
: sensor独立是什么意思?sensor探测到的data相互独立吗?
l******n
发帖数: 9344
4
你要最优化什么?因为如果你的streaming data是连续的,那你的负载就完全均衡,假
设你有100个nodes,那就每个node处理10k的 sensor的data。
没啥可设计的

【在 m******h 的大作中提到】
: 问个大数据的问题,
: 假设我有一个sensor,接受streaming data, 数据进来以后就process(一些general
: 的 signal processing, filtering, feature extracting), 目的是anormaly
: detection, 所以输出是whether or not abormaly is detected. 这些是算法问题,可
: 以解决。
: 现在的问题是如果我有1 million 这样的sensor, 相互之间是独立的,每个sensor
: streaming进来自己的data, 同样的data processing 算法来对它自己收到的data 做
: anormaly detection。
: 怎么才能让这个big data 问题最优化? 怎么设计系统和平行算法?
: 我本人做算法,不是data scientist, 所以请教大牛们! 谢谢!

T*****u
发帖数: 7103
5
你要设计啥啊?是试图用最少的机器来handle anormaly吗?
m******h
发帖数: 74
6
谢谢上面两位的回答。我不是data scientist, 所以问的可能太general。
我知道肯定得distributed,但比如说怎么决定是100,还是1000 nodes,哪个更好?
1000 个nodes肯定更快,但有什么缺点? (数据传输?)
从data science 的角度, 怎么个分析处理这样的问题呢? 这是别人问我的一个open
问题,不是让我说个答案, 而是让我想想从仅仅处理一个sensor, 到要处理million 个
,怎么解决这个问题。
谢谢
o****n
发帖数: 348
7
你这个问题听起来更像分布式系统或者并行计算的问题
m******h
发帖数: 74
8
是啊,我以为hadoop什么的就是用分布式系统或者并行计算来解决问题,所以才来请教
的呀。
问我的人什么提示也没给,但我知道他们做的东西和grid computing, cloud
computing, hadoop, Hbase, Spark什么的有关。

【在 o****n 的大作中提到】
: 你这个问题听起来更像分布式系统或者并行计算的问题
j*******n
发帖数: 48
9
Sensor stream can be sharded. Check out aws kinesis.

【在 m******h 的大作中提到】
: 是啊,我以为hadoop什么的就是用分布式系统或者并行计算来解决问题,所以才来请教
: 的呀。
: 问我的人什么提示也没给,但我知道他们做的东西和grid computing, cloud
: computing, hadoop, Hbase, Spark什么的有关。

m******h
发帖数: 74
10
问个大数据的问题,
假设我有一个sensor,接受streaming data, 数据进来以后就process(一些general
的 signal processing, filtering, feature extracting), 目的是anormaly
detection, 所以输出是whether or not abormaly is detected. 这些是算法问题,可
以解决。
现在的问题是如果我有1 million 这样的sensor, 相互之间是独立的,每个sensor
streaming进来自己的data, 同样的data processing 算法来对它自己收到的data 做
anormaly detection。
怎么才能让这个big data 问题最优化? 怎么设计系统和平行算法?
我本人做算法,不是data scientist, 所以请教大牛们! 谢谢!
相关主题
如何学习Hadoop?How to prepare for the DS interview?
Re: MapR Technologies continue hiring a lot of positions (转载)有没有open source DB像greenplum那样同时支持RDBMS 和hadoop呢 (转载)
Chief Data Scientist at NYC有没有这样的软件?
进入DataSciences版参与讨论
T*****u
发帖数: 7103
11
sensor独立是什么意思?sensor探测到的data相互独立吗?
m******h
发帖数: 74
12
是的,就是假设sensor探测到的data相互独立。信号处理算法只处理自己的sensor
data,不存在depend on data from other sensors.
谢谢!

【在 T*****u 的大作中提到】
: sensor独立是什么意思?sensor探测到的data相互独立吗?
l******n
发帖数: 9344
13
你要最优化什么?因为如果你的streaming data是连续的,那你的负载就完全均衡,假
设你有100个nodes,那就每个node处理10k的 sensor的data。
没啥可设计的

【在 m******h 的大作中提到】
: 问个大数据的问题,
: 假设我有一个sensor,接受streaming data, 数据进来以后就process(一些general
: 的 signal processing, filtering, feature extracting), 目的是anormaly
: detection, 所以输出是whether or not abormaly is detected. 这些是算法问题,可
: 以解决。
: 现在的问题是如果我有1 million 这样的sensor, 相互之间是独立的,每个sensor
: streaming进来自己的data, 同样的data processing 算法来对它自己收到的data 做
: anormaly detection。
: 怎么才能让这个big data 问题最优化? 怎么设计系统和平行算法?
: 我本人做算法,不是data scientist, 所以请教大牛们! 谢谢!

T*****u
发帖数: 7103
14
你要设计啥啊?是试图用最少的机器来handle anormaly吗?
m******h
发帖数: 74
15
谢谢上面两位的回答。我不是data scientist, 所以问的可能太general。
我知道肯定得distributed,但比如说怎么决定是100,还是1000 nodes,哪个更好?
1000 个nodes肯定更快,但有什么缺点? (数据传输?)
从data science 的角度, 怎么个分析处理这样的问题呢? 这是别人问我的一个open
问题,不是让我说个答案, 而是让我想想从仅仅处理一个sensor, 到要处理million 个
,怎么解决这个问题。
谢谢
o****n
发帖数: 348
16
你这个问题听起来更像分布式系统或者并行计算的问题
m******h
发帖数: 74
17
是啊,我以为hadoop什么的就是用分布式系统或者并行计算来解决问题,所以才来请教
的呀。
问我的人什么提示也没给,但我知道他们做的东西和grid computing, cloud
computing, hadoop, Hbase, Spark什么的有关。

【在 o****n 的大作中提到】
: 你这个问题听起来更像分布式系统或者并行计算的问题
j*******n
发帖数: 48
18
Sensor stream can be sharded. Check out aws kinesis.

【在 m******h 的大作中提到】
: 是啊,我以为hadoop什么的就是用分布式系统或者并行计算来解决问题,所以才来请教
: 的呀。
: 问我的人什么提示也没给,但我知道他们做的东西和grid computing, cloud
: computing, hadoop, Hbase, Spark什么的有关。

m******h
发帖数: 74
19
谢谢! 简单看了一下,好像 aws kinesis 解决这个问题很有用。 深入学习中......

【在 j*******n 的大作中提到】
: Sensor stream can be sharded. Check out aws kinesis.
1 (共1页)
进入DataSciences版参与讨论
相关主题
datascientist几个基本问题大妈想找数据库方面的工作 是否需要证书 在哪里上培训班?
大数据时代的最大挑战(一)?如何学习Hadoop?
求问Facebook的data scientist ETL interview (转载)Re: MapR Technologies continue hiring a lot of positions (转载)
假如想实现 entity recognition, relation extraction这些功能的话,除了GATE, 还有 哪些其它的open source library。Chief Data Scientist at NYC
1 big Hadoop&Hbase vs 1 Hadoop + 1 HbaseHow to prepare for the DS interview?
data scientist的五个方面有没有open source DB像greenplum那样同时支持RDBMS 和hadoop呢 (转载)
问个feature selection的问题有没有这样的软件?
三星samsung创新部门招大数据工程师 (转载)大数据日报 2015年2月楼
相关话题的讨论汇总
话题: data话题: sensor话题: 算法话题: 问题话题: anormaly