由买买提看人间百态

boards

本页内容为未名空间相应帖子的节选和存档,一周内的贴子最多显示50字,超过一周显示500字 访问原贴
DataSciences版 - pyspark subtract 如何使用?
相关主题
R 里面random forest score新的data有new level的问题Insight Data Science Fellow Program 有人参加吗?
training dataset和unbalanced dataset的设计Pyspark 怎么format output?
大家觉得Weka和Python比较如何?[Data Science Project Case] Parsing URLS
big data software engineer或者data scientist 工作机会推荐 (转载)Role mining
【免费讲座】如何面试大数据开发职位(4/7 8PM CDT)Random forests on imbalanced data
讨论,(Big)Data Engineer到底是个什么职位datascientist几个基本问题
A Collection of Data Science Take-Home Challengesask for help for R programming (转载)
请问今年有Big Data的短期training培训吗(美国)?R describe dataset
相关话题的讨论汇总
话题: subtract话题: pyspark话题: data话题: rdd2话题: rdd1
进入DataSciences版参与讨论
1 (共1页)
w**2
发帖数: 147
1
请教spark的大牛,
有两个rdd,请问如何得到一个rdd的补集。
比如rdd1 - rdd2。
我用的是python,但是subtract好像不管用呢。
如果不用subtract,还有哪些其他的方法?
多谢了。
Z**0
发帖数: 1119
2
你没有给出来为什么substract用不了,或者出了什么问题。
toy example
rdd1 = sc.parallelize(range(10))
rdd2 = sc.parallelize(range(5))
rdd1.subtract(rdd2).collect()
[8, 9, 5, 6, 7]
rdd2.subtract(rdd1).collect()
[]
w**2
发帖数: 147
3
谢谢 你的回复。
我现在是有一个dataset,然后我已经随机选择了80%左右的data(labeledPoint)作为
training dataset,
然后我想把training的数据从整体中除去。
注: parsed_date是整体的数据。
train_data = parsed_data.takeSample(False, int(0.8*parsed_data.count()))
train_data = sc.parallelize(train_data)
test_data = parsed_data.subtract(train_data)
可是test_date.count() 等于整体数据的大小,training data没有被减掉。 我试了你
的方法,还是没能解决。
e********9
发帖数: 444
4
用randomSplit可以实现分割数据集

【在 w**2 的大作中提到】
: 谢谢 你的回复。
: 我现在是有一个dataset,然后我已经随机选择了80%左右的data(labeledPoint)作为
: training dataset,
: 然后我想把training的数据从整体中除去。
: 注: parsed_date是整体的数据。
: train_data = parsed_data.takeSample(False, int(0.8*parsed_data.count()))
: train_data = sc.parallelize(train_data)
: test_data = parsed_data.subtract(train_data)
: 可是test_date.count() 等于整体数据的大小,training data没有被减掉。 我试了你
: 的方法,还是没能解决。

Z**0
发帖数: 1119
5
spark提供了一个专门的函数,randomSplit。
trainingData, testData = rawData.randomSplit([0.8,0.2], 10)

【在 w**2 的大作中提到】
: 谢谢 你的回复。
: 我现在是有一个dataset,然后我已经随机选择了80%左右的data(labeledPoint)作为
: training dataset,
: 然后我想把training的数据从整体中除去。
: 注: parsed_date是整体的数据。
: train_data = parsed_data.takeSample(False, int(0.8*parsed_data.count()))
: train_data = sc.parallelize(train_data)
: test_data = parsed_data.subtract(train_data)
: 可是test_date.count() 等于整体数据的大小,training data没有被减掉。 我试了你
: 的方法,还是没能解决。

w**2
发帖数: 147
6
搞定了,多谢!

【在 Z**0 的大作中提到】
: spark提供了一个专门的函数,randomSplit。
: trainingData, testData = rawData.randomSplit([0.8,0.2], 10)

w**2
发帖数: 147
7
嗯,解决了。多谢!

【在 e********9 的大作中提到】
: 用randomSplit可以实现分割数据集
r***w
发帖数: 71
8
求补集可以用 filter() 搞定。

【在 w**2 的大作中提到】
: 请教spark的大牛,
: 有两个rdd,请问如何得到一个rdd的补集。
: 比如rdd1 - rdd2。
: 我用的是python,但是subtract好像不管用呢。
: 如果不用subtract,还有哪些其他的方法?
: 多谢了。

w**2
发帖数: 147
9
好的,弱问一下在这个情况下filter在如何使用?谢谢

【在 r***w 的大作中提到】
: 求补集可以用 filter() 搞定。
1 (共1页)
进入DataSciences版参与讨论
相关主题
R describe dataset【免费讲座】如何面试大数据开发职位(4/7 8PM CDT)
请教一个R问题:怎么rbind一系列data,如data1,data2,....data1000讨论,(Big)Data Engineer到底是个什么职位
Senior Data Scientist in NCA Collection of Data Science Take-Home Challenges
Need senior data analyst - Seattle (转载)请问今年有Big Data的短期training培训吗(美国)?
R 里面random forest score新的data有new level的问题Insight Data Science Fellow Program 有人参加吗?
training dataset和unbalanced dataset的设计Pyspark 怎么format output?
大家觉得Weka和Python比较如何?[Data Science Project Case] Parsing URLS
big data software engineer或者data scientist 工作机会推荐 (转载)Role mining
相关话题的讨论汇总
话题: subtract话题: pyspark话题: data话题: rdd2话题: rdd1