w**2 发帖数: 147 | 1 请教spark的大牛,
有两个rdd,请问如何得到一个rdd的补集。
比如rdd1 - rdd2。
我用的是python,但是subtract好像不管用呢。
如果不用subtract,还有哪些其他的方法?
多谢了。 |
Z**0 发帖数: 1119 | 2 你没有给出来为什么substract用不了,或者出了什么问题。
toy example
rdd1 = sc.parallelize(range(10))
rdd2 = sc.parallelize(range(5))
rdd1.subtract(rdd2).collect()
[8, 9, 5, 6, 7]
rdd2.subtract(rdd1).collect()
[] |
w**2 发帖数: 147 | 3 谢谢 你的回复。
我现在是有一个dataset,然后我已经随机选择了80%左右的data(labeledPoint)作为
training dataset,
然后我想把training的数据从整体中除去。
注: parsed_date是整体的数据。
train_data = parsed_data.takeSample(False, int(0.8*parsed_data.count()))
train_data = sc.parallelize(train_data)
test_data = parsed_data.subtract(train_data)
可是test_date.count() 等于整体数据的大小,training data没有被减掉。 我试了你
的方法,还是没能解决。 |
e********9 发帖数: 444 | 4 用randomSplit可以实现分割数据集
【在 w**2 的大作中提到】 : 谢谢 你的回复。 : 我现在是有一个dataset,然后我已经随机选择了80%左右的data(labeledPoint)作为 : training dataset, : 然后我想把training的数据从整体中除去。 : 注: parsed_date是整体的数据。 : train_data = parsed_data.takeSample(False, int(0.8*parsed_data.count())) : train_data = sc.parallelize(train_data) : test_data = parsed_data.subtract(train_data) : 可是test_date.count() 等于整体数据的大小,training data没有被减掉。 我试了你 : 的方法,还是没能解决。
|
Z**0 发帖数: 1119 | 5 spark提供了一个专门的函数,randomSplit。
trainingData, testData = rawData.randomSplit([0.8,0.2], 10)
【在 w**2 的大作中提到】 : 谢谢 你的回复。 : 我现在是有一个dataset,然后我已经随机选择了80%左右的data(labeledPoint)作为 : training dataset, : 然后我想把training的数据从整体中除去。 : 注: parsed_date是整体的数据。 : train_data = parsed_data.takeSample(False, int(0.8*parsed_data.count())) : train_data = sc.parallelize(train_data) : test_data = parsed_data.subtract(train_data) : 可是test_date.count() 等于整体数据的大小,training data没有被减掉。 我试了你 : 的方法,还是没能解决。
|
w**2 发帖数: 147 | 6 搞定了,多谢!
【在 Z**0 的大作中提到】 : spark提供了一个专门的函数,randomSplit。 : trainingData, testData = rawData.randomSplit([0.8,0.2], 10)
|
w**2 发帖数: 147 | 7 嗯,解决了。多谢!
【在 e********9 的大作中提到】 : 用randomSplit可以实现分割数据集
|
r***w 发帖数: 71 | 8 求补集可以用 filter() 搞定。
【在 w**2 的大作中提到】 : 请教spark的大牛, : 有两个rdd,请问如何得到一个rdd的补集。 : 比如rdd1 - rdd2。 : 我用的是python,但是subtract好像不管用呢。 : 如果不用subtract,还有哪些其他的方法? : 多谢了。
|
w**2 发帖数: 147 | 9 好的,弱问一下在这个情况下filter在如何使用?谢谢
【在 r***w 的大作中提到】 : 求补集可以用 filter() 搞定。
|