pyspark subtract 如何使用？ - DataSciences版 - 未名存档

本页内容为未名空间相应帖子的节选和存档，一周内的贴子最多显示50字，超过一周显示500字访问原贴

DataSciences版 - pyspark subtract 如何使用？

相关主题
● R 里面random forest score新的data有new level的问题	● Insight Data Science Fellow Program 有人参加吗？
● training dataset和unbalanced dataset的设计	● Pyspark 怎么format output?
● 大家觉得Weka和Python比较如何?	● [Data Science Project Case] Parsing URLS
● big data software engineer或者data scientist 工作机会推荐 (转载)	● Role mining
● 【免费讲座】如何面试大数据开发职位（4/7 8PM CDT）	● Random forests on imbalanced data
● 讨论，（Big）Data Engineer到底是个什么职位	● datascientist几个基本问题
● A Collection of Data Science Take-Home Challenges	● ask for help for R programming (转载)
● 请问今年有Big Data的短期training培训吗（美国）？	● R describe dataset

相关话题的讨论汇总
话题: subtract话题: pyspark话题: data话题: rdd2话题: rdd1

进入DataSciences版参与讨论

1

(共1页)

w**2 发帖数: 147	1 请教spark的大牛，有两个rdd，请问如何得到一个rdd的补集。比如rdd1 - rdd2。我用的是python，但是subtract好像不管用呢。如果不用subtract，还有哪些其他的方法？多谢了。
Z**0 发帖数: 1119	2 你没有给出来为什么substract用不了，或者出了什么问题。 toy example rdd1 = sc.parallelize(range(10)) rdd2 = sc.parallelize(range(5)) rdd1.subtract(rdd2).collect() [8, 9, 5, 6, 7] rdd2.subtract(rdd1).collect() []
w**2 发帖数: 147	3 谢谢你的回复。我现在是有一个dataset，然后我已经随机选择了80%左右的data(labeledPoint)作为 training dataset，然后我想把training的数据从整体中除去。注： parsed_date是整体的数据。 train_data = parsed_data.takeSample(False, int(0.8*parsed_data.count())) train_data = sc.parallelize(train_data) test_data = parsed_data.subtract(train_data) 可是test_date.count() 等于整体数据的大小，training data没有被减掉。我试了你的方法，还是没能解决。
e********9 发帖数: 444	4 用randomSplit可以实现分割数据集【在 w*2 的大作中提到】 : 谢谢你的回复。 : 我现在是有一个dataset，然后我已经随机选择了80%左右的data(labeledPoint)作为 : training dataset， : 然后我想把training的数据从整体中除去。 : 注： parsed_date是整体的数据。 : train_data = parsed_data.takeSample(False, int(0.8parsed_data.count())) : train_data = sc.parallelize(train_data) : test_data = parsed_data.subtract(train_data) : 可是test_date.count() 等于整体数据的大小，training data没有被减掉。我试了你 : 的方法，还是没能解决。
Z**0 发帖数: 1119	5 spark提供了一个专门的函数，randomSplit。 trainingData, testData = rawData.randomSplit([0.8,0.2], 10) 【在 w*2 的大作中提到】 : 谢谢你的回复。 : 我现在是有一个dataset，然后我已经随机选择了80%左右的data(labeledPoint)作为 : training dataset， : 然后我想把training的数据从整体中除去。 : 注： parsed_date是整体的数据。 : train_data = parsed_data.takeSample(False, int(0.8parsed_data.count())) : train_data = sc.parallelize(train_data) : test_data = parsed_data.subtract(train_data) : 可是test_date.count() 等于整体数据的大小，training data没有被减掉。我试了你 : 的方法，还是没能解决。
w**2 发帖数: 147	6 搞定了，多谢！【在 Z**0 的大作中提到】 : spark提供了一个专门的函数，randomSplit。 : trainingData, testData = rawData.randomSplit([0.8,0.2], 10)
w**2 发帖数: 147	7 嗯，解决了。多谢！【在 e********9 的大作中提到】 : 用randomSplit可以实现分割数据集
r***w 发帖数: 71	8 求补集可以用 filter() 搞定。【在 w**2 的大作中提到】 : 请教spark的大牛， : 有两个rdd，请问如何得到一个rdd的补集。 : 比如rdd1 - rdd2。 : 我用的是python，但是subtract好像不管用呢。 : 如果不用subtract，还有哪些其他的方法？ : 多谢了。
w**2 发帖数: 147	9 好的，弱问一下在这个情况下filter在如何使用？谢谢【在 r***w 的大作中提到】 : 求补集可以用 filter() 搞定。

1

(共1页)

进入DataSciences版参与讨论

相关主题
● R describe dataset	● 【免费讲座】如何面试大数据开发职位（4/7 8PM CDT）
● 请教一个R问题：怎么rbind一系列data，如data1，data2,....data1000	● 讨论，（Big）Data Engineer到底是个什么职位
● Senior Data Scientist in NC	● A Collection of Data Science Take-Home Challenges
● Need senior data analyst - Seattle (转载)	● 请问今年有Big Data的短期training培训吗（美国）？
● R 里面random forest score新的data有new level的问题	● Insight Data Science Fellow Program 有人参加吗？
● training dataset和unbalanced dataset的设计	● Pyspark 怎么format output?
● 大家觉得Weka和Python比较如何?	● [Data Science Project Case] Parsing URLS
● big data software engineer或者data scientist 工作机会推荐 (转载)	● Role mining

相关话题的讨论汇总
话题: subtract话题: pyspark话题: data话题: rdd2话题: rdd1

未名新帖统计// 7月16日

#	版面	帖数(主题数)
-	全站	4871 (796)
1	Military	3777 (569)
2	Stock	341 (51)
3	Joke	117 (17)
4	History	116 (3)
5	Automobile	100 (9)
6	USANews	55 (9)
7	Midlife	45 (1)
8	Headline	41 (41)
9	Dreamer	33 (13)
10	FleaMarket	32 (20)
11	Living	30 (7)

* 这里只显示发帖超过25的版面，努力灌水吧:-)