关于pyspark的讨论汇总 - 话题女王

全部话题 - 话题: pyspark

w**2
发帖数: 147

来自主题: DataSciences版 - 急，跪求答案 (moving avg using spark dataframe window functions)

请教大牛们，如何用window functions来算出 3day moving avg。那个error msg看不
懂呢，为啥要hive context。
多谢了～
例子如下，
from pyspark.sql import Window
from pyspark.sql import SQLContext
import pyspark.sql.functions as func
Table T:
Date Num
07/01 2
07/02 3
07/03 2
07/04 2
07/05 5
07/06 6
07/07 7
sqlCtx = SQLContext(sc)
T.registerTempTable(“T”)
w = Window.partitionBy(T.Date).orderBy(T.Date).rangeBetween(-2,0)
a = (func.avg(T["Num"]).over(w))
T.select(T["Date"],T["Num"],a.alias("... 阅读全帖

w********m
发帖数: 1137

来自主题: Programming版 - error of couting total line number in txt file on MSDOS (转载)

用python吧
空间O(1），时间O(n)
cnt = 0
with open('file.txt', 'r') as infile:
for _ in infile:
cnt += 1
print cnt
空间O(n), 时间O(n/k)
import pyspark
sc = pyspark.SparkContext()
infile = sc.textFile('file.txt')
print infile.count()

S*******e
发帖数: 525

来自主题: DataSciences版 - 急，跪求答案 (moving avg using spark dataframe window functions)

SQLContext only supports very limited SQL functions. HiveContext supports
many functions such as what you need. Anything SQLContext supports, the
HiveContext will support.
I think you only change "from pyspark.sql import SQLContext ", to
"from pyspark.sql import HiveContext " and change "sqlCtx = SQLContext(sc)"
to "sqlCtx = HiveContext(sc)" will work (by the way, I have very limited
knowledge on python. I mainly use Java to do Spark).

s****y
发帖数: 581

来自主题: Military版 - 哪位将军懂data engineering的请进

请解释一下seed=1在建立spark 的Naive bayes的model 时在split的时候，seed是干什
么用的？
用的pyspark.
splits = iviris_df.randomSplit([0.7,0.3],1)
Thanks a lot!

s*****r
发帖数: 43070

来自主题: JobHunting版 - 华人大妈谈deep learning的未来，大家怎么看？

大妈们还是去谈包，谈男人吧。
会用regression解决business问题就是ML
偏技术的：先说偏统计的吧。这部分人介于data analyst跟machine learning
engineer之间，对技术要求比较全面，既要会sql，也要会用编程语言写一些模型的
prototype，比如predict churn rate，用最简单的logistic regression就可以解决，
但是你的code不是用一次就行，要每个月，甚至每周都用，所以要搭建一些pipeline可
以让这个过程automate一下。所以对编程还是有一定要求的。有些公司用的大数据框架
，你可能就得用spark。python的同学都在用pyspark。另外还要有一定的business
sense，知道你做的模型能够解决什么business 问题，有什么impact。另外还有一部分
人专门做实验设计，这块我不是很懂，所以不多说了。我觉得这部分人其实是个full
stack的要求。但是如果你是技术类型的，即便不是统计cs科班出身，努努力还是可以
入行的。

b********e
发帖数: 151

来自主题: JobHunting版 - 我这条件能找到data analyst的工作吗？

还可以
要自己学会包装
有些DA流行的课程得学一下（python, DB, ...）
http://www.01training.com/slider/python-for-data/
http://www.01training.com/slider/pyspark/
简历要包装下，要有项目经验，
一个老视频了，
看看吧
https://www.youtube.com/watch?v=124BJNm33Ok

w***g
发帖数: 5958

来自主题: Programming版 - 试了下spark，不过如此啊

在mapr上的spark vs hive，数文件行数。四台服务器一共330134452行。
hive 49.162s
spark-shell 43.590s
pyspark 67.182s
也就一般般而已。

z****e
发帖数: 54598

来自主题: Programming版 - Spark会干掉Storm吗？

python提供的tool好像更多一点
除了pyspark以外可以用numpy
如果只是用的话，用python还有更多东西可以用

g****e
发帖数: 167

来自主题: Programming版 - Pyspark 怎么format output?

刚开始接触spark. 我只会用SaveAsTextFile 保存结果，但是结果需要formatting. 请
问有什么办法可以format么？多谢！

w********m
发帖数: 1137

来自主题: Programming版 - Pyspark 怎么format output?

PrettyTable?

g****e
发帖数: 167

来自主题: Programming版 - Pyspark 怎么format output?

不错。这个东西有map-reduce版本么？我的table超级大。

w********m
发帖数: 1137

来自主题: Programming版 - 有人上Spark用python API的么

1.3之前pyspark很慢。
1.3之后有了dataFrame，python优化得比scala都快了。重要的是单机的pandas直接移
植。
所以建议无脑上python。

f*********t
发帖数: 17

来自主题: Programming版 - scala/spark现在情况怎样？

give pySpark a try?

N*****m
发帖数: 42603

来自主题: Programming版 - 继续纠结spark

其实用pyspark也挺好，比较容易懂

w***g
发帖数: 5958

来自主题: Programming版 - 继续纠结spark

速度怎么样？我刚开始就是用的pyspark，后来发现用scala快１０倍以上才转的。
我们数据量还是比较大的，而且老板应该是天天盼望还能爆炸性增长。
不然我弄到一台机器上用C++算还能快点，就怕哪天真的爆炸了单机抗不住。
上次我来版上抱怨那次就已经加了注释了，并且把若干超长的行拆散了。
不然日子真的没发过了。

N*****m
发帖数: 42603

来自主题: Programming版 - 继续纠结spark

pyspark的性能肯定不如native jvm
但是如果你对scala不熟，未必就能写出比python快的
然后还有一些特殊的情况，比如有些库，python直接用的c libraries，这样就比scala
快了
这里有个例子：
http://stackoverflow.com/questions/32464122/spark-performance-f

a****f
发帖数: 17

来自主题: Programming版 - 向版上大牛们请教一个spark的问题，多谢！

in pyspark
def add_line(lines):
yield 'from spark'
for line in lines:
yield line
rdd. mapPartition(add_line)

10

n*****3
发帖数: 1584

来自主题: Programming版 - 关于搞ML刷数据的职业前途

我觉得要两方面都会，精通一方面。因为 predition oriteded 的 system 会有越
来越大的需求
会搭Web 人很多，
会ML , ststistics 人也一堆
btw a quick question is 你们用 Python， or
pyspark for real time system 吗？
还是最后都换到 JVM based system?

really
taking
go

M********0
发帖数: 1230

来自主题: Programming版 - 单机学习spark/hadoop的方案？

推荐按照cloudera的CDH配一个虚拟机或者本机都行楼主应该是做DM/ML的所以没必
要花时间学java写MR code
直接学spark吧能用scala就用要不就Pyspark 教程youtube 联系就先用spark
summit上的几个case 弄熟了再随便网上抓data跑
这个东西其实上手还蛮快的一周左右感觉就intro了我当时还把那本learning spark
的书里面大部分章节看了看
不过专门招spark的职位好像非常少所以这个只能是个plus 就算公司里用spark 你进
去了也未必要用当然本着学习的态度了解和掌握一下肯定没有坏处
楼主加油

n*****3
发帖数: 1584

来自主题: Programming版 - 准备因为用spark开始学scala

rdd is gone for sure, pyspark or scala spark , not sure
I do not think Java has a chance here

T*****u
发帖数: 7103

来自主题: Programming版 - 问个spark的问题

在emr上跑了一个spark的cluster, 想用它处理我们在rds上postgres里的数据
ssh到master, run
/usr/lib/spark/bin/pyspark --driver-class-path ./postgresql-9.4.1211.jar --
conf spark.executor.extraClassPath=./postgresql-9.4.1211.jar --jars ./
postgresql-9.4.1211.jar
进去之后然后运行
>>> df = spark.read.format('jdbc').options(url=dbstring).options(dbtable='
users').options(driver='org.postgresql.Driver').load()
在本地的docker里面都没问题。但在这里出现问题
py4j.protocol.Py4JJavaError: An error occurred while calling o53.load.
在security group里面加了inbound
P... 阅读全帖

m****o
发帖数: 182

来自主题: Programming版 - 一个关于多个Python 程序共享数据结构的问题

直接上pyspark吧

r**********9
发帖数: 19633

来自主题: Statistics版 - Sr. analyst年薪上十万是不是特别难？

python没有你想的那么难，它有不少内置function。你每天9点半到10点半可以学习会
儿，早上早起半小时，每天学1.5小时，积少成多，你找个小project练习，几个月就可
以掌握一门语言。big data对coding要求挺高，你试试pyspark，慢慢来，我自己
modeling，coding都是菜鸟，不过也稍微入门了些，只要你面对这些困难，慢慢解决总
能掌握它们

g****e
发帖数: 167

来自主题: DataSciences版 - 大家觉得Weka和Python比较如何?

Python 可跑 Spark. 参见Pyspark

g****e
发帖数: 167

来自主题: DataSciences版 - Pyspark 怎么format output?

刚开始接触spark. 我只会用SaveAsTextFile 保存结果，但是结果需要formatting. 请
问有什么办法可以format么？多谢！

w**2
发帖数: 147

来自主题: DataSciences版 - pyspark subtract 如何使用？

请教spark的大牛，
有两个rdd，请问如何得到一个rdd的补集。
比如rdd1 - rdd2。
我用的是python，但是subtract好像不管用呢。
如果不用subtract，还有哪些其他的方法？
多谢了。

Z**0
发帖数: 1119

来自主题: DataSciences版 - pyspark subtract 如何使用？

你没有给出来为什么substract用不了，或者出了什么问题。
toy example
rdd1 = sc.parallelize(range(10))
rdd2 = sc.parallelize(range(5))
rdd1.subtract(rdd2).collect()
[8, 9, 5, 6, 7]
rdd2.subtract(rdd1).collect()
[]

w**2
发帖数: 147

来自主题: DataSciences版 - pyspark subtract 如何使用？

谢谢你的回复。
我现在是有一个dataset，然后我已经随机选择了80%左右的data(labeledPoint)作为
training dataset，
然后我想把training的数据从整体中除去。
注： parsed_date是整体的数据。
train_data = parsed_data.takeSample(False, int(0.8*parsed_data.count()))
train_data = sc.parallelize(train_data)
test_data = parsed_data.subtract(train_data)
可是test_date.count() 等于整体数据的大小，training data没有被减掉。我试了你
的方法，还是没能解决。

e********9
发帖数: 444

来自主题: DataSciences版 - pyspark subtract 如何使用？

用randomSplit可以实现分割数据集

Z**0
发帖数: 1119

来自主题: DataSciences版 - pyspark subtract 如何使用？

spark提供了一个专门的函数，randomSplit。
trainingData, testData = rawData.randomSplit([0.8,0.2], 10)

w**2
发帖数: 147

来自主题: DataSciences版 - pyspark subtract 如何使用？

搞定了，多谢！

w**2
发帖数: 147

来自主题: DataSciences版 - pyspark subtract 如何使用？

嗯，解决了。多谢！

r***w
发帖数: 71

来自主题: DataSciences版 - pyspark subtract 如何使用？

求补集可以用 filter() 搞定。

w**2
发帖数: 147

来自主题: DataSciences版 - pyspark subtract 如何使用？

好的，弱问一下在这个情况下filter在如何使用？谢谢

w**2
发帖数: 147

来自主题: DataSciences版 - 如何改变spark dataframe的column names

Thank you everyone.
I am using pyspark and I did:
df = df.withColumnRenamed("old","new")
It worked!

#	版面	帖数(主题数)
-	全站	4871 (796)
1	Military	3777 (569)
2	Stock	341 (51)
3	Joke	117 (17)
4	History	116 (3)
5	Automobile	100 (9)
6	USANews	55 (9)
7	Midlife	45 (1)
8	Headline	41 (41)
9	Dreamer	33 (13)
10	FleaMarket	32 (20)
11	Living	30 (7)

topics

未名新帖统计// 7月16日

历史上的今天