关于mllib的讨论汇总 - 话题女王

C********e
发帖数: 492

code肯定没问题，就是原样的example的code
http://spark.apache.org/docs/latest/mllib-optimization.html
我先load了data，然后random split：
val splits = data.randomSplit(Array(0.6, 0.4), seed = 11L)
val training = splits(0).map(x => (x.label, MLUtils.appendBias(x.features)))
.cache()
不论我用0.6, 0.4比例，还是别的比如0.9, 0.1，任务控制页面看到的input size都是
一样的；
如果我事先把data按照某个比例分好training和testing，分别load进来，不用那个
randomsplit来分，那么能看到input size会相应变化

m***r
发帖数: 359

来自主题: DataSciences版 - 机器学习日报 2015年3月楼

机器学习日报 2015-03-13
@好东西传送门出品, 过刊见
http://ml.memect.com
订阅：给 [email protected]
/* */ 发封空信，标题: 订阅机器学习日报
更好看的HTML版
http://ml.memect.com/archive/2015-03-13/short.html
1) 【多智能自然语言处理】 by @刘知远THU
关键词：深度学习, 自然语言处理, 问答系统, 赵东岩, 周明
计算机学会通讯2015年第3期专题是周明老师和赵东岩老师主持的《多智能自然语言处
理》，很多有意思的文章，例如深度学习在自然语言处理中的应用，基于社会媒体的
预测技术，从问答系统看知识智能，拥抱社会智能，等等。 [1]
[1] http://www.ccf.org.cn/sites/ccf/jsjtbbd.jsp?contentId=2851766225495
2) 【计算机辅助翻译推荐作者】 by @青鸟leo翻译之声
关键词：资源, 自然语言处理, 崔启亮, 机器翻译, 钱多秀, 书籍, 王华树, 王华伟,
徐彬, 闫栗丽, 张霄军... 阅读全帖

m***r
发帖数: 359

来自主题: DataSciences版 - 机器学习日报 2015年3月楼

z*******3
发帖数: 13709

来自主题: JobHunting版 - 请教有关bigdata工作的大概面试内容

你说的这些产品加上cap和nosql的原理搞下来也不需要一周
背背就好了，你没用hadoop，人家也不会问你api细节
除非你骗他们说你做过，但是估计你也不敢，骗人一旦被拆穿，更麻烦
但是就算你全搞懂也不能说是big data啊
至少要把spark上mllib里面那些的method弄明白
才算入了门，后面文章太大了，整个高等数学都可以往里面套
mllib目前还只是一点text analysis阶段，还没有真正开始
不过千里之行，始于足下，对方既然想知道你懂多少，那多半要探你底
会往深了问，所以你其实可以放手一搏，哪怕只是了解皮毛，那又怎样？
你懂皮毛比不懂皮毛就要好一点，有这个积极的心态，我想是个人都会喜欢的
所以如果你不懂map reduce，nosql和cap，那就去看懂吧
没用过，那就去用吧，所有人不都是从不懂到懂的么？
已经懂的就不要再弄了，你懂的再弄，marginal gain会严重缩水
不懂的东西，你投入一点，就能有很大收获
很多东西都是开始的80％，你只要投入20％就能搞懂了
剩下的20％，你要投入80％的力气才能搞懂，那如果这个东西不用了
那我觉得你还不如把那80％的力... 阅读全帖

z****e
发帖数: 54598

来自主题: Programming版 - 已经全上内存了，还要40多秒啊

你真无聊，wdong啊
其他人在datasciences发的那篇clustering的论文我看spark上mllib还没有实现
现在mllib只有最简单的k means
你可以考虑一下做出来嘛
青史留名的东西哦
比你在这里灌这种算术的废水那是要强太多了
那篇论文你应该能看到，你的大学应该会帮你
实在看不到，我可以发给你
还有plsi和lda也都没实现
bm25也没看到

z****e
发帖数: 54598

来自主题: Programming版 - 已经全上内存了，还要40多秒啊

猴屁股，我说说我的理解
虽然说spark的idea很容易理解
无非建cache，把硬盘上的数据读入内存
但是后续的操作，往往需要频繁滴access这些数据
比如mllib里面的k means, svd, vsm这些
都需要频繁滴access data，如果你自己去建cache
当然也可以，但是有工具帮你做这些事，何乐而不为不是？
更何况，现在mllib这些pkg已经放到spark上了
如果自己做，那就需要自己去找这些pkg，然后自己去动手去做整合
那这里面狗血的事情经常发生，所以spark能提供一些简易的工具是好事
另外我听说scala能够优化执行效率
这个因为俺从来都懒得研究字节码这些东西
怎么优化实在没力气投入，所以他们说是这样，那就是吧
这里面有优化的空间，有人能够优化，而且又不收费，为啥不要呢？
这是我觉得spark的两个主要意义

D***n
发帖数: 6804

来自主题: Programming版 - 请不要盲目崇拜FP语言

MLlib uses the linear algebra package Breeze, which depends on netlib-java,
and jblas. netlib-java and jblas depend on native Fortran routines. You need
to install the gfortran runtime library if it is not already present on
your nodes. MLlib will throw a linking error if it cannot detect these
libraries automatically.
LOL
Spark用的是你仇恨的Fortran做后台计算，没libgfortain都运行不了。
你还扯什么蛋？你现在都没安装过SPARK么。

z****e
发帖数: 54598

来自主题: Programming版 - 搞不懂为什么大牛说Hbase不如C*?

/.
standalone可以单独部署在集群上，并不是一个toy example用的
我倒是很奇怪，你们居然没有丢掉yarn这些东西
不过我是不用yarn，我觉得yarn太过于复杂了
大部分工作我用vert.x可以很快完成，直接操作c*，调度我自己写
yarn一堆api搞得跟ejb一样繁琐，什么container，context都来了
spark应该是直接替换yarn，这才是standalone模式的初衷
这个应该才是spark最初的目的才对，而不是run spark over yarn
这个感觉怪怪的，反正我不用yarn，不知道其他人怎样
对于spark的需求主要集中在mllib，其他的其实没啥，如果是streaming的话
用storm就好，不过我也不想这样换来换去，如果flink将来能解决这个问题的话
我就切换到flink上去，反正我现在也只用了mllib
剩下的crud，这个不用spark/flink这些，直接用c*的api就可以做很多了
cql连查询都帮你搞了不少，就更没有必要麻烦spark/flink了

z*******3
发帖数: 13709

来自主题: Programming版 - IBM is all into Spark

spark的streaming的对比看这个slides
http://www.slideshare.net/ptgoetz/apache-storm-vs-spark-streami
flink还没推出，但是从设计上看，应该不会有类似的问题
我感觉最近streaming的需求越来越强烈
需要一个针对前后端都能够搞streaming的东东
vert.x是一个很不错的选择，但是vert.x对付c*之类的nosql，还显得工具偏少
另外mllib这些lib目前只能host在spark,flink这些上面，vert.x还缺少类似的libs
vert.x毕竟更为general一些，但其实你自己琢磨琢磨也没啥难的
无非那么一回事了，mapreduce那些api，跟rxjava有很大重叠
可以用rxjava实现一遍，主要是算法，mllib部分，clustering，svm etc.
api的话，什么flatmap，streaming之类的rx都有了，vert.x成熟之后大有可为
vert.x, rxjava, flink这些逐步走向成熟，过程值得学习和参考
当然spark之类已经取得巨大成功的更值得... 阅读全帖

z*******3
发帖数: 13709

来自主题: Programming版 - IBM is all into Spark

其实不发散，server内存计算从来都是一大块
不管用来做mllib还是用来搞游戏server
persistence未必算，但是mllib这些从本质上说就应该归类到内存运算中去
spark就强调内存计算而非存储嘛，就离一般的vert.x做的那些很近了
这个你看db历史就知道，最早server那些都被认为是db的映射
后来ejb什么出来改变了这个局面，现在nosql也是如此
最早都被认为是hdfs等的映射，现在慢慢脱离这个依赖

c******n
发帖数: 4965

来自主题: Programming版 - 越来越觉得spark是niche

"很小范围"????? u seem to be equating spark to mllib on spark.
spark itself is a generic hadoop MR replacement, mllib is simply a "demo"
application on top of this platform

s****h
发帖数: 3979

来自主题: DataSciences版 - questions about SVD and ALSWR for collaborative filtering

two questions:
1.
For recommendation engine based on collaborative filtering, the result of
ALSWR in Mahout would be very similar to result of SVD in MLlib of spark,
right?
As the SVD with spark + MLlib performance is very good, can we forget about
ALSWR in Mahout?
2.
How to evaluate SVD?
My understanding: for a known user/item matrix M, we remove some of the
known user/item pair and get new matrix M1, then do the SVD for M1 and get
the reconstructed matrix M2. Comparing removed user/item pairs ... 阅读全帖

m***r
发帖数: 359

来自主题: DataSciences版 - 机器学习日报 2015-01-29 LDA入门与Java实现

(今天实验一下专为mitbbs排版的机器学习日报，欢迎大家拍砖)
机器学习日报 2015-01-29
@好东西传送门出品, 过刊见
http://ml.memect.com
订阅：给 [email protected]
/* */ 发封空信，标题: 订阅机器学习日报
更好看的HTML版
http://ml.memect.com/archive/2015-01-29/short.html
1) 【LDA入门与Java实现】 by @hankcs
关键词：算法, 自然语言处理, Java, 主题模型
【LDA入门与Java实现】这是一篇面向工程师的LDA入门笔记，并且提供一份开箱即用
Java实现。本文只记录基本概念与原理，并不涉及公式推导。文中的LDA实现核心部分
采用了arbylon的LdaGibbsSampler并力所能及地注解了，在搜狗分类语料库上测试良好
，开源在GitHub上。什么… [1]
[1] http://www.hankcs.com/nlp/lda-java-introduction-and-implementation.html
2) 【Radim... 阅读全帖

v*******e
发帖数: 3714

来自主题: DataSciences版 - spark 问题

你看看 MLlib 上 cosine similarity 的 source code，直接用或者自己改一下应该没
问题吧
https://github.com/apache/spark/blob/master/examples/src/main/scala/org/
apache/spark/examples/mllib/CosineSimilarity.scala

d********w
发帖数: 363

来自主题: JobHunting版 - Hadoop Spark 学习小结[2014版]

基于很多朋友希望更新这个学习资料，我就尽力按我的积累补充，are you ready, 享
受技术饕餮大餐
#Hadoop
Hadoop社区依然发展迅速，2014年推出了2.3，2.4, 2.5 的社区版本，比如增强
Resource Manager HA,
YARN Rest API, ACL on HDFS...
http://hadoop.apache.org/releases.html
根据我的观察，主要更新在Yarn，HDFS，而Mapreduce几乎停滞了，还有一些feature
属于安全，稳定可靠性一方面也是比较稳定了，但也可以说是瓶颈了。
http://hadoop.apache.org/who.html
这个是Hadoop project member and committee, 里面好多来自Hortonworks，不过也有
不少国人加入了，都是未来的希望啊。
# Spark
Spark今年大放溢彩，Spark简单说就是内存计算（或者迭代式计算，DAG计算,流式计算
）框架，
MapReduce因效率低下大家经常嘲笑， Spark号称性能超Hadoop百倍，算法实现... 阅读全帖

d********w
发帖数: 363

来自主题: JobHunting版 - Hadoop Spark 学习小结[2014版]

基于很多朋友希望更新这个学习资料，我就尽力按我的积累补充，are you ready, 享
受技术饕餮大餐
# Hadoop
Hadoop社区依然发展迅速，2014年推出了2.3，2.4, [2.5]http://hadoop.apache.org/releases.html 的社区版本，比如增强
Resource Manager HA, YARN Rest API, ACL on HDFS, 改进 HDFS 的 Web UI...
[Hadoop Roadmap]http://wiki.apache.org/hadoop/Roadmap
根据我的观察，主要更新在Yarn，HDFS，而Mapreduce几乎停滞了，还有一些feature
属于安全，稳定可靠性一方面是比较稳定了，但也可以说是瓶颈了。
[Apache Hadoop Project Members]http://hadoop.apache.org/who.html
这个是Hadoop project member and committee, 里面好多来自Hortonworks，也有不少
国人上榜。
# Spar... 阅读全帖

p*****2
发帖数: 21240

来自主题: JobHunting版 - System Design

scale的话基本就是mahout和 mllib了

E****h
发帖数: 41

来自主题: JobHunting版 - Huami华米(小米手环)湾区招软件工程师，和intern

Title: Senior Cloud and Big Data Engineer
Location: Mountain View, CA
We are looking for experienced engineer with cloud and big data background
to join the team, to define and build the global cloud infrastructure and
big data platform. You will have opportunities to use cutting edge
technologies to solve the most challenging topics. This is an open, dynamic,
and fast paced working environment.
Responsibilities:
• Identity key requirements, and come with the best solution to
address their... 阅读全帖

m******a
发帖数: 77

来自主题: JobHunting版 - Google 的 TensorFlow 是要把 Spark 的 ML 和 MLlib 挤下去吗？

还是会被它收编？

e***a
发帖数: 1661

来自主题: JobHunting版 - Google 的 TensorFlow 是要把 Spark 的 ML 和 MLlib 挤下去吗？

new tech are rushing out!!!

g*****y
发帖数: 1120

来自主题: JobHunting版 - Google 的 TensorFlow 是要把 Spark 的 ML 和 MLlib 挤下去吗？

Open source而已，只会百花齐放

E****h
发帖数: 41

来自主题: JobHunting版 - hiring: Senior Big Data and Machine Learning Engineer

https://angel.co/huami/jobs/125412-senior-big-data-and-machine-
engineer
(send resume to [email protected]/* */ , intern needed as well)
The big data team in Huami's US office, is looking for experienced engineer
with big data background to join the team.
Responsibilities:
Work closely with internal teams and partners, to identity key requirements,
and come with the best solution to address their needs.
Since team is small, you may work on different areas of data processing
pipeline, like ... 阅读全帖

E****h
发帖数: 41

来自主题: JobHunting版 - opening: front end, full stack, big data

多个职位open，全新项目和团队，有职业发展空间。prefer 3-5+以上工作经验。简历
请发送[email protected]/* */，谢谢大家！
更多职位：
https://angel.co/huami/jobs
-----------
Frontend Engineer
The big data team in Huami's US office, is looking for experienced front end
engineer to build state of art virtualization for data.
Responsibilities:
Build the first version of a customer facing web UI, support both mobile and
pc. Working closely with backend engineers to define the interface of
services, and UX to keep improving user experience.
Re... 阅读全帖

E****h
发帖数: 41

来自主题: JobHunting版 - hiring in bay area: front end, full stack, data engineer

请斑竹们别再删帖了，我们收到一些简历，大都开始安排面试。既然是供需双方共赢的
事情，请版主们刀下留情。谢谢！
湾区公司招聘多个职位，简历请发送到[email protected]/* */
------------------------
Frontend Engineer
The big data team in Huami's US office, is looking for experienced front end
engineer to build state of art virtualization for data.
Responsibilities:
Build the first version of a customer facing web UI, support both mobile and
pc. Working closely with backend engineers to define the interface of
services, and UX to keep improving user experience.
Requir... 阅读全帖

发帖数: 1

来自主题: JobHunting版 - Ancestry is hiring Data Scientist/Senior Data Scientist

https://www.smartrecruiters.com/Ancestry/88345635-senior-data-s
Company Description
Ancestry is the world's largest online resource for family history. We have
helped pioneer the market for online family history research, taking a
pursuit that was expensive and time-consuming and making it easy, affordable
and accessible to anyone with an interest in their family history. The
foundation of our service is an extensive collection of billions of
historical records that we have digitized, indexed an... 阅读全帖

J********h
发帖数: 93

来自主题: JobHunting版 - Multiple Openings in Santa Clara, CA

Principal Data Scientist
Education
Ph.D of Computer Science/Engineering/Mathematics or equivalent plus a
minimum of 5 years relevant experience.
Experience
Expert of Mining large data sets, Machine Learning techniques such as
regression and classification, cluster analysis, neural networks, ensembles,
random forests and related algorithms. 
Experience in building Machine Learning based data products in production.
Experience with Hadoop and MapReduce.
Database experience with MySQL, MSSQ... 阅读全帖

c******4
发帖数: 701

来自主题: JobHunting版 - 技术贴：spark-ML

有几个命令不能用了
collectAsMap()为什么不能用在这里，但老版本可以
1. error: value collectAsMap is not a member of org.apache.spark.sql.
Dataset[(Any, Any)]
scala> val movieTitles = moviesDF.map(array => (array(0), array(1))).
collectAsMap()
:41: error: value collectAsMap is not a member of org.apache.spark.
sql.Dataset[(Any, Any)]
val movieTitles = moviesDF.map(array => (array(0), array(1))).
collectAsMap()
2. ++不能用在df里面了,新命令怎么查？
scala> val tmpTTData = notDelayFlights ++ delayedFlights
error: value ++ i... 阅读全帖

m********u
发帖数: 3942

来自主题: JobHunting版 - Senior Full Stack Engineer -- long term contractor职位 (转载)

【以下文字转载自 Seattle 讨论区】
发信人: missingyou (miss), 信区: Seattle
标题: Senior Full Stack Engineer -- long term contractor职位
发信站: BBS 未名空间站 (Wed Jun 28 15:01:54 2017, 美东)
有兴趣请站内或者邮件 [email protected]
Our client is is looking for talented Senior Full Stack Software Development
Engineers for supporting product development and advanced R&D innovations
of services in the cloud.
The lab urgently needs senior full stack software development engineers who
are passionate about state-of-art big data platf... 阅读全帖

E****h
发帖数: 41

来自主题: SanFrancisco版 - hiring in bay area: front end, full stack, data engineer (转载)

【以下文字转载自 JobHunting 讨论区】
发信人: Elijah (十), 信区: JobHunting
标题: hiring in bay area: front end, full stack, data engineer
发信站: BBS 未名空间站 (Thu Apr 7 12:41:20 2016, 美东)
请斑竹们别再删帖了，我们收到一些简历，大都开始安排面试。既然是供需双方共赢的
事情，请版主们刀下留情。谢谢！
湾区公司招聘多个职位，简历请发送到[email protected]/* */
------------------------
Frontend Engineer
The big data team in Huami's US office, is looking for experienced front end
engineer to build state of art virtualization for data.
Responsibilities:
Build the first version of a customer... 阅读全帖

m********u
发帖数: 3942

来自主题: Seattle版 - Senior Full Stack Engineer -- long term contractor职位

有兴趣请站内或者邮件 [email protected]
Our client is is looking for talented Senior Full Stack Software Development
Engineers for supporting product development and advanced R&D innovations
of services in the cloud.
The lab urgently needs senior full stack software development engineers who
are passionate about state-of-art big data platform technologies and
applications, and want to take on critical changes to create some world-
first solutions.
Depending on the experience and technical skills, the ... 阅读全帖

r*****n
发帖数: 35

来自主题: Programming版 - scala应该努力成为学术圈内的工具

MLLib 也还好，弄来弄去就折腾那几个算法，复杂的spark也不行，其实spark还是没有
突破mapreduce的framework. model一旦变大或复杂，需要真的分布式，还是只能各个
算法自己开发了

z****e
发帖数: 54598

来自主题: Programming版 - 造轮子容易还是用轮子容易

消费者比较难，要从wsn口袋里掏钱，何其难也
企业用户就靠法律就行了
抓到就告，告企业挺赚钱
很多企业软件的破解版网络上随便下
但是没有人敢用，如果是卖轮子给公司的话
写在条款里面，一般没有人敢随便乱搞
而且很多复杂的轮子，给了源代码也没用
象spark mllib里面scala那些代码，哎哟妈呀
看还不如自己写得快

z****e
发帖数: 54598

来自主题: Programming版 - 已经全上内存了，还要40多秒啊

我就说嘛，老是做这种算术操作，迟早被人骂
猴屁股这种level就没那么容易忽悠
最好的方式干脆对比kmeans，用mllib做一次kmeans
然后对比全部跑在ram上的hdfs的kmeans
那个应该可以用scala做一定程度上的优化
就是coltzhao说的那些优化手段

z****e
发帖数: 54598

来自主题: Programming版 - Spark会干掉Storm吗？

http://stackoverflow.com/questions/24119897/apache-spark-vs-apa
这两个其实并不冲突，而且有些重点不太一样，spark压根没把streaming太当回事
主流还是在mllib那些东西上，统一接口是所有人的喜好
j2ee什么都在做类似的事情，做个类似的比喻
spark vs storm
就像
vert.x vs akka/node.js
jboss vs mybatis
只能说竞争无处不在，任何一个领域都有3个以上的东西在竞争
优胜劣汰很正常，习惯就好

z****e
发帖数: 54598

来自主题: Programming版 - Spark会干掉Storm吗？

可能相对容易实现一点
sql和r那就麻烦点
sparkr那个目前只是做到让r可以call spark
反过来，让spark调用r的pkg就不太行
mllib也还比较简单，目前还只是text anaylsis阶段
还没有实现ml，统一接口是好事，如果不想折腾
那就直接上spark就好了
所以机会很多，一块新大陆，处女地

z****e
发帖数: 54598

来自主题: Programming版 - dart写web ui实在是太爽了

dart自带有http request和json的parse这些
直接发送http reqeust到vert.x上就好了
vert.x天然就是一个ws server
写一个wrapper，弄三个verticle/module
一个用来监听8080端口，接收来自dart的ui请求
一个用来对付cassandra/couchdb，从nosql里面收集数据
一个用来对付spark，收集完的数据交给spark，调用mllib pkg做处理
最后反馈结果给dart，dart再把结果plot到界面上去
核心还是vert.x，这种简单的app可以同时做web和android版
等搞定后，swift出来摸熟了之后，再上ios版
dart最让我喜欢的就是html和css还有dart脚本分离
尤其是html和dart本身分离，不象以前凑在一起，难看死了
用dart我觉得不用angular也没啥大不了的

z****e
发帖数: 54598

来自主题: Programming版 - coltzhao的公司还在用mongo吗？

俺对databricks融资多少钱一点意见没有
你想啊，mongodb有啥东西？
基本上是把以前db做的东西重新做一遍
分布式其实本质就是，这个玩意以前不能分布，要分布
必然有tradeoff，那么就看牺牲哪一块而已了
db主要问题是尾大不掉，什么都做了
完全没考虑到分布式的场景，那现在要改，改起来就痛苦了
nosql的公司就抓住这个机会，重新把轮子造一遍，其实没啥新意
你看mongo忽悠了多少钱去，现在市值都12亿了
databricks用的数学比mongo这些nosql公司深多了
才50m，太少了
主要是你不能用mapreduce那个眼光看这家公司
你要看到machine learning，这个是多火爆的一个topic
这代表了future，databaricks融资五千万都不为过
因为这个东西站在时代的前沿，这个东西，别人没做过
才有得搞，今年炸药生理卫生奖给了John O'Keefe
这个就是做神经网络的Hebb的学生的学生
spark的mllib做下去，就会接轨Hebb的那些理论
很快就有那种science的感觉了

apply

z****e
发帖数: 54598

来自主题: Programming版 - coltzhao的公司还在用mongo吗？

现在支持pig，hive的金主们都转向sparksql了
而且pig和hive本身的应用就有大量重合
database和data warehouse的差异并不是那么大
现在统一成一个sparksql，方便很多
当然苦的就是现在在prod.里面用了hive&pig的公司
尾大不掉，要改挺麻烦的
sparkr将会是下一个很有搞头的东西
但是r非常大，统计的方法非常多
这个需要很长时间来完善
mllib目前只是text analysis，但是也做得差不多了
下一步是deep learning
再往后其实就跟很多生物里面神经科学
cs里面搞ai的wsn弄的东西差不多了
这就开始接触比较麻烦痛苦的高等数学了
对于nosql你想了解深入一点，adv. database学过
知道database是怎么造出来的，nosql就没有秘密了
顶多加一点分布式算法，分布式算法为基础
再去弄text analysis，了解点统计，这就是big data入门了
然后是deep learning，一点一点接近生物phd
生物统计已经可以接轨了，当然再往后很难说
陈章良的救星就快出现了，要不然老骂它
丫的21世纪是生... 阅读全帖

c****e
发帖数: 1453

来自主题: Programming版 - 请教peking2等ms->open source大神一个问题

我两个生态系统都做过不小的项目。微软主要是新的这一波没赶上，最潮的已经不care
了。所以但凡这两年折腾出来的东西，.net支持都很差或者基本没有。老一些的东西，
虽然基本都有，但是生态圈比较凋敝。就像你说的lucene,.net的port基本就死在3上面
了。
新的东西主要包括noSQL DB, Hadoop(HIVE/Pig/Impala), Spark这一圈。搞笑的是
Spark最开始还是按照微软dryad的paper用scala写的。09年微软内部就用基于dryad的
系统，但是微软自己完全丢掉了把这个开源或者服务化的机会。基因使然。
scalability这个事情，完全是看需求。就像这里天天不离口的Cassandra, 上了300个
node,一样问题多多。但是绝大多数人不会碰到。或者有几个会manage超过3000个node
的YARN cluster.有了EMR, Azure Insight这些东西,开个四个八个node算算一般东西，
都差不多。大家都说大数据，据统计平均的MRjob只有几个G,实在算不上大。说到大数
据，不能不提machine learning,虽然ML... 阅读全帖

z****e
发帖数: 54598

来自主题: Programming版 - 我们造轮子吧，轮子成败的关键应该是

工业界只能用jvm
不用jvm，fortran去对付一个个乱七八糟的os
没戏，算法通过什么实现，那个只是一个demo
让你明白这个idea是什么，但是干活时候
你不jvm纯粹给自己找麻烦，分布式最大特征就是网络
其次特征就是平台的差异，现在scala这么火爆
你不搞就是跟自己过不去，你看wdong都从了
你还觉得jvm没戏么？死守一个平台，比如unix
这个跟所有商业公司利益都不符，一个平台是不可能的
cs发展下去，必然结果是多个平台
spark现在mllib已经基本上搞定text部分了
至于后面怎么hype，那只能说有hype才有前途
你要是不搞这些，只能搞别人几十年前玩过的
那这个是没什么hype，但是问题是你除了去做点维护
也做不了什么了，新大陆才有机会，就是要做别人没做过的

z****e
发帖数: 54598

来自主题: Programming版 - 公司要做ML了，上来问问学习方向

除了spark以外，其他的选择比较少
都是legacy了
要么就是python的scipy这些
要么就是java的weka这些
这两个都不是针对分布式设计的
多数都是单结点计算
而且你要自己去处理跟hdfs的接口之类的
很麻烦
目前看，比较合适的framework就是spark
当然spark上面的libs还很少，目前只有mllib
你要想做其他的，需要你自己去实现

z****e
发帖数: 54598

来自主题: Programming版 - 请不要盲目崇拜FP语言

你就说吧，python到底有什么库可以比的
赶紧google
我们直接用同类产品做对比，最容易哈
mllib并不是spark的全部撒
lib啥意思？

z****e
发帖数: 54598

来自主题: Programming版 - 请不要盲目崇拜FP语言

java一样也有其他的mllib比如weka之类的
我之前告诉你的是,python很慢
你唧唧歪歪了半天，想否认啥？
我不是说了嘛
你直接对比同样的scenario，哪怕是都用fortran库
python该慢还是慢，不信试试啊
躲来躲去干嘛呢？
几页问下来，还是在说hpc那些狗屁

m******t
发帖数: 635

来自主题: Programming版 - 我觉得在scala上浪费时间没意思

二爷对spark的mllib有研究么？听说不错，想用用。
目前用的python和scikit-learn, 有点慢，对python有点无法忍受了

n*****3
发帖数: 1584

来自主题: Programming版 - mahout现在还有人用不？

我觉得要是小数据，就 Python／R，
big，就直接spark， spark有 MLLIB
mahout 又不快，又不scale up

code

z****e
发帖数: 54598

来自主题: Programming版 - Palantir靠的是军方关系

干，你的需求难道除了核心算法以外其他都没有了吗？
当时洋洋洒洒列了一大堆，我说的意思是这些东西用个合适的轮子
就是半个小时就搞定的事，哪里需要那么多东西还整合来整合去
所以其实那个项目除了核心算法以外其他都是苦力活
木有太大吸引力，算法部分另说
因为算法部分不是vert.x的长项，它也不是设计来做这个的
vert.x属于infra的一部分，算法处理可以通过spark等来搞
比较合理的方式是直接扩充mllib，而非自己搞一个，要学会合作
而不是自己单干，协作远比单干难，如果无法跟现有eco协作的话
项目是没有前途的，所以现在都在hadoop上往上加
hadoop本身跟java又有很深的渊源
从os->java->hadoop->spark你看到这里面的依赖关系没有？
这才是发展，而不是动不动革命掉，重新搞，一个国家不能这么搞
一个软件同样不能随便这样搞
另外我做了的东西不会公开的，github上有太多人用真名
我自己还有不少东西在上面，有些是直接卖钱的app，可不是什么tools
所以如果你真的有一天遇到了这个项目，那恭喜我自己，成功了
我也希望你能看到

z*******3
发帖数: 13709

来自主题: Programming版 - 怎样schedule spark application

这个level只能处理数据本身
并不能把mllib做成web service
你应该把别人给你的link好好看看
表急于下结论

z*******3
发帖数: 13709

来自主题: Programming版 - 大牛给个学习scala的roadmap吧

我觉得语言不重要，语法而已
关键是你要明白mllib里面那些理论
那些理论明白了之后，其实你用什么语言都一样的
play就是一个web server，这个也是需要理解原理
语法means nothing，web server几百种，理论基本是一样的
要举一反三

z*******3
发帖数: 13709

来自主题: Programming版 - 这里大大牛多久学会spark?

定义学会
spark api没啥好学的
你对java熟悉的话，就是看看javadoc, sparkdoc之后
自己做几个就上手的东西
但是mllib里面那些theory，那可不是什么摸摸api就能明白的
虽然用起来不是那么难，但是总归需要明白到底是咋回事

z*******3
发帖数: 13709

来自主题: Programming版 - 热门技术系统学习，求指导

那就这样吧
先把vert.x搞清楚
搞明白了vert.x，你就至少弄明白了async和thread pool
然后进阶，把streaming给搞明白
这个vert.x中也有
然后琢磨清楚vert.x是如何对付udp, tcp, http, websocket这几块的
话说websocket真垃圾，用的是http 1.1的协议，http2比1强太多
2就适合用来搞streaming了
这就是网络，网络不需要特别底层，但是从tcp,udp/ip以上就需要你最好弄清楚
然后把web service大概弄弄，会用到json和xml
这是网络，切记，结合vert.x去搞，看看vert.x是怎么搞的
vert.x的文档例子都很全面，遇到不懂的，查，问，发邮件问你以前大学的叫兽
想办法搞懂
这是网络部分
然后数据部分，这个没那么容易
先把paxos和cap搞懂，各种trade off琢磨清楚
paxos太理论，而且故弄玄虚，搞懂raft，想明白为什么raft那样搞
这个比较实际，然后弄明白cassandra以及hdfs，弄清楚这两个跟一般的rdbms有什么区别
区别点从join和transactio... 阅读全帖

#	版面	帖数(主题数)
-	全站	4871 (796)
1	Military	3777 (569)
2	Stock	341 (51)
3	Joke	117 (17)
4	History	116 (3)
5	Automobile	100 (9)
6	USANews	55 (9)
7	Midlife	45 (1)
8	Headline	41 (41)
9	Dreamer	33 (13)
10	FleaMarket	32 (20)
11	Living	30 (7)

topics

未名新帖统计// 7月16日

历史上的今天