n******7 发帖数: 12463 | 1 最近开始用java
之前没写过一个完整的java code
靠着神站堆栈溢出把几百行的R code改成了java
第一次跑居然只有一个dimension match的错误
静态语言配合IDE真强大
问题是java似乎没有好用的数学包
我需要一些矩阵操作,已经统计分析
找了好久,发现java的包
要么是多年没更新了(colt 11年)
要么是个个人项目,连文档都没有(UJMP)
要么功能很有限(大部分只支持一些矩阵操作,没有统计功能)
要么performance太差(https://code.google.com/p/java-matrix-benchmark/wiki/
RuntimeCorei7v2600_2013_10)
用了Apache common math
发现很烂,比如:
1.RealVector 没有算mean,count NaN这些基本需要的function
2.本来老早把数据转成RealVector了,用stat的时候发现还要转成double[]
3.stat的function连NaN remove的option都没有,最后都是手动处理
java有什么像样点的数学包吗?
BTW, java没有operator overloading是个比较烦心的事情,公式写出来太恶心了 |
z****e 发帖数: 54598 | 2 这个部分你还是多看看scala
无论是类库还是语言的features
scala就有operator overload了 |
n******7 发帖数: 12463 | 3 作为jvm衍生语言
scala的库能比java的还好使?
我看大家都说scala复杂
作为1/3时间写代码的
不想太费脑力啊
【在 z****e 的大作中提到】 : 这个部分你还是多看看scala : 无论是类库还是语言的features : scala就有operator overload了
|
e*******o 发帖数: 4654 | |
L*******r 发帖数: 1011 | 5 http://incanter.org/
【在 n******7 的大作中提到】 : 最近开始用java : 之前没写过一个完整的java code : 靠着神站堆栈溢出把几百行的R code改成了java : 第一次跑居然只有一个dimension match的错误 : 静态语言配合IDE真强大 : 问题是java似乎没有好用的数学包 : 我需要一些矩阵操作,已经统计分析 : 找了好久,发现java的包 : 要么是多年没更新了(colt 11年) : 要么是个个人项目,连文档都没有(UJMP)
|
n******7 发帖数: 12463 | 6 谢谢!
刚看了下目录,震惊了
第一章居然是C...
再看了下第8页,原来作者知道这一点
看来值得一读
【在 e*******o 的大作中提到】 : http://modelingwithdata.org/about_the_book.html : 这本书你可能会喜欢。
|
n******7 发帖数: 12463 | 7 这个我知道
其实几天前我写clojure比java还有经验些
用这个得再学clojure,短时间搞不定了
另外,也不知道这个包的质量如何
毕竟是个半个人项目
网站都做的乱死了
现在做math/statistics
MATLAB和R算一流工具
numpy/scipy算二流的
其他我试过的都是三流往下了...
【在 L*******r 的大作中提到】 : http://incanter.org/
|
n******7 发帖数: 12463 | 8 这个书里的例子再次强调了R的慢
一般地,R比python/perl慢一个数量级
python/perl比C/java又慢一个数量级
我这次就是开始的算法在加上了几层东西之后,根本没法用了才被迫找R alternative
而且R core team很保守,稳定的优先级远大于performance
实在蛋疼
【在 n******7 的大作中提到】 : 谢谢! : 刚看了下目录,震惊了 : 第一章居然是C... : 再看了下第8页,原来作者知道这一点 : 看来值得一读
|
e*******o 发帖数: 4654 | 9 整本书就是c
r, python 都是调用c。返璞归真这叫。
这个作者还是挺牛x的,他把blog中c 的tips 整理了下,出了本书。
21st Century C: C Tips from the New School
我是怎么找到这个作者的呢? 我一个Raking的程序,不知道怎么就google 出来了。
好东西到处有。
【在 n******7 的大作中提到】 : 谢谢! : 刚看了下目录,震惊了 : 第一章居然是C... : 再看了下第8页,原来作者知道这一点 : 看来值得一读
|
n******7 发帖数: 12463 | 10 调用c跟写纯c还是很不一样的
performance也差别很大
这个作者的例子
R调用C写的lib跟纯C的code差了30倍运行时间
其实我的感觉是,R的计算量一旦上去了,运行时间跟计算量不是线性的
而是更快速率的增长,不知道为啥
很多写r python lib的都要把核心的部分写成c
其实这感觉很痛苦,还不如写java,一气呵成,速度在c的30%-100%级别,multiple
threading还容易
【在 e*******o 的大作中提到】 : 整本书就是c : r, python 都是调用c。返璞归真这叫。 : 这个作者还是挺牛x的,他把blog中c 的tips 整理了下,出了本书。 : 21st Century C: C Tips from the New School : 我是怎么找到这个作者的呢? 我一个Raking的程序,不知道怎么就google 出来了。 : 好东西到处有。
|
|
|
z****e 发帖数: 54598 | 11 scala的eco主要是typesafe做
知道james gosling吧?
这个家伙从google离职后就跑去type sofe忽悠了
rod johnson就是那个做spring的也在typesafe
java历史上的几个英雄人物,除了lars bak,其他基本上都在折腾scala
其实从vert.x的建造来看,其他语言都比较容易搞
但是唯独scala,复杂度偏高,不太容易搞
不是说越复杂越好,但是scala说自己是better java,不是完全没有道理的
其他语言的eco达不到这个程度,牛人不多
本来数学的东西就比较复杂,涉及到优化
你想做好的类库,肯定要用到复杂的语言工具
自然scala比较得心应手
【在 n******7 的大作中提到】 : 作为jvm衍生语言 : scala的库能比java的还好使? : 我看大家都说scala复杂 : 作为1/3时间写代码的 : 不想太费脑力啊
|
z****e 发帖数: 54598 | 12
打好包就行了
你说的慢主要是并行上的优化处理
r什么都不管,一甩手掌柜,不管内存不管硬盘不管网络
自然慢,傻瓜是足够傻瓜了
关键是现在分布式的persistence主要是建立在hdfs这些基础之上
其实只要存储的这些定下来,很多优化都有办法做
关键是这些东西变来变去,导致经常要改,所以很多傻瓜化的工具就比较少
当然你要说简单容易,自然还是r这些容易
最理想的就是在hadoop eco上建r engine这些
但是目前这些东西都还只是一个概念或者prototype
没有十年左右的发展,估计没戏,当然也正是因为这块没啥东东
所以机会才多
【在 n******7 的大作中提到】 : 作为jvm衍生语言 : scala的库能比java的还好使? : 我看大家都说scala复杂 : 作为1/3时间写代码的 : 不想太费脑力啊
|
d********t 发帖数: 9628 | 13 为毛用Java不用Python
【在 n******7 的大作中提到】 : 最近开始用java : 之前没写过一个完整的java code : 靠着神站堆栈溢出把几百行的R code改成了java : 第一次跑居然只有一个dimension match的错误 : 静态语言配合IDE真强大 : 问题是java似乎没有好用的数学包 : 我需要一些矩阵操作,已经统计分析 : 找了好久,发现java的包 : 要么是多年没更新了(colt 11年) : 要么是个个人项目,连文档都没有(UJMP)
|
W***o 发帖数: 6519 | 14 Java 根本就不是做数值计算的首选,杀鸡用牛刀明显不合适
【在 n******7 的大作中提到】 : 最近开始用java : 之前没写过一个完整的java code : 靠着神站堆栈溢出把几百行的R code改成了java : 第一次跑居然只有一个dimension match的错误 : 静态语言配合IDE真强大 : 问题是java似乎没有好用的数学包 : 我需要一些矩阵操作,已经统计分析 : 找了好久,发现java的包 : 要么是多年没更新了(colt 11年) : 要么是个个人项目,连文档都没有(UJMP)
|
d****i 发帖数: 4809 | 15 你完全搞错了,Java和JVM根本不是用来做数值计算的,Java和PHP一样适合业务逻辑,
不适合scientific computation。搞科学计算就是matlab, python, R,当然其实都是C
啦。
【在 n******7 的大作中提到】 : 最近开始用java : 之前没写过一个完整的java code : 靠着神站堆栈溢出把几百行的R code改成了java : 第一次跑居然只有一个dimension match的错误 : 静态语言配合IDE真强大 : 问题是java似乎没有好用的数学包 : 我需要一些矩阵操作,已经统计分析 : 找了好久,发现java的包 : 要么是多年没更新了(colt 11年) : 要么是个个人项目,连文档都没有(UJMP)
|
l*********s 发帖数: 5409 | 16 spark会是你的菜。
【在 n******7 的大作中提到】 : 最近开始用java : 之前没写过一个完整的java code : 靠着神站堆栈溢出把几百行的R code改成了java : 第一次跑居然只有一个dimension match的错误 : 静态语言配合IDE真强大 : 问题是java似乎没有好用的数学包 : 我需要一些矩阵操作,已经统计分析 : 找了好久,发现java的包 : 要么是多年没更新了(colt 11年) : 要么是个个人项目,连文档都没有(UJMP)
|
z****e 发帖数: 54598 | 17 hadoop和spark纷纷发来贺电
是C
【在 d****i 的大作中提到】 : 你完全搞错了,Java和JVM根本不是用来做数值计算的,Java和PHP一样适合业务逻辑, : 不适合scientific computation。搞科学计算就是matlab, python, R,当然其实都是C : 啦。
|
d****i 发帖数: 4809 | 18 hadoop,spark这种也就是适合做做一般的ETL(数据量大一些而已),正经的高大上的
数值计算还得是MPI。
【在 z****e 的大作中提到】 : hadoop和spark纷纷发来贺电 : : 是C
|
z****e 发帖数: 54598 | 19 高大上没用,出来找工的话,hpc的经验约等于不存在
也就是物理系的那些千老在乎,其他系没多少人用
工业界的mpi要mainframe,去银行写cobol
【在 d****i 的大作中提到】 : hadoop,spark这种也就是适合做做一般的ETL(数据量大一些而已),正经的高大上的 : 数值计算还得是MPI。
|
n******7 发帖数: 12463 | 20 谢谢推荐scala
我找了找确实有不少
比如scalalab,好像很全
https://code.google.com/p/scalalab/
https://github.com/scalanlp/breeze/wiki/Linear-Algebra-Cheat-Sheet
这个breeze似乎跟numpy差不多
后台是netlib-java,这个玩意似乎很nb
【在 z****e 的大作中提到】 : scala的eco主要是typesafe做 : 知道james gosling吧? : 这个家伙从google离职后就跑去type sofe忽悠了 : rod johnson就是那个做spring的也在typesafe : java历史上的几个英雄人物,除了lars bak,其他基本上都在折腾scala : 其实从vert.x的建造来看,其他语言都比较容易搞 : 但是唯独scala,复杂度偏高,不太容易搞 : 不是说越复杂越好,但是scala说自己是better java,不是完全没有道理的 : 其他语言的eco达不到这个程度,牛人不多 : 本来数学的东西就比较复杂,涉及到优化
|
|
|
n******7 发帖数: 12463 | 21 因为python generally比java慢一个数量级
我写的code不可能只调用numpy的function
另外,java整个生态系统很强大
Java写多线程也很容易,我之前零经验,找着别人代码改改,一下子就work了
静态语言debug太爽了
还有,我对python前途没信心
python 2.x 到 3.x就是broken的
想起了perl 6的难产
【在 d********t 的大作中提到】 : 为毛用Java不用Python
|
n******7 发帖数: 12463 | 22 我之前就用R python
matlab也偶尔用用
运行效率,通用性(MATLAB,R)和license (MATLAB) 是比较大的问题
我发现一个文章不错,基本都是我考虑的问题:
Scala as a platform for statistical computing and data science |
n******7 发帖数: 12463 | 23 看起来很牛X的样子,谢谢
【在 l*********s 的大作中提到】 : spark会是你的菜。
|
n******7 发帖数: 12463 | 24 不知道什么样的project算高大上
反正我的账号一次最多动用500个core,java应该够了
而且java肯定在这方面比matlab, R,python要强吧
至于裸写C,很多时候又是overkill,java也就比C慢一倍左右,没有数量级差异
我这次决定写java之前专门google一下,发现欧洲宇航局的Gaia项目就是用java做HPC的
Gaia, the galaxy in 3D 这项目够高大上,够正经吧?
这里详细论述了用java的原因:
http://www.spscicomp.org/ScicomP15/slides/astro/torra.pdf
其中提到,有个function之前用C写的
后来这个作者用java改写了
作者对C比对java有经验多了,但是写出来的java code速度是C的4倍!
【在 d****i 的大作中提到】 : hadoop,spark这种也就是适合做做一般的ETL(数据量大一些而已),正经的高大上的 : 数值计算还得是MPI。
|
y*********n 发帖数: 238 | |
t*****n 发帖数: 4908 | 26 不用纠结。随便google一下,用c++写的数值计算包到处都是。商业数值计算软件,没
有一个是用java写的。
【在 y*********n 的大作中提到】 : why not fortran?
|
n******7 发帖数: 12463 | 27 不知道你的point是什么
我是需要一个这样的package,不是要用java写这样的一个package
这个package的核心是什么语言都无所谓
不然用matlab R numpy的都可以去死了
【在 t*****n 的大作中提到】 : 不用纠结。随便google一下,用c++写的数值计算包到处都是。商业数值计算软件,没 : 有一个是用java写的。
|
t*****n 发帖数: 4908 | 28 我的point就是:数值计算是c c++ FORTRAN的天下。你要找矩阵包,请放狗找eigen
ublas Atlas 等等。轮子太多了,不用自己造。
【在 n******7 的大作中提到】 : 不知道你的point是什么 : 我是需要一个这样的package,不是要用java写这样的一个package : 这个package的核心是什么语言都无所谓 : 不然用matlab R numpy的都可以去死了
|
t*****n 发帖数: 4908 | 29 还有gsl。不知道你要用到那个领域。
【在 n******7 的大作中提到】 : 不知道你的point是什么 : 我是需要一个这样的package,不是要用java写这样的一个package : 这个package的核心是什么语言都无所谓 : 不然用matlab R numpy的都可以去死了
|
t*****n 发帖数: 4908 | 30 手写c的事情基本没有意义了。gotoblas已经有汇编和sse优化。现在gpu搞矩阵也很流
行。
HPC的
【在 n******7 的大作中提到】 : 不知道什么样的project算高大上 : 反正我的账号一次最多动用500个core,java应该够了 : 而且java肯定在这方面比matlab, R,python要强吧 : 至于裸写C,很多时候又是overkill,java也就比C慢一倍左右,没有数量级差异 : 我这次决定写java之前专门google一下,发现欧洲宇航局的Gaia项目就是用java做HPC的 : Gaia, the galaxy in 3D 这项目够高大上,够正经吧? : 这里详细论述了用java的原因: : http://www.spscicomp.org/ScicomP15/slides/astro/torra.pdf : 其中提到,有个function之前用C写的 : 后来这个作者用java改写了
|
|
|
n******7 发帖数: 12463 | 31 eigen我是一直听说,因为不写cpp所以没有关注
不过你到是提醒我了,其实找个java wrapper就好
像eigen就有个jeigen,候选对象更多了,哈哈
【在 t*****n 的大作中提到】 : 我的point就是:数值计算是c c++ FORTRAN的天下。你要找矩阵包,请放狗找eigen : ublas Atlas 等等。轮子太多了,不用自己造。
|
n******7 发帖数: 12463 | 32 目前这个事其实主要是统计分析,
有一些矢量操作,不过计算量不在这里
所以想用线性代数的包,总比自己写循环效率高吧
【在 t*****n 的大作中提到】 : 还有gsl。不知道你要用到那个领域。
|
z****e 发帖数: 54598 | 33 其他语言最大的问题在于平台的相关性太强
分布式现在基础都是hadoop那一套搞起来的
尤其是各种open source的工具
以后只会越来越强化这个平台
spark只是开始,r什么是比较傻瓜,但是各种不管
除非最后用的是excel来搞什么ml,否则没啥用
【在 n******7 的大作中提到】 : 我之前就用R python : matlab也偶尔用用 : 运行效率,通用性(MATLAB,R)和license (MATLAB) 是比较大的问题 : 我发现一个文章不错,基本都是我考虑的问题: : Scala as a platform for statistical computing and data science
|
t*****n 发帖数: 4908 | 34 gsl 就有统计模块。不过我也不熟。看看手册吧。不明白的是,为什么什么都要和Java
搞起来,这么怕写c++?
【在 n******7 的大作中提到】 : 目前这个事其实主要是统计分析, : 有一些矢量操作,不过计算量不在这里 : 所以想用线性代数的包,总比自己写循环效率高吧
|
a*********y 发帖数: 63 | 35 如果你需要用现成的算法, 最好找实现好的包. 千万不要自己写!
Fortran的包应该是最成熟也最完备的, 在某种程度上也是运行最快的. 就是不知
道你的语言能不能调用.
科学数值计算的实现有很多技巧, 不是简单地"翻译"数学公式和算法. |
z****e 发帖数: 54598 | 36 因为工业界主流是java
谁不想给自己简历上添加上那么一点跟big data相关的东西呢?
中介一看到hadoop这些都跟打了鸡血一样兴奋
至于具体gsl,中介知道这是啥玩意不?
Java
【在 t*****n 的大作中提到】 : gsl 就有统计模块。不过我也不熟。看看手册吧。不明白的是,为什么什么都要和Java : 搞起来,这么怕写c++?
|
a*********y 发帖数: 63 | 37 对, C++的包也很成熟.
Java
【在 t*****n 的大作中提到】 : gsl 就有统计模块。不过我也不熟。看看手册吧。不明白的是,为什么什么都要和Java : 搞起来,这么怕写c++?
|
z****e 发帖数: 54598 | 38 嗯,市场反应平淡
fortran就是千老的最爱
【在 a*********y 的大作中提到】 : 对, C++的包也很成熟. : : Java
|
a*********y 发帖数: 63 | 39 问题是科学计算不是工业界的主流啊!
【在 z****e 的大作中提到】 : 因为工业界主流是java : 谁不想给自己简历上添加上那么一点跟big data相关的东西呢? : 中介一看到hadoop这些都跟打了鸡血一样兴奋 : 至于具体gsl,中介知道这是啥玩意不? : : Java
|
z****e 发帖数: 54598 | 40
科学计算跟big data搞的统计应用不是一回事
统计应用甚至都谈不上什么“科学”,统计只是数学应用中相对低级的一个level
统计应用在统计里面则更为低级一点,科学数值计算适合搞物理的去弄
有hpc啥可以乱搞,工业界没有人用hpc,太贵用不起
所以强调分布式,因为cheap,网络当然比硬盘上的io要慢
但是cheap,所以都往网络上去挤
【在 a*********y 的大作中提到】 : 如果你需要用现成的算法, 最好找实现好的包. 千万不要自己写! : Fortran的包应该是最成熟也最完备的, 在某种程度上也是运行最快的. 就是不知 : 道你的语言能不能调用. : 科学数值计算的实现有很多技巧, 不是简单地"翻译"数学公式和算法.
|
|
|
z****e 发帖数: 54598 | 41 没有错
科学计算是学术界的问题
楼主在问统计应用的pkg
显然跟工业界息息相关
【在 a*********y 的大作中提到】 : 问题是科学计算不是工业界的主流啊!
|
a*********y 发帖数: 63 | 42 这话说得不对. Fortran 算是一种 DSL. 其它的语言再强大也替代不了. 青龙偃月刀用
来杀人行, 用来动手术肯定是不行的. :-)
【在 z****e 的大作中提到】 : 嗯,市场反应平淡 : fortran就是千老的最爱
|
n******7 发帖数: 12463 | 43 我看了一下,gsl真不错
昨天刚有人推荐了一个用c做stats的书,我发现每页页眉上面都是gsl_stats
对,不想写c++
我写code只是为了实现我们设计的方法
实在不想花太多精力搞语言本身
java如果比c++跑起来慢一倍,但是写起来省一半时间的话
我还是愿意写java的
其实java和C我都可以接受
我一直觉得c要是有些好的package还是挺不错的
gsl看来值得一战
Java
【在 t*****n 的大作中提到】 : gsl 就有统计模块。不过我也不熟。看看手册吧。不明白的是,为什么什么都要和Java : 搞起来,这么怕写c++?
|
n******7 发帖数: 12463 | 44 另外我们最近要处理20TB的数据
我在琢磨怎么存储处理后的数据的问题
这个估计java也方便很多
一边load数据,处理,一边就存到database里面
Java
【在 t*****n 的大作中提到】 : gsl 就有统计模块。不过我也不熟。看看手册吧。不明白的是,为什么什么都要和Java : 搞起来,这么怕写c++?
|
z****e 发帖数: 54598 | 45 我的感觉基本上整个欧洲的学术界的工具都在往scala上转移
我们这边跟欧洲关系远比美帝的关系要密切得多
绝大多数叫兽都是欧洲人,可以明显感觉到,scala的火热
不管做啥,只要欧洲来的叫兽坐阵,语言你就得用scala
尤其是big data相关的东西,都是scala,当然这个刚开始做没多久
很多工具肯定不如那些几十年做下来的傻瓜容易,比如r
但是这个是future,现在统计应用就是big data上需要嘛
你问的线性代数估计就是相似度判断,vsm那些东西
用scala,spark这些吧,包括hdfs什么都是你可能会用到的工具
看了你的主贴还在扯蛋数值计算的基本上都是不懂big data的
【在 n******7 的大作中提到】 : 我之前就用R python : matlab也偶尔用用 : 运行效率,通用性(MATLAB,R)和license (MATLAB) 是比较大的问题 : 我发现一个文章不错,基本都是我考虑的问题: : Scala as a platform for statistical computing and data science
|
z****e 发帖数: 54598 | 46 不冲突
【在 a*********y 的大作中提到】 : 这话说得不对. Fortran 算是一种 DSL. 其它的语言再强大也替代不了. 青龙偃月刀用 : 来杀人行, 用来动手术肯定是不行的. :-)
|
n******7 发帖数: 12463 | 47 我最近被R的type问题搞怒了
本来一个code跑的好好的,没任何问题
后来加了个feature selection就不对了
研究一下发现,R slice 矩阵的时候,如果只选一行
默认返回的不是个1-row 矩阵,而是自动转换成vector
nrow函数给出的就不是1,而是null
太坑爹了
【在 z****e 的大作中提到】 : 其他语言最大的问题在于平台的相关性太强 : 分布式现在基础都是hadoop那一套搞起来的 : 尤其是各种open source的工具 : 以后只会越来越强化这个平台 : spark只是开始,r什么是比较傻瓜,但是各种不管 : 除非最后用的是excel来搞什么ml,否则没啥用
|
n******7 发帖数: 12463 | 48 算是用现成的算法,不过还是有些东西很直白,也用不上什么library
比如E-M 优化,E-step M-step 弄好了,就是写循环了
【在 a*********y 的大作中提到】 : 如果你需要用现成的算法, 最好找实现好的包. 千万不要自己写! : Fortran的包应该是最成熟也最完备的, 在某种程度上也是运行最快的. 就是不知 : 道你的语言能不能调用. : 科学数值计算的实现有很多技巧, 不是简单地"翻译"数学公式和算法.
|
a*********y 发帖数: 63 | 49 估计 Fortran 就没有这个问题. 矩阵也好, 向量也好, 都是数组.
不过你的项目还得具体问题具体分析.
【在 n******7 的大作中提到】 : 我最近被R的type问题搞怒了 : 本来一个code跑的好好的,没任何问题 : 后来加了个feature selection就不对了 : 研究一下发现,R slice 矩阵的时候,如果只选一行 : 默认返回的不是个1-row 矩阵,而是自动转换成vector : nrow函数给出的就不是1,而是null : 太坑爹了
|
n******7 发帖数: 12463 | 50 fortran的向量也没有row number这个属性吧?
这里的问题是,R这个type转换完全瞎搞
我看别人写的,R处理type是靠猜的
估计它看到一个一行的矩阵就认为是vector了
本身又是动态语言,又慢
这种问题要跑半天,然后给你个错误死掉,谁受得了
【在 a*********y 的大作中提到】 : 估计 Fortran 就没有这个问题. 矩阵也好, 向量也好, 都是数组. : 不过你的项目还得具体问题具体分析.
|
|
|
w********m 发帖数: 1137 | 51 其实工业界和学术界差不多,别人怎么做就自己怎么做.
你这个估计是学术界的项目,查查文章就行了.弄一下发了文章走路,不用太纠结. |
n******7 发帖数: 12463 | 52 对,数据是很多
未来10年大数据处理在医疗健康领域会越来越重要
【在 z****e 的大作中提到】 : 我的感觉基本上整个欧洲的学术界的工具都在往scala上转移 : 我们这边跟欧洲关系远比美帝的关系要密切得多 : 绝大多数叫兽都是欧洲人,可以明显感觉到,scala的火热 : 不管做啥,只要欧洲来的叫兽坐阵,语言你就得用scala : 尤其是big data相关的东西,都是scala,当然这个刚开始做没多久 : 很多工具肯定不如那些几十年做下来的傻瓜容易,比如r : 但是这个是future,现在统计应用就是big data上需要嘛 : 你问的线性代数估计就是相似度判断,vsm那些东西 : 用scala,spark这些吧,包括hdfs什么都是你可能会用到的工具 : 看了你的主贴还在扯蛋数值计算的基本上都是不懂big data的
|