关于libsvm的讨论汇总 - 话题女王

m**********r
发帖数: 122

来自主题: CS版 - 问一个有关用LIBSVM 做text classification 的问题

我现在用LIBSVM对一组文件做分类。一般我会采用binary occurrence或者term
frequency (TF) 做feature construction. 实验过程发现采用binary occurrence的
SVM 训练过程会比采用 TF的时间长很多。请问是不是因为LIBSVM的Solver 对于0/1矩
阵很难收敛。有没有文献讲这个问题。

m**********r
发帖数: 122

来自主题: Statistics版 - 问一个有关用LIBSVM 做text classification 的问题

a*****u
发帖数: 1712

来自主题: JobHunting版 - 提供一个full time面经吧，小公司面试比大公司虐多了

除了
聊了下简历的各种project很细，一直问到svm里面支持向量是怎么做判决的，我都是直
和第三面，其他都很常规吧，flg也会面这些啊。
svm那题，如果你面的不是需要research的职位，人家只是问问，试探下你的水平，不
是真的要你都很懂，用libsvm就大大方方的说自己是用libsvm的

d******e
发帖数: 7844

来自主题: Statistics版 - SAS neural network 和 SVM 的macro

拜托... ..
e1071不过是调用libsvm而已... ...
目前学术圈里用得最多的SVM Package来自台湾，libsvm和liblinear

d******e
发帖数: 7844

来自主题: Statistics版 - SAS neural network 和 SVM 的macro

拜托... ..
e1071不过是调用libsvm而已... ...
目前学术圈里用得最多的SVM Package来自台湾，libsvm和liblinear

n****t
发帖数: 241

来自主题: JobHunting版 - Adobe招人，有兴趣的朋友可以发简历给我

邮箱：qiruian@gmail
职位基本信息：
Position: Business Unit: Location:
Req ID:
Computer Scientist Digital Media
San Jose, CA 16588
要求：
Position Summary
Adobe is looking for a self-motivated development engineer to join the
globalization team. To expand international markets, the globalization team
explores emerging technologies and delivers cross-language solutions for
Adobe products. In particular, we offer internationalization and linguistic
web services for our cloud product offerings. The successful ca... 阅读全帖

n****t
发帖数: 241

来自主题: JobHunting版 - Adobe内部推荐的机会

再发一次，希望这次不是浪费时间。
现在最好的candidate是一个老印（machine learning的背景），已经被我顶在门外了
，现在老板愿意再多收一周简历，有兴趣，并且觉得自己背景合适的朋友给我发信。因
为是组里招人，不保证给我发信的人就一定推荐，我只能挑两个背景match的在组里推
荐。
个人邮箱：q*****[email protected]
职位是在san jose(bay area).
职位描述是：
Position Summary
Adobe is looking for a self-motivated development engineer to join the
globalization team. To expand international markets, the globalization team
explores emerging technologies and delivers cross-language solutions for
Adobe products. In particular, we offer internationalizati... 阅读全帖

d*******g
发帖数: 51

来自主题: JobHunting版 - 提供一个full time面经吧，小公司面试比大公司虐多了

纽约一家start up，几百人规模
总共三面，每次面试中间休息10分钟，onsite：
第一面：
问一些简单的hashtable，linkedlist，BST的优缺点
1)从一堆distinct, not continuing, increasing integers里面找出 value和index一
样的数，in sublinear time
2)实现windows 绘图板的 print 油漆桶功能函数（类似DFS）
两道题都是现场白板，第一道秒杀，第二道提示了一下才做出来，原来canvas都是颜色
的二维数组
第二面：
聊了下简历的各种project很细，一直问到svm里面支持向量是怎么做判决的，我都是直
接调的libsvm，只知道个大概，然后就跪了
之后，bit manipulation，把integer转成 string，不能用各种已有函数，然后问了
下各种情况，如何test，有没有overflow
然后一直问到了最底层，每个数的二进制码，这道题虽然简单但感觉是最虐的
第三面：这时候已经完全无力了
给了一道大题，把现在网站系统画出来，然后要加一个新功能，问：
1}新的 ... 阅读全帖

s*w
发帖数: 729

来自主题: JobHunting版 - 请教一个 cross-validation 的疑问

这里专家多，问一下这个我找不到标准答案的问题
通常 cross-validation 被用来做 model selection （比如 classifier 里面的某个
parameter), 假码大致如下：
random parition data set into train and test
for C = 若干候选值
acc1,acc2,...acc10 = do 10-fold cross-validation on train for model(C)
meanAcc = mean(acc1,...acc10)
if meanAcc > bestAcc
bestAcc = meanAcc
bestC = C
这个做法是我在 libsvm 里看到的用法。我的问题是 acc1,..acc10 这10个数据 varia
nce 也很大啊，直接比 meanAcc 是不是没啥意义(我自己随便找两组出来的20个数，前
10个和后10个的 mean t test 没啥差别啊)；有没有更好的做法？

p**o
发帖数: 3409

来自主题: Apple版 - MBA2011/Lion装NumPy/SciPy的一些失败经历

不知道版上有没有用Python做科学计算的同好，
本人近日在带Lion的新MBA上安装Python科学计算包遇到了困难，
现把失败经历小结如下，希望后来人不要重走弯路，
如果能为本人指出一条“正路”就更感谢。
尝试1. MacPorts
macports是我第一个试的，下面这些包可以通过编译：gnuplot libsvm py27-numpy
py27-scipy py27-matplotlib python27-doc py27-sympy py27-ipython py27-
networkx py27-pymc py27-django py27-libdnet py27-lint py27-mysql py27-pip
py27-ply py27-pygraphviz py27-pyrex py27-rpy2 py27-scientific py27-sqlite
py27-svn py27-tables py27-tornado igraph py27-igraph py27-numexpr py27-pp
py27-cython py27-psyco py27-twisted... 阅读全帖

g*****y
发帖数: 1120

来自主题: CS版 - SVM clustering

google libsvm, read one paper of the author.
No good solutions so far, three basic workarounds.

c******d
发帖数: 906

来自主题: CS版 - 请教一下SVM和ANN的区别

俺是新手，大牛请尽量拍
俺要作的项目要求用现有的model去predict实际应用中的参数
现有的model能生成训练样本，实际样本的参数范围能被包括在内
input大概6，7个，output有1，2个
俺听说SVM和ANN都可以实现俺的目标，如果是作regression，
哪个比较合适？
ANN俺看了一下，还不是很理解。SVM也看了，觉得libsvm作classification
挺好用，不知道作regression怎么样？
先多谢指教

S******t
发帖数: 151

来自主题: CS版 - 问个 SVM 分类器画 ROC 的问题。。。

In fact I suggest using LibSVM. :)
Check http://www.csie.ntu.edu.tw/~cjlin/libsvmtools/#12

s********1
发帖数: 581

来自主题: CS版 - computer vision研究需要用些什么software?

哈哈，还没学完哪！哪有那么快？
听说做vision的专家们有时会用libsvm,不过这个library只支持svm,您是否知道ML其他
的library?
谢谢！

R*******n
发帖数: 162

来自主题: CS版 - computer vision研究需要用些什么software?

libsvm是几个台湾人把 svm-light 优化了一下包装推出来
主要是 kernel-based method ( support vector machine et al)
后来svm-light自己有添加了很多功能，包括最近比较流行的 structurial learning.
ML可不只是 kernel methods.其它的 neural network, graphic network, decision-
tree ... 多了去了

w***g
发帖数: 5958

来自主题: CS版 - 牛人很神奇的简历啊

我外行，觉得现在真正能够实用的程序就libsvm一个。别的paper里写的那些美好的算
法怎么就没一个拿来能用的软件呢？

i*********8
发帖数: 3229

来自主题: CS版 - 牛人很神奇的简历啊

难道svm 没人用吗？
连svm的一个实现libsvm都被cite了3K多了。

w***g
发帖数: 5958

来自主题: CS版 - 牛人很神奇的简历啊

我外行，觉得现在真正能够实用的程序就libsvm一个。别的paper里写的那些美好的算
法怎么就没一个拿来能用的软件呢？

i*********8
发帖数: 3229

来自主题: CS版 - 牛人很神奇的简历啊

难道svm 没人用吗？
连svm的一个实现libsvm都被cite了3K多了。

s******8
发帖数: 2131

来自主题: CS版 - What is the meaning of attribute weights in SVM?

for example, LibSVM calculates the weights of each attribute. How to
intepret those weights? some are positive numbers and some are negative.
Does it mean 'correlation" to the class label? like positively correlated
and negatively correlated?
thx.

l***e
发帖数: 12

来自主题: CS版 - 请教一下这个做Learning的faculty水平如何？

http://www.esat.kuleuven.be/sista/members/suykens.html
比利时发考题，是那个小有名气的LS-SVM toolbox的项目领头人，做过SVM的人可能听
说过（貌似不如台湾国立大牛林智仁的libsvm用的多）。看publication蛮多的，但是
鄙人眼拙看不出质量，望有高人能指点一二，谢过。

t***s
发帖数: 15

来自主题: CS版 - 请教一下这个做Learning的faculty水平如何？

这个人做的东西我比较了解。首先lssvm不是svm，两者的用的loss functioin
不一样（square loss vs. hinge loss），所以lssvm toolbox跟libsvm或者
svmlight不同，它不是一个svm solver。效果上，lssvm和svm不相上下，但用
的人并不多。这个人2000年左右搞出lssvm，发了非常多的paper，还写了一本书，
但其实贡献并不大，因为lssvm不过是已经有的某些machine的新的提法而已
（比如regularized networks，regularized kernel fda）。ml主流对他这种
鸡毛当令箭的做法不太看得上，甚至有人在文章里直接讽刺挖苦（e.g. ryan rifkin）。
他的publication里，icml 0, nips 1, jmlr 3，但都不是第一作者。结论：
不在主流ml community里，本人学术水平一般。

m*p
发帖数: 1331

来自主题: CS版 - cross validation and best model question

ic. that's the grid search in libsvm...
how about for ensemble classifiers like adaboost? there is no simple
parameter like C.
Thanks!

c*******f
发帖数: 85

来自主题: CS版 - Classfication 比较好的算法是什么?

10+?????这维数一点都不高啊……，SVM就行了，libSVM是一个封装的很好的工具。
其他的分类算法其实也都挺好，就是不如svm popular就是了

c*******f
发帖数: 85

来自主题: CS版 - Classfication 比较好的算法是什么?

10+?????这维数一点都不高啊……，SVM就行了，libSVM是一个封装的很好的工具。
其他的分类算法其实也都挺好，就是不如svm popular就是了

x*********g
发帖数: 15

来自主题: CS版 - 问一个有关用LIBSVM 做text classification 的问题

如果你不需要用 kernel，可以试一下 liblinear
http://www.csie.ntu.edu.tw/~cjlin/liblinear/

c*****t
发帖数: 1879

来自主题: Programming版 - 请问data mining/machine learning方向哪个语言比较好？

C++ has DMTL, libsvm.

algorithms.
itself.

N******K
发帖数: 10202

来自主题: Programming版 - 为什么大家都说c++水很深？

在图像法分析领域涉及到大矩阵运算 Java本身语言不支持连续存储的多维矩阵(数
组)
所以Java要搞有效的线性代数运算 1. 从轮子开始造 2. JNI调用 eigen/Lapack等c++/
fortran库
就算用2，大矩阵运算JNI本身的时间消费可以忽略，但是小矩阵用JNI还不如Java写
for循环。这个问题，还得自己造轮子来解决。
即是从轮子开始造，纯Java写的线性代数库比C++/fortran的慢了n倍(有人测试过10倍)
如果就搞搞小图片，你用纯Java的倒也无所谓。搞大图像的复杂分析，比如配准、分
割、跟踪、识别，比如医学图像分析，C++无论从速度，还是现有的库的支持，都胜过
Java
再说机器学习领域
libsvm就是c++的现在最火的spase coding得靠C++， deep neural network
learning 得靠C++和GPU
Java搞网站系统应用很好，但是到了算法这个层面，就是不如C++

L****8
发帖数: 3938

来自主题: Programming版 - 有啥实际方法来估计svm c and gamma 参数初始值的吗？

参考libsvm主页

K****n
发帖数: 5970

来自主题: Biology版 - 最新图像识别算法突破

想起来了，我还主动承接了“讲座后送 Chih-Jen Lin 教授出大门“的任务，请他吃了
拉面合了影。这个是 liblinear 和 libsvm 作者

l***e
发帖数: 12

来自主题: Engineering版 - 请教一下这个做Learning的faculty水平如何？ (转载)

【以下文字转载自 CS 讨论区】
发信人: lyzle (YeatS), 信区: CS
标题: 请教一下这个做Learning的faculty水平如何？
发信站: BBS 未名空间站 (Thu Aug 4 21:23:28 2011, 美东)
http://www.esat.kuleuven.be/sista/members/suykens.html
比利时发考题，是那个小有名气的LS-SVM toolbox的项目领头人，做过SVM的人可能听
说过（貌似不如台湾国立大牛林智仁的libsvm用的多）。看publication蛮多的，但是
鄙人眼拙看不出质量，望有高人能指点一二，谢过。

d******e
发帖数: 7844

来自主题: Statistics版 - 请问SVM用到的是哪方面的数学？

解SVM的Package早都满天飞了。
哪还用得着自己写solver。
liblinear,libsvm,svm-light,pegasos。
而且我还真纳闷你写过solver没有，写一个能用的很容易，但写一个速度快的就要经验
和技术了。

l******0
发帖数: 244

来自主题: DataSciences版 - 机器学习需要自己搞算法吗

基本上都有现成的算法实现，比如 SVM, ME, Bayes。在公司做应用，就是使用相应的
open source ML 包，比如 libsvm, 或斯坦福的 ME. 公司搞机器学习的主要任务就是
收集，采样，和标注数据，确定并提取特征，建立模型，evaluation.
很多机器学习 paper 里面提到的一些模型和算法，基本都用不上。是不是这样？

s*****7
发帖数: 20

来自主题: DataSciences版 - 刚入行新人的两个问题

第二个问题
svm 用 rbf kernel 时候最好grid search + cross validation 来optimize一下gamma
参数（libsvm里面有一个比较好的参数区间），不同的参数的差别还是很大的

h********3
发帖数: 2075

来自主题: DataSciences版 - 为什么要知道DETAILS OF A MACHINE LEARNING ALGORITHM

没错。libsvm都是用squared hinge loss。实际数据上，squared hinge loss和hinge
loss, logistic loss基本上没神马差别。

d******e
发帖数: 7844

来自主题: DataSciences版 - 为什么要知道DETAILS OF A MACHINE LEARNING ALGORITHM

LIBSVM解的是Hinge Loss，没有平方。解的是Lagrangian Dual Formulation，用的
Coordinate Descent。
LIBLINEAR才是用了Square Hinge Loss。解的是Conjugate Dual Formulation，用的也
是Coordinate Descent。

hinge
问题

h********3
发帖数: 2075

来自主题: DataSciences版 - 为什么要知道DETAILS OF A MACHINE LEARNING ALGORITHM

没错。libsvm都是用squared hinge loss。实际数据上，squared hinge loss和hinge
loss, logistic loss基本上没神马差别。

d******e
发帖数: 7844

来自主题: DataSciences版 - 为什么要知道DETAILS OF A MACHINE LEARNING ALGORITHM

j*******g
发帖数: 331

来自主题: DataSciences版 - 急，xgboost prediction的问题

xgboost不care你叫啥名字你可以传一个matrix 也可以传一个libsvm

#	版面	帖数(主题数)
-	全站	4871 (796)
1	Military	3777 (569)
2	Stock	341 (51)
3	Joke	117 (17)
4	History	116 (3)
5	Automobile	100 (9)
6	USANews	55 (9)
7	Midlife	45 (1)
8	Headline	41 (41)
9	Dreamer	33 (13)
10	FleaMarket	32 (20)
11	Living	30 (7)

topics

未名新帖统计// 7月16日

历史上的今天