D********g 发帖数: 650 | 1 目前要解决的问题需要100%的test set precision 和尽量高的recall,请问有没有这
方面的算法框架推荐。谢谢! |
x******1 发帖数: 31 | 2 Try designing a loss for your purpose and train under the framework of
http://www.cs.cornell.edu/People/tj/publications/joachims_05a.p |
r********3 发帖数: 2998 | 3 目前的machine learning算法似乎没有100%的。如果是100%的规则,那么自己把规则嵌
入系统就行了,不用让machine去learn了。楼上给的paper,根本不是追求100%
precision的。追求100%的precision的话,光靠machine learning的人是搞不出来的。
实际很多问题要追求真正的100% precision,可以考虑实际一些简单,但是有效的方法
。比如一些systematic的方法,或者一些policy,系统架构上的改善。比如要对mp3歌
曲进行机器分类的时候,不妨直接看一下嵌入mp3的meta信息,里面包含了歌手名字,
唱片公司,专辑名字。
【在 D********g 的大作中提到】 : 目前要解决的问题需要100%的test set precision 和尽量高的recall,请问有没有这 : 方面的算法框架推荐。谢谢!
|
w***g 发帖数: 5958 | 4 顶一下这个。想要提高准确度,改进feature extraction是王道。learning的话其实什
么方法都差不多。
【在 r********3 的大作中提到】 : 目前的machine learning算法似乎没有100%的。如果是100%的规则,那么自己把规则嵌 : 入系统就行了,不用让machine去learn了。楼上给的paper,根本不是追求100% : precision的。追求100%的precision的话,光靠machine learning的人是搞不出来的。 : 实际很多问题要追求真正的100% precision,可以考虑实际一些简单,但是有效的方法 : 。比如一些systematic的方法,或者一些policy,系统架构上的改善。比如要对mp3歌 : 曲进行机器分类的时候,不妨直接看一下嵌入mp3的meta信息,里面包含了歌手名字, : 唱片公司,专辑名字。
|
d******e 发帖数: 7844 | 5 极限性能要看数据本身如何分布,根本不是由模型和决定的。
Machine Learning的目标如何让模型的性能接近极限性能,而不是追求什么100%。
【在 r********3 的大作中提到】 : 目前的machine learning算法似乎没有100%的。如果是100%的规则,那么自己把规则嵌 : 入系统就行了,不用让machine去learn了。楼上给的paper,根本不是追求100% : precision的。追求100%的precision的话,光靠machine learning的人是搞不出来的。 : 实际很多问题要追求真正的100% precision,可以考虑实际一些简单,但是有效的方法 : 。比如一些systematic的方法,或者一些policy,系统架构上的改善。比如要对mp3歌 : 曲进行机器分类的时候,不妨直接看一下嵌入mp3的meta信息,里面包含了歌手名字, : 唱片公司,专辑名字。
|
x******1 发帖数: 31 | 6 Of course no way in general for machine learning to guarantee 100% precision
, unless you blindly label everything into positive.
I thought you were talking about the precision-recall curve. Eg. on
http://nlp.stanford.edu/IR-book/roc.html
the blue curve drops from precision=1 at some point,
and you want to push that point to the right as much as possible
(ie, maximize recall under precision=1).
Then Thorsten's method has a case. |
n****r 发帖数: 471 | 7 You are working on a retrieval system, i guess?
Just plot the Precision and Recall curves on training data, look at it, and
decide the threshold.
It's the easiest way.
If you ask about how to improve the P/R curve, it's a different problem and
related to your application.
【在 D********g 的大作中提到】 : 目前要解决的问题需要100%的test set precision 和尽量高的recall,请问有没有这 : 方面的算法框架推荐。谢谢!
|