C***o 发帖数: 68 | 1 在帮公司搞一个类似于比如说linedin的 "people you may know"的功能。。今天给同
事的账号测试一下,他看了之后惊叹道:”It's super, super cool“, 然后我就欢
天喜地的回家了。
其实run model什么都不难,怎么整理数据让其fit in to the recommendation engine
's input format 花了居多时间。。 |
g**********l 发帖数: 214 | 2 which software/package did you use?
the more difficult part is not building the model but serving large data in
real-time. |
j****y 发帖数: 684 | 3 本来就是这样的吧
那些个model其实效果都还不错,但是数据才是真的问题。
所以上课,research大家都是在一个小的data上看看结果,提高个5%,说我这新model
老NB了,有很多好性质啥的。
工业界中大家都是用最最简的model, 生物相关的logist regression, finance 相关的
OLS。
上次用了个ML的算法,数据搞了很久,对方看了说,太高深了,不懂,我们不用,就
logist regression就好了。
engine
【在 C***o 的大作中提到】 : 在帮公司搞一个类似于比如说linedin的 "people you may know"的功能。。今天给同 : 事的账号测试一下,他看了之后惊叹道:”It's super, super cool“, 然后我就欢 : 天喜地的回家了。 : 其实run model什么都不难,怎么整理数据让其fit in to the recommendation engine : 's input format 花了居多时间。。
|
k*z 发帖数: 4704 | 4 industry 模型都是骗人的,数据都是苦力的。 |
c**d 发帖数: 104 | 5 co-ask "which software/package did you use?"
in
【在 g**********l 的大作中提到】 : which software/package did you use? : the more difficult part is not building the model but serving large data in : real-time.
|
C***o 发帖数: 68 | 6 用的是apache开源的mahout,real-time的话我们用cassandra。
in
【在 g**********l 的大作中提到】 : which software/package did you use? : the more difficult part is not building the model but serving large data in : real-time.
|
l*******s 发帖数: 1258 | 7 请问是直接在java code里面调用的各种API,还是只用command line run了一下?
【在 C***o 的大作中提到】 : 用的是apache开源的mahout,real-time的话我们用cassandra。 : : in
|