D***r 发帖数: 7511 | 1 以前面试碰到过的
都没有唯一正确答案,看看大家有什么好的意见
1 给一段文字,怎么区分是小说还是小说的书评?
比如harry potter和harry potter的review,用什么办法区别?
(当然是用程序,不是找人读)
2 如果推出一种新产品,比如光控节能灯,怎么在投放市场之前估算受欢迎程度?
怎么找出值得推荐的用户?
3 如果商品针对用户的推荐程度有1~5五个等级,有什么办法来计算这些等级?需要什
么数据?用什么模型? |
d******e 发帖数: 2265 | 2 1. bag of words+ naive bayesian.
2. A/B test + collobrative filtering.
3. like amazon
【在 D***r 的大作中提到】 : 以前面试碰到过的 : 都没有唯一正确答案,看看大家有什么好的意见 : 1 给一段文字,怎么区分是小说还是小说的书评? : 比如harry potter和harry potter的review,用什么办法区别? : (当然是用程序,不是找人读) : 2 如果推出一种新产品,比如光控节能灯,怎么在投放市场之前估算受欢迎程度? : 怎么找出值得推荐的用户? : 3 如果商品针对用户的推荐程度有1~5五个等级,有什么办法来计算这些等级?需要什 : 么数据?用什么模型?
|
D***r 发帖数: 7511 | 3
如果用bag of words, 小说和小说的书评会不会有很多重叠的特征?毕竟人物事件什么
的会有可能一致。
【在 d******e 的大作中提到】 : 1. bag of words+ naive bayesian. : 2. A/B test + collobrative filtering. : 3. like amazon
|
D***r 发帖数: 7511 | 4 再补充两个问题:
1 如果数据严重biased,比如positive的占绝大多数,有什么好的办法处理?
2 如果数据中只有一小部分有label,其他的有feature但是没有label,
怎么利用这些数据来建立模型 |
l****5 发帖数: 5865 | |
o*******4 发帖数: 313 | 6
1。用现在的model来sample更多case,只加入现在model说是negative的case,然后用
human label?
2. assign higher weights for negative instances?
3. 如果没有rating资源,直接加presume negatives?
些数据来建立模型
clustering,然后看那个cluster里有label的instance大多是什么label?
【在 D***r 的大作中提到】 : 再补充两个问题: : 1 如果数据严重biased,比如positive的占绝大多数,有什么好的办法处理? : 2 如果数据中只有一小部分有label,其他的有feature但是没有label, : 怎么利用这些数据来建立模型
|
o*******4 发帖数: 313 | 7
声明:不是data scientist。data scientist面试都求不到…… 我来瞎蒙。
human label instances -> extract text features from documents -> assign
weights of importance of each feature from the document using things like tf
-idf, also pay attention to position of the text feature (url term, title
term...etc) -> train an svm model using some labeled data -> evaluate model
precision recall and f score using hold off set data.
什么数据?用什么模型?
- Use existing ratings and product similarity to estimate future ratings
- Collaborative filtering using user similarly
- Shopping basket frequent pair analysis
【在 D***r 的大作中提到】 : 以前面试碰到过的 : 都没有唯一正确答案,看看大家有什么好的意见 : 1 给一段文字,怎么区分是小说还是小说的书评? : 比如harry potter和harry potter的review,用什么办法区别? : (当然是用程序,不是找人读) : 2 如果推出一种新产品,比如光控节能灯,怎么在投放市场之前估算受欢迎程度? : 怎么找出值得推荐的用户? : 3 如果商品针对用户的推荐程度有1~5五个等级,有什么办法来计算这些等级?需要什 : 么数据?用什么模型?
|
D***r 发帖数: 7511 | 8
我当时回答的就是做clustering,然后根据clustering的结果加上label
好像刚开始在train的时候最好不要用本来就有label的数据,而用它们来evaluate
【在 o*******4 的大作中提到】 : : 声明:不是data scientist。data scientist面试都求不到…… 我来瞎蒙。 : human label instances -> extract text features from documents -> assign : weights of importance of each feature from the document using things like tf : -idf, also pay attention to position of the text feature (url term, title : term...etc) -> train an svm model using some labeled data -> evaluate model : precision recall and f score using hold off set data. : 什么数据?用什么模型? : - Use existing ratings and product similarity to estimate future ratings : - Collaborative filtering using user similarly
|
o*******4 发帖数: 313 | 9 一般有labeled data肯定不能全用的,都是8/2开 80% train 20% eval吧。
【在 D***r 的大作中提到】 : : 我当时回答的就是做clustering,然后根据clustering的结果加上label : 好像刚开始在train的时候最好不要用本来就有label的数据,而用它们来evaluate
|
i*****h 发帖数: 1534 | 10 不好意思,这里能再具体讲讲吗?我被问到过类似的问题,网上看了一些但是面试官都
不太满意,可能我自己理解有偏差。你能再具体说说吗?谢谢啊 |
|
|
e***i 发帖数: 231 | 11 1. Outsource to India
2. Random sample, free trials, feedback loop
3. Gaussian function, median at 3 stars.
【在 D***r 的大作中提到】 : 以前面试碰到过的 : 都没有唯一正确答案,看看大家有什么好的意见 : 1 给一段文字,怎么区分是小说还是小说的书评? : 比如harry potter和harry potter的review,用什么办法区别? : (当然是用程序,不是找人读) : 2 如果推出一种新产品,比如光控节能灯,怎么在投放市场之前估算受欢迎程度? : 怎么找出值得推荐的用户? : 3 如果商品针对用户的推荐程度有1~5五个等级,有什么办法来计算这些等级?需要什 : 么数据?用什么模型?
|
l*******s 发帖数: 1258 | 12 提供一些思路
1.用Bag of Words一般就可以,因为毕竟书评和小说里面不少词的分布还是很不一样,
比如某些表示喜欢不喜欢的词。另外可以加上其他的feature,比如文本长短,有无作
者,有无题目,里面的特殊标点符号等。在做文本预处理时,不要用stemmer和全部小
写化,因为这样会丢失很多morphological feature,你想想写评论时肯定跟小说文本
在这些方面有区别。
还有就是Naive Bayes。这里可以用Multinomial NB,应该比Bernoulli NB效果好,因
为文本相对比较多,且用词占vocabulary比重大,因此Multinomial模型好些。
在做feature时,比较一下binary,count,TFIDF,看看那个效果好。一般来说,文本
少的话,binary好些,TFIDF会比较偏向高variation,而降低bias。
另外还可以考虑加紧regularization,L1 L2那套,防止bias和variation问题。
基本上这个问题这么回答,照顾到了各方面。
2.没做过真实project 不清楚。
3.考虑Ordinal regression,处理target variable等级问题。
【在 D***r 的大作中提到】 : 以前面试碰到过的 : 都没有唯一正确答案,看看大家有什么好的意见 : 1 给一段文字,怎么区分是小说还是小说的书评? : 比如harry potter和harry potter的review,用什么办法区别? : (当然是用程序,不是找人读) : 2 如果推出一种新产品,比如光控节能灯,怎么在投放市场之前估算受欢迎程度? : 怎么找出值得推荐的用户? : 3 如果商品针对用户的推荐程度有1~5五个等级,有什么办法来计算这些等级?需要什 : 么数据?用什么模型?
|
m*f 发帖数: 3078 | 13 这个算马工设计题吗?有没有相关的资料介绍一下,貌似一点都不懂 |
d******e 发帖数: 2265 | 14 你吧小说替换为邮件,评论替换为spam,然后google一下:)
【在 D***r 的大作中提到】 : : 我当时回答的就是做clustering,然后根据clustering的结果加上label : 好像刚开始在train的时候最好不要用本来就有label的数据,而用它们来evaluate
|
D***r 发帖数: 7511 | 15 machine learning相关职位的题
很多都是这种开放性的,课本上一般没有,
没有经验的还真不容易回答
其实我个人觉得这种面试方法不是很好
很多实用的东西其实只要一学就会了,还不如考基础知识
【在 m*f 的大作中提到】 : 这个算马工设计题吗?有没有相关的资料介绍一下,貌似一点都不懂
|
D***r 发帖数: 7511 | 16 ordinal regression我以前还真没接触过
看了一下,大致是对score>s和score<=s做logistic regression,
然后用训练的模型输出一些概率
最后score=s的概率就是P(score<=s)-P(score<=s-1)
貌似还是挺合理的
【在 l*******s 的大作中提到】 : 提供一些思路 : 1.用Bag of Words一般就可以,因为毕竟书评和小说里面不少词的分布还是很不一样, : 比如某些表示喜欢不喜欢的词。另外可以加上其他的feature,比如文本长短,有无作 : 者,有无题目,里面的特殊标点符号等。在做文本预处理时,不要用stemmer和全部小 : 写化,因为这样会丢失很多morphological feature,你想想写评论时肯定跟小说文本 : 在这些方面有区别。 : 还有就是Naive Bayes。这里可以用Multinomial NB,应该比Bernoulli NB效果好,因 : 为文本相对比较多,且用词占vocabulary比重大,因此Multinomial模型好些。 : 在做feature时,比较一下binary,count,TFIDF,看看那个效果好。一般来说,文本 : 少的话,binary好些,TFIDF会比较偏向高variation,而降低bias。
|