由买买提看人间百态

boards

本页内容为未名空间相应帖子的节选和存档,一周内的贴子最多显示50字,超过一周显示500字 访问原贴
JobHunting版 - 讨论几个面试题
相关主题
一道统计面试题回馈本版~ 最近面的面经和收集来的面经~
Adobe面试题, 怎么能把很多文件读到Memory ?能提供几个看似简单 实际不容易的关于数据库 SQL的问题么
分享面试题M$的几个面试题
请教一道FB的面试题[合集] 贡献几个面试题
SQL, recruiter发过来的面试题onsite遇到的几个面试题
google 面试题问几个unix/c++工作面试题
问2个面试题。关于email spam的,帮忙看一下[面试题]unix如何<<一行>>命令给一个文本文件末尾加几个字符
请教概率面试题a公司 onsite 面试题
相关话题的讨论汇总
话题: score话题: feature话题: 小说话题: 模型话题: label
进入JobHunting版参与讨论
1 (共1页)
D***r
发帖数: 7511
1
以前面试碰到过的
都没有唯一正确答案,看看大家有什么好的意见
1 给一段文字,怎么区分是小说还是小说的书评?
比如harry potter和harry potter的review,用什么办法区别?
(当然是用程序,不是找人读)
2 如果推出一种新产品,比如光控节能灯,怎么在投放市场之前估算受欢迎程度?
怎么找出值得推荐的用户?
3 如果商品针对用户的推荐程度有1~5五个等级,有什么办法来计算这些等级?需要什
么数据?用什么模型?
d******e
发帖数: 2265
2
1. bag of words+ naive bayesian.
2. A/B test + collobrative filtering.
3. like amazon

【在 D***r 的大作中提到】
: 以前面试碰到过的
: 都没有唯一正确答案,看看大家有什么好的意见
: 1 给一段文字,怎么区分是小说还是小说的书评?
: 比如harry potter和harry potter的review,用什么办法区别?
: (当然是用程序,不是找人读)
: 2 如果推出一种新产品,比如光控节能灯,怎么在投放市场之前估算受欢迎程度?
: 怎么找出值得推荐的用户?
: 3 如果商品针对用户的推荐程度有1~5五个等级,有什么办法来计算这些等级?需要什
: 么数据?用什么模型?

D***r
发帖数: 7511
3

如果用bag of words, 小说和小说的书评会不会有很多重叠的特征?毕竟人物事件什么
的会有可能一致。

【在 d******e 的大作中提到】
: 1. bag of words+ naive bayesian.
: 2. A/B test + collobrative filtering.
: 3. like amazon

D***r
发帖数: 7511
4
再补充两个问题:
1 如果数据严重biased,比如positive的占绝大多数,有什么好的办法处理?
2 如果数据中只有一小部分有label,其他的有feature但是没有label,
怎么利用这些数据来建立模型
l****5
发帖数: 5865
5
表示没有经历过
o*******4
发帖数: 313
6

1。用现在的model来sample更多case,只加入现在model说是negative的case,然后用
human label?
2. assign higher weights for negative instances?
3. 如果没有rating资源,直接加presume negatives?
些数据来建立模型
clustering,然后看那个cluster里有label的instance大多是什么label?

【在 D***r 的大作中提到】
: 再补充两个问题:
: 1 如果数据严重biased,比如positive的占绝大多数,有什么好的办法处理?
: 2 如果数据中只有一小部分有label,其他的有feature但是没有label,
: 怎么利用这些数据来建立模型

o*******4
发帖数: 313
7

声明:不是data scientist。data scientist面试都求不到…… 我来瞎蒙。
human label instances -> extract text features from documents -> assign
weights of importance of each feature from the document using things like tf
-idf, also pay attention to position of the text feature (url term, title
term...etc) -> train an svm model using some labeled data -> evaluate model
precision recall and f score using hold off set data.
什么数据?用什么模型?
- Use existing ratings and product similarity to estimate future ratings
- Collaborative filtering using user similarly
- Shopping basket frequent pair analysis

【在 D***r 的大作中提到】
: 以前面试碰到过的
: 都没有唯一正确答案,看看大家有什么好的意见
: 1 给一段文字,怎么区分是小说还是小说的书评?
: 比如harry potter和harry potter的review,用什么办法区别?
: (当然是用程序,不是找人读)
: 2 如果推出一种新产品,比如光控节能灯,怎么在投放市场之前估算受欢迎程度?
: 怎么找出值得推荐的用户?
: 3 如果商品针对用户的推荐程度有1~5五个等级,有什么办法来计算这些等级?需要什
: 么数据?用什么模型?

D***r
发帖数: 7511
8

我当时回答的就是做clustering,然后根据clustering的结果加上label
好像刚开始在train的时候最好不要用本来就有label的数据,而用它们来evaluate

【在 o*******4 的大作中提到】
:
: 声明:不是data scientist。data scientist面试都求不到…… 我来瞎蒙。
: human label instances -> extract text features from documents -> assign
: weights of importance of each feature from the document using things like tf
: -idf, also pay attention to position of the text feature (url term, title
: term...etc) -> train an svm model using some labeled data -> evaluate model
: precision recall and f score using hold off set data.
: 什么数据?用什么模型?
: - Use existing ratings and product similarity to estimate future ratings
: - Collaborative filtering using user similarly

o*******4
发帖数: 313
9
一般有labeled data肯定不能全用的,都是8/2开 80% train 20% eval吧。

【在 D***r 的大作中提到】
:
: 我当时回答的就是做clustering,然后根据clustering的结果加上label
: 好像刚开始在train的时候最好不要用本来就有label的数据,而用它们来evaluate

i*****h
发帖数: 1534
10
不好意思,这里能再具体讲讲吗?我被问到过类似的问题,网上看了一些但是面试官都
不太满意,可能我自己理解有偏差。你能再具体说说吗?谢谢啊
相关主题
google 面试题回馈本版~ 最近面的面经和收集来的面经~
问2个面试题。关于email spam的,帮忙看一下能提供几个看似简单 实际不容易的关于数据库 SQL的问题么
请教概率面试题M$的几个面试题
进入JobHunting版参与讨论
e***i
发帖数: 231
11
1. Outsource to India
2. Random sample, free trials, feedback loop
3. Gaussian function, median at 3 stars.

【在 D***r 的大作中提到】
: 以前面试碰到过的
: 都没有唯一正确答案,看看大家有什么好的意见
: 1 给一段文字,怎么区分是小说还是小说的书评?
: 比如harry potter和harry potter的review,用什么办法区别?
: (当然是用程序,不是找人读)
: 2 如果推出一种新产品,比如光控节能灯,怎么在投放市场之前估算受欢迎程度?
: 怎么找出值得推荐的用户?
: 3 如果商品针对用户的推荐程度有1~5五个等级,有什么办法来计算这些等级?需要什
: 么数据?用什么模型?

l*******s
发帖数: 1258
12
提供一些思路
1.用Bag of Words一般就可以,因为毕竟书评和小说里面不少词的分布还是很不一样,
比如某些表示喜欢不喜欢的词。另外可以加上其他的feature,比如文本长短,有无作
者,有无题目,里面的特殊标点符号等。在做文本预处理时,不要用stemmer和全部小
写化,因为这样会丢失很多morphological feature,你想想写评论时肯定跟小说文本
在这些方面有区别。
还有就是Naive Bayes。这里可以用Multinomial NB,应该比Bernoulli NB效果好,因
为文本相对比较多,且用词占vocabulary比重大,因此Multinomial模型好些。
在做feature时,比较一下binary,count,TFIDF,看看那个效果好。一般来说,文本
少的话,binary好些,TFIDF会比较偏向高variation,而降低bias。
另外还可以考虑加紧regularization,L1 L2那套,防止bias和variation问题。
基本上这个问题这么回答,照顾到了各方面。
2.没做过真实project 不清楚。
3.考虑Ordinal regression,处理target variable等级问题。

【在 D***r 的大作中提到】
: 以前面试碰到过的
: 都没有唯一正确答案,看看大家有什么好的意见
: 1 给一段文字,怎么区分是小说还是小说的书评?
: 比如harry potter和harry potter的review,用什么办法区别?
: (当然是用程序,不是找人读)
: 2 如果推出一种新产品,比如光控节能灯,怎么在投放市场之前估算受欢迎程度?
: 怎么找出值得推荐的用户?
: 3 如果商品针对用户的推荐程度有1~5五个等级,有什么办法来计算这些等级?需要什
: 么数据?用什么模型?

m*f
发帖数: 3078
13
这个算马工设计题吗?有没有相关的资料介绍一下,貌似一点都不懂
d******e
发帖数: 2265
14
你吧小说替换为邮件,评论替换为spam,然后google一下:)

【在 D***r 的大作中提到】
:
: 我当时回答的就是做clustering,然后根据clustering的结果加上label
: 好像刚开始在train的时候最好不要用本来就有label的数据,而用它们来evaluate

D***r
发帖数: 7511
15
machine learning相关职位的题
很多都是这种开放性的,课本上一般没有,
没有经验的还真不容易回答
其实我个人觉得这种面试方法不是很好
很多实用的东西其实只要一学就会了,还不如考基础知识

【在 m*f 的大作中提到】
: 这个算马工设计题吗?有没有相关的资料介绍一下,貌似一点都不懂
D***r
发帖数: 7511
16
ordinal regression我以前还真没接触过
看了一下,大致是对score>s和score<=s做logistic regression,
然后用训练的模型输出一些概率
最后score=s的概率就是P(score<=s)-P(score<=s-1)
貌似还是挺合理的

【在 l*******s 的大作中提到】
: 提供一些思路
: 1.用Bag of Words一般就可以,因为毕竟书评和小说里面不少词的分布还是很不一样,
: 比如某些表示喜欢不喜欢的词。另外可以加上其他的feature,比如文本长短,有无作
: 者,有无题目,里面的特殊标点符号等。在做文本预处理时,不要用stemmer和全部小
: 写化,因为这样会丢失很多morphological feature,你想想写评论时肯定跟小说文本
: 在这些方面有区别。
: 还有就是Naive Bayes。这里可以用Multinomial NB,应该比Bernoulli NB效果好,因
: 为文本相对比较多,且用词占vocabulary比重大,因此Multinomial模型好些。
: 在做feature时,比较一下binary,count,TFIDF,看看那个效果好。一般来说,文本
: 少的话,binary好些,TFIDF会比较偏向高variation,而降低bias。

1 (共1页)
进入JobHunting版参与讨论
相关主题
a公司 onsite 面试题SQL, recruiter发过来的面试题
说几个最近的面试题吧,G家的google 面试题
请教软件开发 的 几个面试题!问2个面试题。关于email spam的,帮忙看一下
发几个Javascript面试题请教概率面试题
一道统计面试题回馈本版~ 最近面的面经和收集来的面经~
Adobe面试题, 怎么能把很多文件读到Memory ?能提供几个看似简单 实际不容易的关于数据库 SQL的问题么
分享面试题M$的几个面试题
请教一道FB的面试题[合集] 贡献几个面试题
相关话题的讨论汇总
话题: score话题: feature话题: 小说话题: 模型话题: label