讨论几个面试题 - JobHunting版

本页内容为未名空间相应帖子的节选和存档，一周内的贴子最多显示50字，超过一周显示500字访问原贴

JobHunting版 - 讨论几个面试题

相关主题
● 一道统计面试题	● 回馈本版~ 最近面的面经和收集来的面经~
● Adobe面试题，怎么能把很多文件读到Memory ?	● 能提供几个看似简单实际不容易的关于数据库 SQL的问题么
● 分享面试题	● M$的几个面试题
● 请教一道FB的面试题	● [合集] 贡献几个面试题
● SQL, recruiter发过来的面试题	● onsite遇到的几个面试题
● google 面试题	● 问几个unix/c++工作面试题
● 问2个面试题。关于email spam的，帮忙看一下	● [面试题]unix如何<<一行>>命令给一个文本文件末尾加几个字符
● 请教概率面试题	● a公司 onsite 面试题

相关话题的讨论汇总
话题: score话题: feature话题: 小说话题: 模型话题: label

进入JobHunting版参与讨论

(共1页)

D***r
发帖数: 7511

以前面试碰到过的
都没有唯一正确答案，看看大家有什么好的意见
1 给一段文字，怎么区分是小说还是小说的书评？
比如harry potter和harry potter的review，用什么办法区别？
（当然是用程序，不是找人读)
2 如果推出一种新产品，比如光控节能灯，怎么在投放市场之前估算受欢迎程度？
怎么找出值得推荐的用户？
3 如果商品针对用户的推荐程度有1～5五个等级，有什么办法来计算这些等级？需要什
么数据？用什么模型？

d******e
发帖数: 2265

1. bag of words+ naive bayesian.
2. A/B test + collobrative filtering.
3. like amazon

【在 D***r 的大作中提到】

: 以前面试碰到过的
: 都没有唯一正确答案，看看大家有什么好的意见
: 1 给一段文字，怎么区分是小说还是小说的书评？
: 比如harry potter和harry potter的review，用什么办法区别？
: （当然是用程序，不是找人读)
: 2 如果推出一种新产品，比如光控节能灯，怎么在投放市场之前估算受欢迎程度？
: 怎么找出值得推荐的用户？
: 3 如果商品针对用户的推荐程度有1～5五个等级，有什么办法来计算这些等级？需要什
: 么数据？用什么模型？

D***r
发帖数: 7511

如果用bag of words, 小说和小说的书评会不会有很多重叠的特征？毕竟人物事件什么
的会有可能一致。

【在 d******e 的大作中提到】

: 1. bag of words+ naive bayesian.
: 2. A/B test + collobrative filtering.
: 3. like amazon

D***r
发帖数: 7511

再补充两个问题：
1 如果数据严重biased，比如positive的占绝大多数，有什么好的办法处理？
2 如果数据中只有一小部分有label，其他的有feature但是没有label，
怎么利用这些数据来建立模型

l****5
发帖数: 5865

表示没有经历过

o*******4
发帖数: 313

1。用现在的model来sample更多case，只加入现在model说是negative的case，然后用
human label？
2. assign higher weights for negative instances？
3. 如果没有rating资源，直接加presume negatives？
些数据来建立模型
clustering，然后看那个cluster里有label的instance大多是什么label？

【在 D***r 的大作中提到】

: 再补充两个问题：
: 1 如果数据严重biased，比如positive的占绝大多数，有什么好的办法处理？
: 2 如果数据中只有一小部分有label，其他的有feature但是没有label，
: 怎么利用这些数据来建立模型

o*******4
发帖数: 313

声明：不是data scientist。data scientist面试都求不到…… 我来瞎蒙。
human label instances -> extract text features from documents -> assign
weights of importance of each feature from the document using things like tf
-idf, also pay attention to position of the text feature (url term, title
term...etc) -> train an svm model using some labeled data －> evaluate model
precision recall and f score using hold off set data.
什么数据？用什么模型？
- Use existing ratings and product similarity to estimate future ratings
- Collaborative filtering using user similarly
- Shopping basket frequent pair analysis

【在 D***r 的大作中提到】

D***r
发帖数: 7511

我当时回答的就是做clustering，然后根据clustering的结果加上label
好像刚开始在train的时候最好不要用本来就有label的数据，而用它们来evaluate

【在 o*******4 的大作中提到】

:
: 声明：不是data scientist。data scientist面试都求不到…… 我来瞎蒙。
: human label instances -> extract text features from documents -> assign
: weights of importance of each feature from the document using things like tf
: -idf, also pay attention to position of the text feature (url term, title
: term...etc) -> train an svm model using some labeled data －> evaluate model
: precision recall and f score using hold off set data.
: 什么数据？用什么模型？
: - Use existing ratings and product similarity to estimate future ratings
: - Collaborative filtering using user similarly

o*******4
发帖数: 313

一般有labeled data肯定不能全用的，都是8/2开 80% train 20% eval吧。

【在 D***r 的大作中提到】

:
: 我当时回答的就是做clustering，然后根据clustering的结果加上label
: 好像刚开始在train的时候最好不要用本来就有label的数据，而用它们来evaluate

i*****h
发帖数: 1534

不好意思，这里能再具体讲讲吗？我被问到过类似的问题，网上看了一些但是面试官都
不太满意，可能我自己理解有偏差。你能再具体说说吗？谢谢啊

相关主题
● google 面试题	● 回馈本版~ 最近面的面经和收集来的面经~
● 问2个面试题。关于email spam的，帮忙看一下	● 能提供几个看似简单实际不容易的关于数据库 SQL的问题么
● 请教概率面试题	● M$的几个面试题
进入JobHunting版参与讨论

e***i
发帖数: 231

1. Outsource to India
2. Random sample, free trials, feedback loop
3. Gaussian function, median at 3 stars.

【在 D***r 的大作中提到】

l*******s
发帖数: 1258

提供一些思路
1.用Bag of Words一般就可以，因为毕竟书评和小说里面不少词的分布还是很不一样，
比如某些表示喜欢不喜欢的词。另外可以加上其他的feature，比如文本长短，有无作
者，有无题目，里面的特殊标点符号等。在做文本预处理时，不要用stemmer和全部小
写化，因为这样会丢失很多morphological feature，你想想写评论时肯定跟小说文本
在这些方面有区别。
还有就是Naive Bayes。这里可以用Multinomial NB，应该比Bernoulli NB效果好，因
为文本相对比较多，且用词占vocabulary比重大，因此Multinomial模型好些。
在做feature时，比较一下binary，count，TFIDF，看看那个效果好。一般来说，文本
少的话，binary好些，TFIDF会比较偏向高variation，而降低bias。
另外还可以考虑加紧regularization，L1 L2那套，防止bias和variation问题。
基本上这个问题这么回答，照顾到了各方面。
2.没做过真实project 不清楚。
3.考虑Ordinal regression，处理target variable等级问题。

【在 D***r 的大作中提到】

m*f
发帖数: 3078

这个算马工设计题吗？有没有相关的资料介绍一下，貌似一点都不懂

d******e
发帖数: 2265

你吧小说替换为邮件，评论替换为spam,然后google一下:)

【在 D***r 的大作中提到】

:
: 我当时回答的就是做clustering，然后根据clustering的结果加上label
: 好像刚开始在train的时候最好不要用本来就有label的数据，而用它们来evaluate

D***r
发帖数: 7511

machine learning相关职位的题
很多都是这种开放性的，课本上一般没有，
没有经验的还真不容易回答
其实我个人觉得这种面试方法不是很好
很多实用的东西其实只要一学就会了，还不如考基础知识

【在 m*f 的大作中提到】

: 这个算马工设计题吗？有没有相关的资料介绍一下，貌似一点都不懂

D***r
发帖数: 7511

ordinal regression我以前还真没接触过
看了一下，大致是对score>s和score<=s做logistic regression，
然后用训练的模型输出一些概率
最后score=s的概率就是P(score<=s)-P(score<=s-1)
貌似还是挺合理的

【在 l*******s 的大作中提到】

: 提供一些思路
: 1.用Bag of Words一般就可以，因为毕竟书评和小说里面不少词的分布还是很不一样，
: 比如某些表示喜欢不喜欢的词。另外可以加上其他的feature，比如文本长短，有无作
: 者，有无题目，里面的特殊标点符号等。在做文本预处理时，不要用stemmer和全部小
: 写化，因为这样会丢失很多morphological feature，你想想写评论时肯定跟小说文本
: 在这些方面有区别。
: 还有就是Naive Bayes。这里可以用Multinomial NB，应该比Bernoulli NB效果好，因
: 为文本相对比较多，且用词占vocabulary比重大，因此Multinomial模型好些。
: 在做feature时，比较一下binary，count，TFIDF，看看那个效果好。一般来说，文本
: 少的话，binary好些，TFIDF会比较偏向高variation，而降低bias。

(共1页)

进入JobHunting版参与讨论

相关主题
● a公司 onsite 面试题	● SQL, recruiter发过来的面试题
● 说几个最近的面试题吧，G家的	● google 面试题
● 请教软件开发的几个面试题！	● 问2个面试题。关于email spam的，帮忙看一下
● 发几个Javascript面试题	● 请教概率面试题
● 一道统计面试题	● 回馈本版~ 最近面的面经和收集来的面经~
● Adobe面试题，怎么能把很多文件读到Memory ?	● 能提供几个看似简单实际不容易的关于数据库 SQL的问题么
● 分享面试题	● M$的几个面试题
● 请教一道FB的面试题	● [合集] 贡献几个面试题

相关话题的讨论汇总
话题: score话题: feature话题: 小说话题: 模型话题: label

#	版面	帖数(主题数)
-	全站	4871 (796)
1	Military	3777 (569)
2	Stock	341 (51)
3	Joke	117 (17)
4	History	116 (3)
5	Automobile	100 (9)
6	USANews	55 (9)
7	Midlife	45 (1)
8	Headline	41 (41)
9	Dreamer	33 (13)
10	FleaMarket	32 (20)
11	Living	30 (7)

boards

未名新帖统计// 7月16日

历史上的今天