由买买提看人间百态

boards

本页内容为未名空间相应帖子的节选和存档,一周内的贴子最多显示50字,超过一周显示500字 访问原贴
JobHunting版 - 请教一道T家的题
相关主题
两个设计题跟Twitter Search and Relevance Team面试,会注重哪类问题的考察啊?
twitter intern面经Twitter 各种职位内推!!!
twitter 电面twitter ah
内推推特(非诚勿扰)Your Twitter rants could soon get longer
twitter free speech throttling is real求twitter内推
请教: twitter这个公司的前景怎样?再说推特,以及Peter Liang #justice4liang
求Twitter onsite 经验 (分享些它家的题目)推特内推 - 有后台大规模分布式系统或者函数编程经验优先
哪位给分析一下VMWARE是怎么把一手好牌打成今天这个样子 (转载)DESPERATE: Twitter Now Trying To Quarantine Alt-Right After Failure To Destroy It
相关话题的讨论汇总
话题: tool话题: twitter话题: good话题: phrase话题: tweet
进入JobHunting版参与讨论
1 (共1页)
f*********m
发帖数: 726
1
给一组tweet的inverted index,怎么找一个phrase(多个词)的最短组合,比如找
phrase "twitter good tool", twitter is a good tool就比twitter is good,
facebook is a better tool距离近
多谢。
r**h
发帖数: 1288
2
和那个“包含一个集合里面所有字母的最小连续子串”的思路应该是一样的吧?
只不过把字母换成字符串
f*****e
发帖数: 2992
3
这个得学了data mining才知道。

【在 f*********m 的大作中提到】
: 给一组tweet的inverted index,怎么找一个phrase(多个词)的最短组合,比如找
: phrase "twitter good tool", twitter is a good tool就比twitter is good,
: facebook is a better tool距离近
: 多谢。

j*****y
发帖数: 1071
4
data ming 有什么经典的 text book吗?

【在 f*****e 的大作中提到】
: 这个得学了data mining才知道。
l*****a
发帖数: 14598
5
这不是那道滑动窗口的题吗?

【在 f*********m 的大作中提到】
: 给一组tweet的inverted index,怎么找一个phrase(多个词)的最短组合,比如找
: phrase "twitter good tool", twitter is a good tool就比twitter is good,
: facebook is a better tool距离近
: 多谢。

d**********x
发帖数: 4083
6
不过我咋觉得这道题不过是edit dist里面的单元从character变成word了呢。。

【在 f*****e 的大作中提到】
: 这个得学了data mining才知道。
l*****a
发帖数: 14598
7
是你说的那样吗?

【在 d**********x 的大作中提到】
: 不过我咋觉得这道题不过是edit dist里面的单元从character变成word了呢。。
d**********x
发帖数: 4083
8
不知道啊,感觉题目叙述有点模糊,等信息

【在 l*****a 的大作中提到】
: 是你说的那样吗?
d**********x
发帖数: 4083
9
这应该是一种评价两个句子差异的办法。归根结底面试官想要的是评价两个句子的距离
的办法。
http://en.wikipedia.org/wiki/Levenshtein_distance

【在 l*****a 的大作中提到】
: 是你说的那样吗?
p*****p
发帖数: 379
10
这里面有twitter is a good tool facebook better这几个词
按每个词出现为1,不出现为0
得到向量:
twitter good tool - (1 0 0 1 1 0 0)
twitter is a good tool - (1 1 1 1 1 0 0)
twitter is good - (1 1 0 1 0 0 0)
facebook is a better tool - (0 1 1 0 1 1 1)
最接近的是向量夹角最小的那个

【在 f*********m 的大作中提到】
: 给一组tweet的inverted index,怎么找一个phrase(多个词)的最短组合,比如找
: phrase "twitter good tool", twitter is a good tool就比twitter is good,
: facebook is a better tool距离近
: 多谢。

相关主题
请教: twitter这个公司的前景怎样?跟Twitter Search and Relevance Team面试,会注重哪类问题的考察啊?
求Twitter onsite 经验 (分享些它家的题目)Twitter 各种职位内推!!!
哪位给分析一下VMWARE是怎么把一手好牌打成今天这个样子 (转载)twitter ah
进入JobHunting版参与讨论
p*****p
发帖数: 379
11
这样的话twitter is goo要比twitter is good yeah距离近吧

【在 d**********x 的大作中提到】
: 这应该是一种评价两个句子差异的办法。归根结底面试官想要的是评价两个句子的距离
: 的办法。
: http://en.wikipedia.org/wiki/Levenshtein_distance

d**********x
发帖数: 4083
12
goo是啥
这个是词level的,和你说的那个很相近
具体距离取决与各种操作的cost

距离

【在 p*****p 的大作中提到】
: 这样的话twitter is goo要比twitter is good yeah距离近吧
p*****p
发帖数: 379
13
就是举个例子,因为leven那个是字level的
不过按词的话应该就行了

【在 d**********x 的大作中提到】
: goo是啥
: 这个是词level的,和你说的那个很相近
: 具体距离取决与各种操作的cost
:
: 距离

c********t
发帖数: 5706
14
问一下顺序有要求吗?比如 "good tool twitter" 是不是比 “twitter is a good
tool"更近?

【在 f*********m 的大作中提到】
: 给一组tweet的inverted index,怎么找一个phrase(多个词)的最短组合,比如找
: phrase "twitter good tool", twitter is a good tool就比twitter is good,
: facebook is a better tool距离近
: 多谢。

f*********m
发帖数: 726
15
我也没有关于这提过多的信息。这道题是我从下面的面经找到的,里边有人提供了思路
,不过我不敢肯定是不是对的。
http://www.mitbbs.com/article_t/JobHunting/32045491.html

【在 f*********m 的大作中提到】
: 给一组tweet的inverted index,怎么找一个phrase(多个词)的最短组合,比如找
: phrase "twitter good tool", twitter is a good tool就比twitter is good,
: facebook is a better tool距离近
: 多谢。

f*********m
发帖数: 726
16
每个cadidant句子是一个tweet吧?从inverted index中得到的吧?

【在 p*****p 的大作中提到】
: 这里面有twitter is a good tool facebook better这几个词
: 按每个词出现为1,不出现为0
: 得到向量:
: twitter good tool - (1 0 0 1 1 0 0)
: twitter is a good tool - (1 1 1 1 1 0 0)
: twitter is good - (1 1 0 1 0 0 0)
: facebook is a better tool - (0 1 1 0 1 1 1)
: 最接近的是向量夹角最小的那个

f*********m
发帖数: 726
17
是有些像。
我觉得除了edit distance小之外,还有考虑长度最短吧?
edit distance最小不一定长度就最短吧。

【在 d**********x 的大作中提到】
: 不过我咋觉得这道题不过是edit dist里面的单元从character变成word了呢。。
d**********x
发帖数: 4083
18
题目叙述太模糊了。。。
如果是只有inverted index,那貌似就完全是另外一道题了。。

【在 f*********m 的大作中提到】
: 是有些像。
: 我觉得除了edit distance小之外,还有考虑长度最短吧?
: edit distance最小不一定长度就最短吧。

f*********m
发帖数: 726
19
可以通过给定的phase中的每个单词找到对应的tweets,每个tweet可以看成是一个
Phase,这样就有很多candidate phases.然后从中间选,比如用edit distance,但是还
没想明白怎么找到最短的。

【在 d**********x 的大作中提到】
: 题目叙述太模糊了。。。
: 如果是只有inverted index,那貌似就完全是另外一道题了。。

a*******3
发帖数: 27
20
说了inverted index,应该是吧tweet good tool三个词分别拉出倒排doc list
对出现同时在三个doc list中的doc(phrase),找最小的吧
如果找不到的话就对同时出现在tweet good或者tweet tool或者good tool的phrase找
最小的
Y********f
发帖数: 410
21
如果有顺序要求,如题目的例子,要求twitter 在good前面,good在tool前面,那么建
立一个数组,数组第i个元素是包含i+1的word的最近的位置。类似于dp
如果没有顺序要求,用set,set的每个元素是最近word的位置,每个word的位置只能出
现一个(扫面过程中,如果该word在set中已经有位置,先把它从set中删除), set中
最大位置和最小位置的差就是当前的包含所有word的字符串的长度。

【在 f*********m 的大作中提到】
: 给一组tweet的inverted index,怎么找一个phrase(多个词)的最短组合,比如找
: phrase "twitter good tool", twitter is a good tool就比twitter is good,
: facebook is a better tool距离近
: 多谢。

1 (共1页)
进入JobHunting版参与讨论
相关主题
DESPERATE: Twitter Now Trying To Quarantine Alt-Right After Failure To Destroy Ittwitter free speech throttling is real
I am done with twitter请教: twitter这个公司的前景怎样?
川普宣布以后只用tweet发布公告,Twitter股票要大涨 (转载)求Twitter onsite 经验 (分享些它家的题目)
求一个twitter的内推哪位给分析一下VMWARE是怎么把一手好牌打成今天这个样子 (转载)
两个设计题跟Twitter Search and Relevance Team面试,会注重哪类问题的考察啊?
twitter intern面经Twitter 各种职位内推!!!
twitter 电面twitter ah
内推推特(非诚勿扰)Your Twitter rants could soon get longer
相关话题的讨论汇总
话题: tool话题: twitter话题: good话题: phrase话题: tweet