c*********e 发帖数: 16335 | 1 据说gmail里面搜索海量邮件,比outlook里搜索快很多。搜索database按什么算法最快
?用index? |
n******1 发帖数: 3756 | 2 邮件系统和一般database有所不同
另外搜索又和邮件系统本身也不一定直接相关,可能另外做了内容index,因为google
在搜索本身的实力很强
index这个概念很广,只要不需要做历遍,都可以叫index |
c*********e 发帖数: 16335 | 3 恩,都知道google这方面很强,难道他们用的是regular expression来搜索?
google
【在 n******1 的大作中提到】 : 邮件系统和一般database有所不同 : 另外搜索又和邮件系统本身也不一定直接相关,可能另外做了内容index,因为google : 在搜索本身的实力很强 : index这个概念很广,只要不需要做历遍,都可以叫index
|
a9 发帖数: 21638 | 4 不会这么简单的。
【在 c*********e 的大作中提到】 : 恩,都知道google这方面很强,难道他们用的是regular expression来搜索? : : google
|
c*********e 发帖数: 16335 | 5 那你说个细节出来啊。大家都在那瞎猜,猜半天也没结果。难道这个算法,非要cs phd
毕业的才会整明白?
【在 a9 的大作中提到】 : 不会这么简单的。
|
a9 发帖数: 21638 | 6 不知道才瞎猜啊。
估计就是关键词索引吧。
phd
【在 c*********e 的大作中提到】 : 那你说个细节出来啊。大家都在那瞎猜,猜半天也没结果。难道这个算法,非要cs phd : 毕业的才会整明白?
|
n******1 发帖数: 3756 | 7 其中一个最基本的概念就是inverted table,主要是你没了解过IR方面的东西,所以不
太熟悉
nlp.stanford.edu/IR-book/
phd
【在 c*********e 的大作中提到】 : 那你说个细节出来啊。大家都在那瞎猜,猜半天也没结果。难道这个算法,非要cs phd : 毕业的才会整明白?
|
n******1 发帖数: 3756 | 8 当然Google的优势不是在于他们用了这个而其他没用,而是google各个环节做了大量优
化,而且google对用户体验一直把握很好,所以他们一直走在前面,很多纯客观的评价
参数认为google和bing没区别,甚至bing的数据比google还好,但是用户还是觉得
google好用,一方面是google的结果总是比较合理,另一方面也有用户依赖性
这是为什么bing这两年都有报一个广告,告诉用户两个engine没区别
【在 n******1 的大作中提到】 : 其中一个最基本的概念就是inverted table,主要是你没了解过IR方面的东西,所以不 : 太熟悉 : nlp.stanford.edu/IR-book/ : : phd
|
c*********e 发帖数: 16335 | 9 bing咋知道没区别的?难道是copy人家的?
【在 n******1 的大作中提到】 : 当然Google的优势不是在于他们用了这个而其他没用,而是google各个环节做了大量优 : 化,而且google对用户体验一直把握很好,所以他们一直走在前面,很多纯客观的评价 : 参数认为google和bing没区别,甚至bing的数据比google还好,但是用户还是觉得 : google好用,一方面是google的结果总是比较合理,另一方面也有用户依赖性 : 这是为什么bing这两年都有报一个广告,告诉用户两个engine没区别
|
n******1 发帖数: 3756 | 10 搜索引擎有各种评价参数,比如AP(平均准确率,DCG,NDCG 等等
【在 c*********e 的大作中提到】 : bing咋知道没区别的?难道是copy人家的?
|
|
|
s**********o 发帖数: 14359 | 11 一说DATABASE就GOOGLE是不是贻笑大方了,
GOOGLE就是算法搜索,不用DATABASE,跟
数据库没关系 |
c*********e 发帖数: 16335 | 12 gmail肯定是把email存在database里啊。
【在 s**********o 的大作中提到】 : 一说DATABASE就GOOGLE是不是贻笑大方了, : GOOGLE就是算法搜索,不用DATABASE,跟 : 数据库没关系
|
s**********o 发帖数: 14359 | 13 谁玩那个,不关心,免费没好货,不是每个搞IT的都去爱泡古狗非死不可的,
其实搞数据库的,基本远离爱泡古狗,商业数据库要跟钱打交道才
来钱,靠科技更新的,来的快去的也快。
【在 c*********e 的大作中提到】 : gmail肯定是把email存在database里啊。
|
c*********e 发帖数: 16335 | 14 现在有些公司,不爱outlook 365,转投gmail,尽管它有隐私问题,因为gmail搜索速度
比outlook快很多。
【在 s**********o 的大作中提到】 : 谁玩那个,不关心,免费没好货,不是每个搞IT的都去爱泡古狗非死不可的, : 其实搞数据库的,基本远离爱泡古狗,商业数据库要跟钱打交道才 : 来钱,靠科技更新的,来的快去的也快。
|
n******1 发帖数: 3756 | 15 不放数据库,不可能放数据库
【在 c*********e 的大作中提到】 : gmail肯定是把email存在database里啊。
|
a9 发帖数: 21638 | 16 不是常见的关系型数据库而已。
【在 n******1 的大作中提到】 : 不放数据库,不可能放数据库
|
s**********o 发帖数: 14359 | 17 不常见学它干嘛,标新立异啊
【在 a9 的大作中提到】 : 不是常见的关系型数据库而已。
|
c*********e 发帖数: 16335 | 18 那放哪?
【在 n******1 的大作中提到】 : 不放数据库,不可能放数据库
|
c****e 发帖数: 1453 | 19 It's enough to put emails in file. Search is not rocket science. It could be
as simple as revert index. Suppose you have email A,B and C as
A:
To: John Body:Hello
B:
To: Sam Body:Hello
C:
To: Lily Body:Hi
Then you got:
Hello->A,B
Hi->C
When you search "hello", it can find email A and B.
Web search is much more tricky, because of ranking. Imaging you got the A,B
list as a million webpages, you have to show them in order. Pagerank is only
a small part of that. In reality, thousands of signals are used to rank the
order.
For email, it's relatively easy as it's mostly facet search: time ordered,
by sender, .etc.
gmail is not significantly faster than office 365 when you use outlook web
app. It's hard to compare with local as the machine in cloud is much
powerful than your local ones.
Often, google shows edge on performance. It's due to their infastructure:
cache, frontend optimization, datacenter coverage, data geo-replication.
Google puts lots efforts to cover tail cases as well, so it's not only good
at 50 percentile.
【在 c*********e 的大作中提到】 : 那放哪?
|
c*********e 发帖数: 16335 | 20 email search不仅仅是search 发信人,收件人,subject. 如果输入一个关键字,比如
my,那也能搜索邮件内容。
be
【在 c****e 的大作中提到】 : It's enough to put emails in file. Search is not rocket science. It could be : as simple as revert index. Suppose you have email A,B and C as : A: : To: John Body:Hello : B: : To: Sam Body:Hello : C: : To: Lily Body:Hi : Then you got: : Hello->A,B
|
|
|
c****e 发帖数: 1453 | 21 You didn't read what I wrote? Body has no difference with sender or subject.
If you are interested in the implementation detail, take a look at Lucene.
Essentially, you can see each document as a set of field, and you build
reverse index over each document. The field conect helps on structured
filtering. That's why it's called faceted search.
【在 c*********e 的大作中提到】 : email search不仅仅是search 发信人,收件人,subject. 如果输入一个关键字,比如 : my,那也能搜索邮件内容。 : : be
|
c*********e 发帖数: 16335 | 22 如果把emails放在一個文件里,怎么sort email?
be
【在 c****e 的大作中提到】 : It's enough to put emails in file. Search is not rocket science. It could be : as simple as revert index. Suppose you have email A,B and C as : A: : To: John Body:Hello : B: : To: Sam Body:Hello : C: : To: Lily Body:Hi : Then you got: : Hello->A,B
|
c****e 发帖数: 1453 | 23 ?? sorting happened at runtime. It's not persistent in storage layer.
【在 c*********e 的大作中提到】 : 如果把emails放在一個文件里,怎么sort email? : : be
|
c*********e 发帖数: 16335 | 24 据说gmail里面搜索海量邮件,比outlook里搜索快很多。搜索database按什么算法最快
?用index? |
n******1 发帖数: 3756 | 25 邮件系统和一般database有所不同
另外搜索又和邮件系统本身也不一定直接相关,可能另外做了内容index,因为google
在搜索本身的实力很强
index这个概念很广,只要不需要做历遍,都可以叫index |
c*********e 发帖数: 16335 | 26 恩,都知道google这方面很强,难道他们用的是regular expression来搜索?
google
【在 n******1 的大作中提到】 : 邮件系统和一般database有所不同 : 另外搜索又和邮件系统本身也不一定直接相关,可能另外做了内容index,因为google : 在搜索本身的实力很强 : index这个概念很广,只要不需要做历遍,都可以叫index
|
a9 发帖数: 21638 | 27 不会这么简单的。
【在 c*********e 的大作中提到】 : 恩,都知道google这方面很强,难道他们用的是regular expression来搜索? : : google
|
c*********e 发帖数: 16335 | 28 那你说个细节出来啊。大家都在那瞎猜,猜半天也没结果。难道这个算法,非要cs phd
毕业的才会整明白?
【在 a9 的大作中提到】 : 不会这么简单的。
|
a9 发帖数: 21638 | 29 不知道才瞎猜啊。
估计就是关键词索引吧。
phd
【在 c*********e 的大作中提到】 : 那你说个细节出来啊。大家都在那瞎猜,猜半天也没结果。难道这个算法,非要cs phd : 毕业的才会整明白?
|
n******1 发帖数: 3756 | 30 其中一个最基本的概念就是inverted table,主要是你没了解过IR方面的东西,所以不
太熟悉
nlp.stanford.edu/IR-book/
phd
【在 c*********e 的大作中提到】 : 那你说个细节出来啊。大家都在那瞎猜,猜半天也没结果。难道这个算法,非要cs phd : 毕业的才会整明白?
|
|
|
n******1 发帖数: 3756 | 31 当然Google的优势不是在于他们用了这个而其他没用,而是google各个环节做了大量优
化,而且google对用户体验一直把握很好,所以他们一直走在前面,很多纯客观的评价
参数认为google和bing没区别,甚至bing的数据比google还好,但是用户还是觉得
google好用,一方面是google的结果总是比较合理,另一方面也有用户依赖性
这是为什么bing这两年都有报一个广告,告诉用户两个engine没区别
【在 n******1 的大作中提到】 : 其中一个最基本的概念就是inverted table,主要是你没了解过IR方面的东西,所以不 : 太熟悉 : nlp.stanford.edu/IR-book/ : : phd
|
c*********e 发帖数: 16335 | 32 bing咋知道没区别的?难道是copy人家的?
【在 n******1 的大作中提到】 : 当然Google的优势不是在于他们用了这个而其他没用,而是google各个环节做了大量优 : 化,而且google对用户体验一直把握很好,所以他们一直走在前面,很多纯客观的评价 : 参数认为google和bing没区别,甚至bing的数据比google还好,但是用户还是觉得 : google好用,一方面是google的结果总是比较合理,另一方面也有用户依赖性 : 这是为什么bing这两年都有报一个广告,告诉用户两个engine没区别
|
n******1 发帖数: 3756 | 33 搜索引擎有各种评价参数,比如AP(平均准确率,DCG,NDCG 等等
【在 c*********e 的大作中提到】 : bing咋知道没区别的?难道是copy人家的?
|
s**********o 发帖数: 14359 | 34 一说DATABASE就GOOGLE是不是贻笑大方了,
GOOGLE就是算法搜索,不用DATABASE,跟
数据库没关系 |
c*********e 发帖数: 16335 | 35 gmail肯定是把email存在database里啊。
【在 s**********o 的大作中提到】 : 一说DATABASE就GOOGLE是不是贻笑大方了, : GOOGLE就是算法搜索,不用DATABASE,跟 : 数据库没关系
|
s**********o 发帖数: 14359 | 36 谁玩那个,不关心,免费没好货,不是每个搞IT的都去爱泡古狗非死不可的,
其实搞数据库的,基本远离爱泡古狗,商业数据库要跟钱打交道才
来钱,靠科技更新的,来的快去的也快。
【在 c*********e 的大作中提到】 : gmail肯定是把email存在database里啊。
|
c*********e 发帖数: 16335 | 37 现在有些公司,不爱outlook 365,转投gmail,尽管它有隐私问题,因为gmail搜索速度
比outlook快很多。
【在 s**********o 的大作中提到】 : 谁玩那个,不关心,免费没好货,不是每个搞IT的都去爱泡古狗非死不可的, : 其实搞数据库的,基本远离爱泡古狗,商业数据库要跟钱打交道才 : 来钱,靠科技更新的,来的快去的也快。
|
n******1 发帖数: 3756 | 38 不放数据库,不可能放数据库
【在 c*********e 的大作中提到】 : gmail肯定是把email存在database里啊。
|
a9 发帖数: 21638 | 39 不是常见的关系型数据库而已。
【在 n******1 的大作中提到】 : 不放数据库,不可能放数据库
|
s**********o 发帖数: 14359 | 40 不常见学它干嘛,标新立异啊
【在 a9 的大作中提到】 : 不是常见的关系型数据库而已。
|
|
|
c*********e 发帖数: 16335 | 41 那放哪?
【在 n******1 的大作中提到】 : 不放数据库,不可能放数据库
|
c****e 发帖数: 1453 | 42 It's enough to put emails in file. Search is not rocket science. It could be
as simple as revert index. Suppose you have email A,B and C as
A:
To: John Body:Hello
B:
To: Sam Body:Hello
C:
To: Lily Body:Hi
Then you got:
Hello->A,B
Hi->C
When you search "hello", it can find email A and B.
Web search is much more tricky, because of ranking. Imaging you got the A,B
list as a million webpages, you have to show them in order. Pagerank is only
a small part of that. In reality, thousands of signals are used to rank the
order.
For email, it's relatively easy as it's mostly facet search: time ordered,
by sender, .etc.
gmail is not significantly faster than office 365 when you use outlook web
app. It's hard to compare with local as the machine in cloud is much
powerful than your local ones.
Often, google shows edge on performance. It's due to their infastructure:
cache, frontend optimization, datacenter coverage, data geo-replication.
Google puts lots efforts to cover tail cases as well, so it's not only good
at 50 percentile.
【在 c*********e 的大作中提到】 : 那放哪?
|
c*********e 发帖数: 16335 | 43 email search不仅仅是search 发信人,收件人,subject. 如果输入一个关键字,比如
my,那也能搜索邮件内容。
be
【在 c****e 的大作中提到】 : It's enough to put emails in file. Search is not rocket science. It could be : as simple as revert index. Suppose you have email A,B and C as : A: : To: John Body:Hello : B: : To: Sam Body:Hello : C: : To: Lily Body:Hi : Then you got: : Hello->A,B
|
c****e 发帖数: 1453 | 44 You didn't read what I wrote? Body has no difference with sender or subject.
If you are interested in the implementation detail, take a look at Lucene.
Essentially, you can see each document as a set of field, and you build
reverse index over each document. The field conect helps on structured
filtering. That's why it's called faceted search.
【在 c*********e 的大作中提到】 : email search不仅仅是search 发信人,收件人,subject. 如果输入一个关键字,比如 : my,那也能搜索邮件内容。 : : be
|
c*********e 发帖数: 16335 | 45 如果把emails放在一個文件里,怎么sort email?
be
【在 c****e 的大作中提到】 : It's enough to put emails in file. Search is not rocket science. It could be : as simple as revert index. Suppose you have email A,B and C as : A: : To: John Body:Hello : B: : To: Sam Body:Hello : C: : To: Lily Body:Hi : Then you got: : Hello->A,B
|
c****e 发帖数: 1453 | 46 ?? sorting happened at runtime. It's not persistent in storage layer.
【在 c*********e 的大作中提到】 : 如果把emails放在一個文件里,怎么sort email? : : be
|
n*******k 发帖数: 100 | 47 如果是纯文本文件,应该是用term(distinct word)做inverted index。搜索时,找到
含有此term的Document ID。可能好几个Document合并存在一个file里面。用Document
ID找到对应file里面的开始字节位置,和一个游标(长度)。
doc# file_path start end
1 /home/xx1/f1 0 1000
2 /home/xx1/f1 1001 2303
3 /home/xx1/f2 0 1299
3 /home/xx1/f2 1300 2219 |
c*********e 发帖数: 16335 | 48 那带有25mb附件的email呢?
Document
【在 n*******k 的大作中提到】 : 如果是纯文本文件,应该是用term(distinct word)做inverted index。搜索时,找到 : 含有此term的Document ID。可能好几个Document合并存在一个file里面。用Document : ID找到对应file里面的开始字节位置,和一个游标(长度)。 : doc# file_path start end : 1 /home/xx1/f1 0 1000 : 2 /home/xx1/f1 1001 2303 : 3 /home/xx1/f2 0 1299 : 3 /home/xx1/f2 1300 2219
|
n*******k 发帖数: 100 | 49 如果加得是.jpg,.bmp之类图片,文件单独存一个文件夹,文件名重命名成序号。
图片是没办法搜索关键词了。
email# file_path start end attached-img
1 /home/xx1/file/f1 0 1000 /home/xx1/image/1.jpg
2 /home/xx1/file/f1 1001 2303 /home/xx1/image/2.bmp
3 /home/xx1/file/f2 0 1299 null
3 /home/xx1/file/f2 1300 2219 null
如果加得是.pdf文件
email# file_path start end attached-pdf
1 /home/xx1/file/f1 0 1000 /home/xx1/pdf/1.pdf
2 /home/xx1/file/f1 1001 2303 null
3 /home/xx1/file/f2 0 1299 /home/xx1/pdf/2.pdf
3 /home/xx1/file/f2 1300 2219 null
pdf# file_path ownByEmail#
1 /home/xx1/pdf/1.pdf 1
2 /home/xx1/pdf/2.pdf 3
所有pdf文件可以单独做个inverted index,找到匹配关键词的pdf文件,返回路径,以及
email正文 |
w*r 发帖数: 2421 | 50 please check google GFS. google.baidu.taobao.fb definitely are not using
traditional RDBMS to store./search/process data. google has its own google
file sys, taobao has its own taobao FS.. i believe baidu and others are
pursuing the same route |