搜索database按什么算法最快？用index? - Database版

本页内容为未名空间相应帖子的节选和存档，一周内的贴子最多显示50字，超过一周显示500字访问原贴

Database版 - 搜索database按什么算法最快？用index?

相关主题
● 为啥RDBMS只用一个Index? (转载)	● Relational database presentation help
● 请问DATABASE各位大侠	● help
● scalable database 是啥意思	● [转载] Java/JSP/Servlets... and Database(Oracle/DB2)
● is SAS database a RDBMS?	● MySQL database backup
● c，java, 数据库内核，数据库应用 (转载)	● mysql -- could not use the database
● [提供内推] Senior DBA （SFO市区, MySQL）	● 请教一个sql的问题
● [提供内推] Senior DBA SFO, mysql, cassandra, redis, hadoop	● [合集] 数据库这门课值得学吗？
● 伪币求答案	● 请教一个sqlplus的问题

相关话题的讨论汇总
话题: xx1话题: google话题: body话题: 搜索话题: search

进入Database版参与讨论

(共1页)

c*********e
发帖数: 16335

据说gmail里面搜索海量邮件，比outlook里搜索快很多。搜索database按什么算法最快
？用index?

n******1
发帖数: 3756

邮件系统和一般database有所不同
另外搜索又和邮件系统本身也不一定直接相关，可能另外做了内容index，因为google
在搜索本身的实力很强
index这个概念很广，只要不需要做历遍，都可以叫index

c*********e
发帖数: 16335

恩，都知道google这方面很强，难道他们用的是regular expression来搜索？

google

【在 n******1 的大作中提到】

: 邮件系统和一般database有所不同
: 另外搜索又和邮件系统本身也不一定直接相关，可能另外做了内容index，因为google
: 在搜索本身的实力很强
: index这个概念很广，只要不需要做历遍，都可以叫index

a9
发帖数: 21638

不会这么简单的。

【在 c*********e 的大作中提到】

: 恩，都知道google这方面很强，难道他们用的是regular expression来搜索？
:
: google

c*********e
发帖数: 16335

那你说个细节出来啊。大家都在那瞎猜，猜半天也没结果。难道这个算法，非要cs phd
毕业的才会整明白？

【在 a9 的大作中提到】

: 不会这么简单的。

a9
发帖数: 21638

不知道才瞎猜啊。
估计就是关键词索引吧。

phd

【在 c*********e 的大作中提到】

: 那你说个细节出来啊。大家都在那瞎猜，猜半天也没结果。难道这个算法，非要cs phd
: 毕业的才会整明白？

n******1
发帖数: 3756

其中一个最基本的概念就是inverted table，主要是你没了解过IR方面的东西，所以不
太熟悉
nlp.stanford.edu/IR-book/

phd

【在 c*********e 的大作中提到】

: 那你说个细节出来啊。大家都在那瞎猜，猜半天也没结果。难道这个算法，非要cs phd
: 毕业的才会整明白？

n******1
发帖数: 3756

当然Google的优势不是在于他们用了这个而其他没用，而是google各个环节做了大量优
化，而且google对用户体验一直把握很好，所以他们一直走在前面，很多纯客观的评价
参数认为google和bing没区别，甚至bing的数据比google还好，但是用户还是觉得
google好用，一方面是google的结果总是比较合理，另一方面也有用户依赖性
这是为什么bing这两年都有报一个广告，告诉用户两个engine没区别

【在 n******1 的大作中提到】

: 其中一个最基本的概念就是inverted table，主要是你没了解过IR方面的东西，所以不
: 太熟悉
: nlp.stanford.edu/IR-book/
:
: phd

c*********e
发帖数: 16335

bing咋知道没区别的？难道是copy人家的？

【在 n******1 的大作中提到】

: 当然Google的优势不是在于他们用了这个而其他没用，而是google各个环节做了大量优
: 化，而且google对用户体验一直把握很好，所以他们一直走在前面，很多纯客观的评价
: 参数认为google和bing没区别，甚至bing的数据比google还好，但是用户还是觉得
: google好用，一方面是google的结果总是比较合理，另一方面也有用户依赖性
: 这是为什么bing这两年都有报一个广告，告诉用户两个engine没区别

n******1
发帖数: 3756

搜索引擎有各种评价参数，比如AP（平均准确率,DCG,NDCG 等等

【在 c*********e 的大作中提到】

: bing咋知道没区别的？难道是copy人家的？

相关主题
● [提供内推] Senior DBA （SFO市区, MySQL）	● Relational database presentation help
● [提供内推] Senior DBA SFO, mysql, cassandra, redis, hadoop	● help
● 伪币求答案	● [转载] Java/JSP/Servlets... and Database(Oracle/DB2)
进入Database版参与讨论

s**********o
发帖数: 14359

一说DATABASE就GOOGLE是不是贻笑大方了，
GOOGLE就是算法搜索，不用DATABASE，跟
数据库没关系

c*********e
发帖数: 16335

gmail肯定是把email存在database里啊。

【在 s**********o 的大作中提到】

: 一说DATABASE就GOOGLE是不是贻笑大方了，
: GOOGLE就是算法搜索，不用DATABASE，跟
: 数据库没关系

s**********o
发帖数: 14359

谁玩那个，不关心，免费没好货，不是每个搞IT的都去爱泡古狗非死不可的，
其实搞数据库的，基本远离爱泡古狗，商业数据库要跟钱打交道才
来钱，靠科技更新的，来的快去的也快。

【在 c*********e 的大作中提到】

: gmail肯定是把email存在database里啊。

c*********e
发帖数: 16335

现在有些公司，不爱outlook 365,转投gmail,尽管它有隐私问题，因为gmail搜索速度
比outlook快很多。

【在 s**********o 的大作中提到】

: 谁玩那个，不关心，免费没好货，不是每个搞IT的都去爱泡古狗非死不可的，
: 其实搞数据库的，基本远离爱泡古狗，商业数据库要跟钱打交道才
: 来钱，靠科技更新的，来的快去的也快。

n******1
发帖数: 3756

不放数据库，不可能放数据库

【在 c*********e 的大作中提到】

: gmail肯定是把email存在database里啊。

a9
发帖数: 21638

不是常见的关系型数据库而已。

【在 n******1 的大作中提到】

: 不放数据库，不可能放数据库

s**********o
发帖数: 14359

不常见学它干嘛，标新立异啊

【在 a9 的大作中提到】

: 不是常见的关系型数据库而已。

c*********e
发帖数: 16335

那放哪？

【在 n******1 的大作中提到】

: 不放数据库，不可能放数据库

c****e
发帖数: 1453

It's enough to put emails in file. Search is not rocket science. It could be
as simple as revert index. Suppose you have email A,B and C as
A:
To: John Body:Hello
B:
To: Sam Body:Hello
C:
To: Lily Body:Hi
Then you got:
Hello->A,B
Hi->C
When you search "hello", it can find email A and B.
Web search is much more tricky, because of ranking. Imaging you got the A,B
list as a million webpages, you have to show them in order. Pagerank is only
a small part of that. In reality, thousands of signals are used to rank the
order.
For email, it's relatively easy as it's mostly facet search: time ordered,
by sender, .etc.
gmail is not significantly faster than office 365 when you use outlook web
app. It's hard to compare with local as the machine in cloud is much
powerful than your local ones.
Often, google shows edge on performance. It's due to their infastructure:
cache, frontend optimization, datacenter coverage, data geo-replication.
Google puts lots efforts to cover tail cases as well, so it's not only good
at 50 percentile.

【在 c*********e 的大作中提到】

: 那放哪？

c*********e
发帖数: 16335

email search不仅仅是search 发信人，收件人，subject. 如果输入一个关键字，比如
my,那也能搜索邮件内容。

be

【在 c****e 的大作中提到】

: It's enough to put emails in file. Search is not rocket science. It could be
: as simple as revert index. Suppose you have email A,B and C as
: A:
: To: John Body:Hello
: B:
: To: Sam Body:Hello
: C:
: To: Lily Body:Hi
: Then you got:
: Hello->A,B

相关主题
● MySQL database backup	● [合集] 数据库这门课值得学吗？
● mysql -- could not use the database	● 请教一个sqlplus的问题
● 请教一个sql的问题	● 来一个sql的问题 (转载)
进入Database版参与讨论

c****e
发帖数: 1453

You didn't read what I wrote? Body has no difference with sender or subject.
If you are interested in the implementation detail, take a look at Lucene.
Essentially, you can see each document as a set of field, and you build
reverse index over each document. The field conect helps on structured
filtering. That's why it's called faceted search.

【在 c*********e 的大作中提到】

: email search不仅仅是search 发信人，收件人，subject. 如果输入一个关键字，比如
: my,那也能搜索邮件内容。
:
: be

c*********e
发帖数: 16335

如果把emails放在一個文件里，怎么sort email?

be

【在 c****e 的大作中提到】

c****e
发帖数: 1453

?? sorting happened at runtime. It's not persistent in storage layer.

【在 c*********e 的大作中提到】

: 如果把emails放在一個文件里，怎么sort email?
:
: be

c*********e
发帖数: 16335

据说gmail里面搜索海量邮件，比outlook里搜索快很多。搜索database按什么算法最快
？用index?

n******1
发帖数: 3756

c*********e
发帖数: 16335

恩，都知道google这方面很强，难道他们用的是regular expression来搜索？

google

【在 n******1 的大作中提到】

a9
发帖数: 21638

不会这么简单的。

【在 c*********e 的大作中提到】

: 恩，都知道google这方面很强，难道他们用的是regular expression来搜索？
:
: google

c*********e
发帖数: 16335

那你说个细节出来啊。大家都在那瞎猜，猜半天也没结果。难道这个算法，非要cs phd
毕业的才会整明白？

【在 a9 的大作中提到】

: 不会这么简单的。

a9
发帖数: 21638

不知道才瞎猜啊。
估计就是关键词索引吧。

phd

【在 c*********e 的大作中提到】

: 那你说个细节出来啊。大家都在那瞎猜，猜半天也没结果。难道这个算法，非要cs phd
: 毕业的才会整明白？

n******1
发帖数: 3756

其中一个最基本的概念就是inverted table，主要是你没了解过IR方面的东西，所以不
太熟悉
nlp.stanford.edu/IR-book/

phd

【在 c*********e 的大作中提到】

: 那你说个细节出来啊。大家都在那瞎猜，猜半天也没结果。难道这个算法，非要cs phd
: 毕业的才会整明白？

相关主题
● sql server里怎么create 跨database的 view	● 请问DATABASE各位大侠
● How to monitor the data loading status?	● scalable database 是啥意思
● 为啥RDBMS只用一个Index? (转载)	● is SAS database a RDBMS?
进入Database版参与讨论

n******1
发帖数: 3756

: 其中一个最基本的概念就是inverted table，主要是你没了解过IR方面的东西，所以不
: 太熟悉
: nlp.stanford.edu/IR-book/
:
: phd

c*********e
发帖数: 16335

bing咋知道没区别的？难道是copy人家的？

【在 n******1 的大作中提到】

n******1
发帖数: 3756

搜索引擎有各种评价参数，比如AP（平均准确率,DCG,NDCG 等等

【在 c*********e 的大作中提到】

: bing咋知道没区别的？难道是copy人家的？

s**********o
发帖数: 14359

一说DATABASE就GOOGLE是不是贻笑大方了，
GOOGLE就是算法搜索，不用DATABASE，跟
数据库没关系

c*********e
发帖数: 16335

gmail肯定是把email存在database里啊。

【在 s**********o 的大作中提到】

: 一说DATABASE就GOOGLE是不是贻笑大方了，
: GOOGLE就是算法搜索，不用DATABASE，跟
: 数据库没关系

s**********o
发帖数: 14359

: gmail肯定是把email存在database里啊。

c*********e
发帖数: 16335

现在有些公司，不爱outlook 365,转投gmail,尽管它有隐私问题，因为gmail搜索速度
比outlook快很多。

【在 s**********o 的大作中提到】

n******1
发帖数: 3756

不放数据库，不可能放数据库

【在 c*********e 的大作中提到】

: gmail肯定是把email存在database里啊。

a9
发帖数: 21638

不是常见的关系型数据库而已。

【在 n******1 的大作中提到】

: 不放数据库，不可能放数据库

s**********o
发帖数: 14359

不常见学它干嘛，标新立异啊

【在 a9 的大作中提到】

: 不是常见的关系型数据库而已。

相关主题
● is SAS database a RDBMS?	● [提供内推] Senior DBA SFO, mysql, cassandra, redis, hadoop
● c，java, 数据库内核，数据库应用 (转载)	● 伪币求答案
● [提供内推] Senior DBA （SFO市区, MySQL）	● Relational database presentation help
进入Database版参与讨论

c*********e
发帖数: 16335

那放哪？

【在 n******1 的大作中提到】

: 不放数据库，不可能放数据库

c****e
发帖数: 1453

: 那放哪？

c*********e
发帖数: 16335

email search不仅仅是search 发信人，收件人，subject. 如果输入一个关键字，比如
my,那也能搜索邮件内容。

be

【在 c****e 的大作中提到】

c****e
发帖数: 1453

: email search不仅仅是search 发信人，收件人，subject. 如果输入一个关键字，比如
: my,那也能搜索邮件内容。
:
: be

c*********e
发帖数: 16335

如果把emails放在一個文件里，怎么sort email?

be

【在 c****e 的大作中提到】

c****e
发帖数: 1453

?? sorting happened at runtime. It's not persistent in storage layer.

【在 c*********e 的大作中提到】

: 如果把emails放在一個文件里，怎么sort email?
:
: be

n*******k
发帖数: 100

如果是纯文本文件，应该是用term（distinct word）做inverted index。搜索时,找到
含有此term的Document ID。可能好几个Document合并存在一个file里面。用Document
ID找到对应file里面的开始字节位置，和一个游标（长度）。
doc# file_path start end
1 /home/xx1/f1 0 1000
2 /home/xx1/f1 1001 2303
3 /home/xx1/f2 0 1299
3 /home/xx1/f2 1300 2219

c*********e
发帖数: 16335

那带有25mb附件的email呢？

Document

【在 n*******k 的大作中提到】

: 如果是纯文本文件，应该是用term（distinct word）做inverted index。搜索时,找到
: 含有此term的Document ID。可能好几个Document合并存在一个file里面。用Document
: ID找到对应file里面的开始字节位置，和一个游标（长度）。
: doc# file_path start end
: 1 /home/xx1/f1 0 1000
: 2 /home/xx1/f1 1001 2303
: 3 /home/xx1/f2 0 1299
: 3 /home/xx1/f2 1300 2219

n*******k
发帖数: 100

如果加得是.jpg,.bmp之类图片，文件单独存一个文件夹，文件名重命名成序号。
图片是没办法搜索关键词了。
email# file_path start end attached-img
1 /home/xx1/file/f1 0 1000 /home/xx1/image/1.jpg
2 /home/xx1/file/f1 1001 2303 /home/xx1/image/2.bmp
3 /home/xx1/file/f2 0 1299 null
3 /home/xx1/file/f2 1300 2219 null
如果加得是.pdf文件
email# file_path start end attached-pdf
1 /home/xx1/file/f1 0 1000 /home/xx1/pdf/1.pdf
2 /home/xx1/file/f1 1001 2303 null
3 /home/xx1/file/f2 0 1299 /home/xx1/pdf/2.pdf
3 /home/xx1/file/f2 1300 2219 null
pdf# file_path ownByEmail#
1 /home/xx1/pdf/1.pdf 1
2 /home/xx1/pdf/2.pdf 3
所有pdf文件可以单独做个inverted index，找到匹配关键词的pdf文件，返回路径，以及
email正文

w*r
发帖数: 2421

please check google GFS. google.baidu.taobao.fb definitely are not using
traditional RDBMS to store./search/process data. google has its own google
file sys, taobao has its own taobao FS.. i believe baidu and others are
pursuing the same route

(共1页)

进入Database版参与讨论

相关主题
● 请教一个sqlplus的问题	● c，java, 数据库内核，数据库应用 (转载)
● 来一个sql的问题 (转载)	● [提供内推] Senior DBA （SFO市区, MySQL）
● sql server里怎么create 跨database的 view	● [提供内推] Senior DBA SFO, mysql, cassandra, redis, hadoop
● How to monitor the data loading status?	● 伪币求答案
● 为啥RDBMS只用一个Index? (转载)	● Relational database presentation help
● 请问DATABASE各位大侠	● help
● scalable database 是啥意思	● [转载] Java/JSP/Servlets... and Database(Oracle/DB2)
● is SAS database a RDBMS?	● MySQL database backup

相关话题的讨论汇总
话题: xx1话题: google话题: body话题: 搜索话题: search

#	版面	帖数(主题数)
-	全站	4871 (796)
1	Military	3777 (569)
2	Stock	341 (51)
3	Joke	117 (17)
4	History	116 (3)
5	Automobile	100 (9)
6	USANews	55 (9)
7	Midlife	45 (1)
8	Headline	41 (41)
9	Dreamer	33 (13)
10	FleaMarket	32 (20)
11	Living	30 (7)

boards

未名新帖统计// 7月16日

历史上的今天