b********e 发帖数: 693 | 1 How will you find the page with most incoming links from billions of web-
pages |
l*****a 发帖数: 559 | 2 i guess
hashmap, do it in a distributed environment. |
b********e 发帖数: 693 | 3 Billion web pages, how distributed?
【在 l*****a 的大作中提到】 : i guess : hashmap, do it in a distributed environment.
|
a****9 发帖数: 418 | 4 Random walk?
in probability, the pages with most incoming links will be visited most.
【在 b********e 的大作中提到】 : How will you find the page with most incoming links from billions of web- : pages
|
s********y 发帖数: 3811 | 5 nope. random walk will get you the page with highest pagerank value, not the
page with most inlinks.
【在 a****9 的大作中提到】 : Random walk? : in probability, the pages with most incoming links will be visited most.
|
y*********e 发帖数: 518 | 6 这个不就是PageRank那篇论文的idea嘛,Google就是以这篇Paper起家的。
首先要阐述的是incoming link count是怎么来的。
这就是写个Crawler咯,从一个Page走到另外一个Page,同时更新link count。
然后所有的page根据incoming link count排序,就可以了。
无论是Crawler还是排序,需要处理billion级别的数据。用MapReduce吧。 |