由买买提看人间百态

boards

本页内容为未名空间相应帖子的节选和存档,一周内的贴子最多显示50字,超过一周显示500字 访问原贴
StartUp版 - Building H1B visa job 搜索引擎?
相关主题
百度工程师鬼节捉鬼 360浏览器抓取隐私现形请推荐一个搜索引擎排名的监控工具/网站
有没有做垂直搜索的?eBay和Amazon的类pinterest可视化搜索引擎 (转载)
利用搜索引擎找国外的客户的方法网站的推广(欢迎补充)
SEO 就那么有用吗?坐家里生意就来了。。。
问一个专业领域的搜索引擎构建问题white hat Vs. black hat
想搭一个搜索引擎,哪种open source的crawler最好? (转载)有无办法让网站内容无法被copy, 但搜索引擎又能搜到其文字?
百度为何能打败中国其他的搜索引擎公司?飞达设计推出搜索引擎排名实时监控服务
我做的网站百度工程师指360搜索突破底线:违反基本协议
相关话题的讨论汇总
话题: 搜索引擎话题: h1b话题: building话题: 搜索话题: visa
进入StartUp版参与讨论
1 (共1页)
b******y
发帖数: 9224
1
我知道现在已经有现成的h1b visa搜索网站了,但最近想,是否剑知网需要增加这个功
能,以便满足广大还没有拿绿卡的同学的需求?
各位怎么看?
反正数据是现成的,但需要强大的搜索技术,这个是我所热衷的。
Thanks,
L******w
发帖数: 5407
2
不就搜个数据库吗? 能强大到哪里去?不好意思叫搜索技术吧。

【在 b******y 的大作中提到】
: 我知道现在已经有现成的h1b visa搜索网站了,但最近想,是否剑知网需要增加这个功
: 能,以便满足广大还没有拿绿卡的同学的需求?
: 各位怎么看?
: 反正数据是现成的,但需要强大的搜索技术,这个是我所热衷的。
: Thanks,

b******y
发帖数: 9224
3

理论上是比不上google, 但devils in the detail. 比如说,按照所在地来搜索周围支
持h1b的公司。这些功能还是值得做的?
所谓搜索的称谓,当然在我们做marketing的时候要用上的。

【在 L******w 的大作中提到】
: 不就搜个数据库吗? 能强大到哪里去?不好意思叫搜索技术吧。
l******0
发帖数: 244
4
如果想做个搜索引擎,搜索一个公司网站上的新闻,有什么想法?具体点,如果一个公
司在其网站上发布了一个新闻,你的搜索引擎能够很快抓到,并建立索引。

【在 b******y 的大作中提到】
: 我知道现在已经有现成的h1b visa搜索网站了,但最近想,是否剑知网需要增加这个功
: 能,以便满足广大还没有拿绿卡的同学的需求?
: 各位怎么看?
: 反正数据是现成的,但需要强大的搜索技术,这个是我所热衷的。
: Thanks,

w*****e
发帖数: 748
5
做个垂直爬虫,专卖监视这个公司的新闻页面,每分钟或者自定义很快抓一遍,看看是
否有更新。这个不叫搜索引擎

【在 l******0 的大作中提到】
: 如果想做个搜索引擎,搜索一个公司网站上的新闻,有什么想法?具体点,如果一个公
: 司在其网站上发布了一个新闻,你的搜索引擎能够很快抓到,并建立索引。

v********w
发帖数: 136
6
www.h1visajobs.com
你是说做个类似的么?

【在 b******y 的大作中提到】
: 我知道现在已经有现成的h1b visa搜索网站了,但最近想,是否剑知网需要增加这个功
: 能,以便满足广大还没有拿绿卡的同学的需求?
: 各位怎么看?
: 反正数据是现成的,但需要强大的搜索技术,这个是我所热衷的。
: Thanks,

v********w
发帖数: 136
7
www.h1visajobs.com
你想做个类似的?

【在 b******y 的大作中提到】
: 我知道现在已经有现成的h1b visa搜索网站了,但最近想,是否剑知网需要增加这个功
: 能,以便满足广大还没有拿绿卡的同学的需求?
: 各位怎么看?
: 反正数据是现成的,但需要强大的搜索技术,这个是我所热衷的。
: Thanks,

b******y
发帖数: 9224
8

凡是搜索的,没有我不感兴趣的。如果现在没有机会做的话,迟早我会去做的!

【在 v********w 的大作中提到】
: www.h1visajobs.com
: 你想做个类似的?

b******y
发帖数: 9224
9

定向抓取技术,是个非常challenging的课题。我研究过国内的奇虎搜索引擎,他们有
一套专门的抓取算法,当时记得看过他们的whitepaper? 具体记不清了。
这个领域算是个research topic了。微软中国研究院也搞了一帮人做这个研究,当时我
也看过他们的research paper.
总之,不容易。某种程度上,比搜索引擎本身要难。

【在 w*****e 的大作中提到】
: 做个垂直爬虫,专卖监视这个公司的新闻页面,每分钟或者自定义很快抓一遍,看看是
: 否有更新。这个不叫搜索引擎

w*****e
发帖数: 748
10
定向抓取在有限数量下还是比较简单的,顶多检查更新可以研究一下,数量大了以后问
题多多,但也不能算定向抓取的问题,算法有不基于bfs或者dfs的么。

【在 b******y 的大作中提到】
:
: 定向抓取技术,是个非常challenging的课题。我研究过国内的奇虎搜索引擎,他们有
: 一套专门的抓取算法,当时记得看过他们的whitepaper? 具体记不清了。
: 这个领域算是个research topic了。微软中国研究院也搞了一帮人做这个研究,当时我
: 也看过他们的research paper.
: 总之,不容易。某种程度上,比搜索引擎本身要难。

相关主题
想搭一个搜索引擎,哪种open source的crawler最好? (转载)请推荐一个搜索引擎排名的监控工具/网站
百度为何能打败中国其他的搜索引擎公司?eBay和Amazon的类pinterest可视化搜索引擎 (转载)
我做的网站网站的推广(欢迎补充)
进入StartUp版参与讨论
b******y
发帖数: 9224
11

好长一段时间不研究这方面的算法了。不过记得当时看到的是,算法上是根据bfs或者
dfs,加上了一些heuristic, 指导爬虫去访问某些网站。但,这仅仅是理论上的,实践
当中各个公司是否这样做?也未可知。比如说,indeed, 就是个垂直搜索,他们应该有
一套算法去抓取公司在自己网站上的招聘广告的,但他们怎么做的,这个是商业秘密,
不会公开的了。

【在 w*****e 的大作中提到】
: 定向抓取在有限数量下还是比较简单的,顶多检查更新可以研究一下,数量大了以后问
: 题多多,但也不能算定向抓取的问题,算法有不基于bfs或者dfs的么。

w*****e
发帖数: 748
12
对于google来说,更新是个大问题,哪个网页要快,哪个要慢,必须有很好的算法来控
制。对于indeed,他的seed很有限,不需要特别高深的算法,如果产品设计得效率高点
,甚至不需要bfs或dfs,垂直引擎更重要的是parsing而不是crawling。举个简单例子
,以indeed做例子,找DMOZ或者500强或者什么公司list,然后抓一遍,在url里面找
career,employment,jobs,等等关键词,filter出来以后用肉眼看看没找着的,再补
充一下关键词列表,然后再肉眼看看找到的那些正确错误,看个1-200个就知道怎么回
事,调整一下filter规则,推广到所有公司列表。如果你有财力,到m-turk上发个工作
,矫正一下,每个task 花$0.5差不多。很容易就得到上千公司的job url,再加上一些
工作平台网站的特别url,这个seed list能有多大?而且是一次性工作,以后每隔几个
月更新一下list就行了。平时crawl的时候基本上几万几十万级别的网页下载,一台笔
记本都能干得了这活,但是足够建立一个比较专业的垂直搜索引擎了。剩下最重的工作
都在parsing上面。

【在 b******y 的大作中提到】
:
: 好长一段时间不研究这方面的算法了。不过记得当时看到的是,算法上是根据bfs或者
: dfs,加上了一些heuristic, 指导爬虫去访问某些网站。但,这仅仅是理论上的,实践
: 当中各个公司是否这样做?也未可知。比如说,indeed, 就是个垂直搜索,他们应该有
: 一套算法去抓取公司在自己网站上的招聘广告的,但他们怎么做的,这个是商业秘密,
: 不会公开的了。

b******y
发帖数: 9224
13

有道理,你想的很透彻。

【在 w*****e 的大作中提到】
: 对于google来说,更新是个大问题,哪个网页要快,哪个要慢,必须有很好的算法来控
: 制。对于indeed,他的seed很有限,不需要特别高深的算法,如果产品设计得效率高点
: ,甚至不需要bfs或dfs,垂直引擎更重要的是parsing而不是crawling。举个简单例子
: ,以indeed做例子,找DMOZ或者500强或者什么公司list,然后抓一遍,在url里面找
: career,employment,jobs,等等关键词,filter出来以后用肉眼看看没找着的,再补
: 充一下关键词列表,然后再肉眼看看找到的那些正确错误,看个1-200个就知道怎么回
: 事,调整一下filter规则,推广到所有公司列表。如果你有财力,到m-turk上发个工作
: ,矫正一下,每个task 花$0.5差不多。很容易就得到上千公司的job url,再加上一些
: 工作平台网站的特别url,这个seed list能有多大?而且是一次性工作,以后每隔几个
: 月更新一下list就行了。平时crawl的时候基本上几万几十万级别的网页下载,一台笔

w********a
发帖数: 63
14
support!

【在 b******y 的大作中提到】
:
: 有道理,你想的很透彻。

b******y
发帖数: 9224
15
汇报一下结果。曾经上线了一堆搜索,比如车版,移民,旅游,food版啥的。经过测试
,发现这条路走不通,所以立马都砍掉了。只剩下了jobhunting版和startup版的搜索
功能。因为还有网友再用。
做加法容易,做减法难。不过,不做减法,就成功不了。
L******w
发帖数: 5407
16
什么是m-turk?

【在 w*****e 的大作中提到】
: 对于google来说,更新是个大问题,哪个网页要快,哪个要慢,必须有很好的算法来控
: 制。对于indeed,他的seed很有限,不需要特别高深的算法,如果产品设计得效率高点
: ,甚至不需要bfs或dfs,垂直引擎更重要的是parsing而不是crawling。举个简单例子
: ,以indeed做例子,找DMOZ或者500强或者什么公司list,然后抓一遍,在url里面找
: career,employment,jobs,等等关键词,filter出来以后用肉眼看看没找着的,再补
: 充一下关键词列表,然后再肉眼看看找到的那些正确错误,看个1-200个就知道怎么回
: 事,调整一下filter规则,推广到所有公司列表。如果你有财力,到m-turk上发个工作
: ,矫正一下,每个task 花$0.5差不多。很容易就得到上千公司的job url,再加上一些
: 工作平台网站的特别url,这个seed list能有多大?而且是一次性工作,以后每隔几个
: 月更新一下list就行了。平时crawl的时候基本上几万几十万级别的网页下载,一台笔

b******y
发帖数: 9224
17

Amazon mechanical Turk, 一个众包平台。我有个同事的妹妹自己做公司的,利用这个
,很成功,还上了美国business杂志了。

【在 L******w 的大作中提到】
: 什么是m-turk?
1 (共1页)
进入StartUp版参与讨论
相关主题
百度工程师指360搜索突破底线:违反基本协议问一个专业领域的搜索引擎构建问题
Website design想搭一个搜索引擎,哪种open source的crawler最好? (转载)
诚请seo marketing的高手来帮忙百度为何能打败中国其他的搜索引擎公司?
广告公司创业我做的网站
百度工程师鬼节捉鬼 360浏览器抓取隐私现形请推荐一个搜索引擎排名的监控工具/网站
有没有做垂直搜索的?eBay和Amazon的类pinterest可视化搜索引擎 (转载)
利用搜索引擎找国外的客户的方法网站的推广(欢迎补充)
SEO 就那么有用吗?坐家里生意就来了。。。
相关话题的讨论汇总
话题: 搜索引擎话题: h1b话题: building话题: 搜索话题: visa