b******y 发帖数: 9224 | 1 我知道现在已经有现成的h1b visa搜索网站了,但最近想,是否剑知网需要增加这个功
能,以便满足广大还没有拿绿卡的同学的需求?
各位怎么看?
反正数据是现成的,但需要强大的搜索技术,这个是我所热衷的。
Thanks, |
L******w 发帖数: 5407 | 2 不就搜个数据库吗? 能强大到哪里去?不好意思叫搜索技术吧。
【在 b******y 的大作中提到】 : 我知道现在已经有现成的h1b visa搜索网站了,但最近想,是否剑知网需要增加这个功 : 能,以便满足广大还没有拿绿卡的同学的需求? : 各位怎么看? : 反正数据是现成的,但需要强大的搜索技术,这个是我所热衷的。 : Thanks,
|
b******y 发帖数: 9224 | 3
理论上是比不上google, 但devils in the detail. 比如说,按照所在地来搜索周围支
持h1b的公司。这些功能还是值得做的?
所谓搜索的称谓,当然在我们做marketing的时候要用上的。
【在 L******w 的大作中提到】 : 不就搜个数据库吗? 能强大到哪里去?不好意思叫搜索技术吧。
|
l******0 发帖数: 244 | 4 如果想做个搜索引擎,搜索一个公司网站上的新闻,有什么想法?具体点,如果一个公
司在其网站上发布了一个新闻,你的搜索引擎能够很快抓到,并建立索引。
【在 b******y 的大作中提到】 : 我知道现在已经有现成的h1b visa搜索网站了,但最近想,是否剑知网需要增加这个功 : 能,以便满足广大还没有拿绿卡的同学的需求? : 各位怎么看? : 反正数据是现成的,但需要强大的搜索技术,这个是我所热衷的。 : Thanks,
|
w*****e 发帖数: 748 | 5 做个垂直爬虫,专卖监视这个公司的新闻页面,每分钟或者自定义很快抓一遍,看看是
否有更新。这个不叫搜索引擎
【在 l******0 的大作中提到】 : 如果想做个搜索引擎,搜索一个公司网站上的新闻,有什么想法?具体点,如果一个公 : 司在其网站上发布了一个新闻,你的搜索引擎能够很快抓到,并建立索引。
|
v********w 发帖数: 136 | 6 www.h1visajobs.com
你是说做个类似的么?
【在 b******y 的大作中提到】 : 我知道现在已经有现成的h1b visa搜索网站了,但最近想,是否剑知网需要增加这个功 : 能,以便满足广大还没有拿绿卡的同学的需求? : 各位怎么看? : 反正数据是现成的,但需要强大的搜索技术,这个是我所热衷的。 : Thanks,
|
v********w 发帖数: 136 | 7 www.h1visajobs.com
你想做个类似的?
【在 b******y 的大作中提到】 : 我知道现在已经有现成的h1b visa搜索网站了,但最近想,是否剑知网需要增加这个功 : 能,以便满足广大还没有拿绿卡的同学的需求? : 各位怎么看? : 反正数据是现成的,但需要强大的搜索技术,这个是我所热衷的。 : Thanks,
|
b******y 发帖数: 9224 | 8
凡是搜索的,没有我不感兴趣的。如果现在没有机会做的话,迟早我会去做的!
【在 v********w 的大作中提到】 : www.h1visajobs.com : 你想做个类似的?
|
b******y 发帖数: 9224 | 9
定向抓取技术,是个非常challenging的课题。我研究过国内的奇虎搜索引擎,他们有
一套专门的抓取算法,当时记得看过他们的whitepaper? 具体记不清了。
这个领域算是个research topic了。微软中国研究院也搞了一帮人做这个研究,当时我
也看过他们的research paper.
总之,不容易。某种程度上,比搜索引擎本身要难。
【在 w*****e 的大作中提到】 : 做个垂直爬虫,专卖监视这个公司的新闻页面,每分钟或者自定义很快抓一遍,看看是 : 否有更新。这个不叫搜索引擎
|
w*****e 发帖数: 748 | 10 定向抓取在有限数量下还是比较简单的,顶多检查更新可以研究一下,数量大了以后问
题多多,但也不能算定向抓取的问题,算法有不基于bfs或者dfs的么。
【在 b******y 的大作中提到】 : : 定向抓取技术,是个非常challenging的课题。我研究过国内的奇虎搜索引擎,他们有 : 一套专门的抓取算法,当时记得看过他们的whitepaper? 具体记不清了。 : 这个领域算是个research topic了。微软中国研究院也搞了一帮人做这个研究,当时我 : 也看过他们的research paper. : 总之,不容易。某种程度上,比搜索引擎本身要难。
|
|
|
b******y 发帖数: 9224 | 11
好长一段时间不研究这方面的算法了。不过记得当时看到的是,算法上是根据bfs或者
dfs,加上了一些heuristic, 指导爬虫去访问某些网站。但,这仅仅是理论上的,实践
当中各个公司是否这样做?也未可知。比如说,indeed, 就是个垂直搜索,他们应该有
一套算法去抓取公司在自己网站上的招聘广告的,但他们怎么做的,这个是商业秘密,
不会公开的了。
【在 w*****e 的大作中提到】 : 定向抓取在有限数量下还是比较简单的,顶多检查更新可以研究一下,数量大了以后问 : 题多多,但也不能算定向抓取的问题,算法有不基于bfs或者dfs的么。
|
w*****e 发帖数: 748 | 12 对于google来说,更新是个大问题,哪个网页要快,哪个要慢,必须有很好的算法来控
制。对于indeed,他的seed很有限,不需要特别高深的算法,如果产品设计得效率高点
,甚至不需要bfs或dfs,垂直引擎更重要的是parsing而不是crawling。举个简单例子
,以indeed做例子,找DMOZ或者500强或者什么公司list,然后抓一遍,在url里面找
career,employment,jobs,等等关键词,filter出来以后用肉眼看看没找着的,再补
充一下关键词列表,然后再肉眼看看找到的那些正确错误,看个1-200个就知道怎么回
事,调整一下filter规则,推广到所有公司列表。如果你有财力,到m-turk上发个工作
,矫正一下,每个task 花$0.5差不多。很容易就得到上千公司的job url,再加上一些
工作平台网站的特别url,这个seed list能有多大?而且是一次性工作,以后每隔几个
月更新一下list就行了。平时crawl的时候基本上几万几十万级别的网页下载,一台笔
记本都能干得了这活,但是足够建立一个比较专业的垂直搜索引擎了。剩下最重的工作
都在parsing上面。
【在 b******y 的大作中提到】 : : 好长一段时间不研究这方面的算法了。不过记得当时看到的是,算法上是根据bfs或者 : dfs,加上了一些heuristic, 指导爬虫去访问某些网站。但,这仅仅是理论上的,实践 : 当中各个公司是否这样做?也未可知。比如说,indeed, 就是个垂直搜索,他们应该有 : 一套算法去抓取公司在自己网站上的招聘广告的,但他们怎么做的,这个是商业秘密, : 不会公开的了。
|
b******y 发帖数: 9224 | 13
有道理,你想的很透彻。
【在 w*****e 的大作中提到】 : 对于google来说,更新是个大问题,哪个网页要快,哪个要慢,必须有很好的算法来控 : 制。对于indeed,他的seed很有限,不需要特别高深的算法,如果产品设计得效率高点 : ,甚至不需要bfs或dfs,垂直引擎更重要的是parsing而不是crawling。举个简单例子 : ,以indeed做例子,找DMOZ或者500强或者什么公司list,然后抓一遍,在url里面找 : career,employment,jobs,等等关键词,filter出来以后用肉眼看看没找着的,再补 : 充一下关键词列表,然后再肉眼看看找到的那些正确错误,看个1-200个就知道怎么回 : 事,调整一下filter规则,推广到所有公司列表。如果你有财力,到m-turk上发个工作 : ,矫正一下,每个task 花$0.5差不多。很容易就得到上千公司的job url,再加上一些 : 工作平台网站的特别url,这个seed list能有多大?而且是一次性工作,以后每隔几个 : 月更新一下list就行了。平时crawl的时候基本上几万几十万级别的网页下载,一台笔
|
w********a 发帖数: 63 | 14 support!
【在 b******y 的大作中提到】 : : 有道理,你想的很透彻。
|
b******y 发帖数: 9224 | 15 汇报一下结果。曾经上线了一堆搜索,比如车版,移民,旅游,food版啥的。经过测试
,发现这条路走不通,所以立马都砍掉了。只剩下了jobhunting版和startup版的搜索
功能。因为还有网友再用。
做加法容易,做减法难。不过,不做减法,就成功不了。 |
L******w 发帖数: 5407 | 16 什么是m-turk?
【在 w*****e 的大作中提到】 : 对于google来说,更新是个大问题,哪个网页要快,哪个要慢,必须有很好的算法来控 : 制。对于indeed,他的seed很有限,不需要特别高深的算法,如果产品设计得效率高点 : ,甚至不需要bfs或dfs,垂直引擎更重要的是parsing而不是crawling。举个简单例子 : ,以indeed做例子,找DMOZ或者500强或者什么公司list,然后抓一遍,在url里面找 : career,employment,jobs,等等关键词,filter出来以后用肉眼看看没找着的,再补 : 充一下关键词列表,然后再肉眼看看找到的那些正确错误,看个1-200个就知道怎么回 : 事,调整一下filter规则,推广到所有公司列表。如果你有财力,到m-turk上发个工作 : ,矫正一下,每个task 花$0.5差不多。很容易就得到上千公司的job url,再加上一些 : 工作平台网站的特别url,这个seed list能有多大?而且是一次性工作,以后每隔几个 : 月更新一下list就行了。平时crawl的时候基本上几万几十万级别的网页下载,一台笔
|
b******y 发帖数: 9224 | 17
Amazon mechanical Turk, 一个众包平台。我有个同事的妹妹自己做公司的,利用这个
,很成功,还上了美国business杂志了。
【在 L******w 的大作中提到】 : 什么是m-turk?
|