由买买提看人间百态

topics

全部话题 - 话题: crawlers
首页 上页 1 2 3 4 5 6 7 8 9 10 下页 末页 (共10页)
w*****e
发帖数: 748
1
来自主题: StartUp版 - yelp的数据来源
Crawl it.
http://www.yelp.com/robots.txt
Yelp doesn't disallow crawlers to download pages from /search?
So you can compose the URL for all cities included in Yelp like this:
http://www.yelp.com/search?find_loc=Sunnyvale%2C+CA&cflt=shopping
But yelp is still restricting the number of downloads from one IP to about
10K per day. If you request too much, it will ban you for a year or so. That
's why you will need a proxy or ...
s****a
发帖数: 501
2
来自主题: StartUp版 - 问个傻问题
像文学城这样的网站,新闻是自己编辑的,还是用crawler自动整理的?
t***r
发帖数: 294
3
来自主题: StartUp版 - 问个傻问题
好像没有必要Crawler,在中国找几个抄手各大网站炒就是了花不了多少钱。好多新闻
都是出口转内销的。现在更新比以前快倒是真的。
b******y
发帖数: 9224
4
恐怕他们付不起那个钱,做crawler啥的都不便宜的。
b********n
发帖数: 5997
5
我可以做crawler.几万个很简单.只要有网站半小时搞定.谁想要跟我站内联系.
q***2
发帖数: 1861
6
楼上回答了相关问题的各位,谢谢了:
1。 我这是初入此行,发现了一些需求,供献出来给大家参考
2。 有心去做的,可以站内联系,报价啥的
3。 相关dealer的信息,网站等等,要数据提供者去抓取吧? 觉得这样才符合商业逻
辑,然后业者付费,一次性付高一些的费用即可。
4。 不了解业者能力和财务背景前,不好妄自判断业者是否付得起那个做crawler的钱
吧? 这个定势,不是经商的,或做营销的人的思维习惯。
5。 我是才开始关心这行的项目,也是因为才初步建立了技术上很不错的网站建设小团队
,可以考虑揽些外面项目了,所以顺便出击一下试试水。感觉潜力很大呀! 不过目前
技术小团队虽然技术水平拔尖(这是我老人家的一贯要求,否则宁可不开始的),但规模尚小,也较忙,比较不够完美,还要专注在几个建网项目上,基本上无暇他顾。所以要把一些基本拉到的项目转包出去。。。
先这样。
b******y
发帖数: 9224
7
来自主题: StartUp版 - http://blekko.com/

我不是充啥老大,只是我比较关注搜索,写写感想而已。我自己也做了搜索引擎,包括:
crawler
indexer
searcher
根据lucene改进的那种。
另外,我曾经是computer science Ph.D学生,主要是在information retrieval和
distributed systems方面的。
b******y
发帖数: 9224
8
you could download and make a database from free web resources, such as
government websites to download records.
zillow.com, etc. have been doing like that.
indeed.com, also has crawler to download all jobs from different sites.
s********e
发帖数: 893
9
我所找到的只有大学所在的城市。petersons guide,US news上也没找到。有些网站上
要一个一个页面的点开才能看到地址。有没有哪里有个汇总?实在不行,只能做个web
crawler程序去每个页面采集了。多谢了。
s***f
发帖数: 457
10
Dear Friends:
Would you like to participate in a startup opportunity (on part time basis) ?
We are working on a startup opportunity, and it can be a good opportunity
for you too. You can be very valuable to the team.
What are the differences between this opportunity vs. other opportunities or
many creative ideas you had thought before ?
A. The opportunity is solid and concrete; Demand is real.
B. Impact Can be big and meaningful.
Your effort and contributions will really make the world a bett... 阅读全帖
d********g
发帖数: 10550
11
做这个的不叫web spider,一般叫crawler。可能一流高手比较喜欢web spider的表述
Google这种下三滥和永远赚不到钱的小公司表示压力很大
你说的这种情况不正是没有核心技术造成的吗?我举个Obihai的例子,自己设计然后找
国内代工,但核心用户靠服务牢牢抓住,任你谁来卖设备,都是为它打工。卖得越多它
越高兴,卖家越打价格战它越高兴。别说代工厂直接来卖,就是玉皇大帝来了,也得向
它上贡
不过我从没见过Obihai的boss骂人。赚钱都来不及呢,还有空上BBS
b******y
发帖数: 9224
12
来自主题: StartUp版 - 推荐几种hosting选择

我觉得Rackspace的技术比较solid。 Amazon的EC系列好像比较乱。如果在上面跑
crawler啥的,还可以,但我不会把网站放到EC2上面,因为我不trust他们的服务。
原先他家当机,导致reddit等很多大站访问不了,而且貌似和mitbbs一样,一当就是个
把天的说 ;-)
b******y
发帖数: 9224
13
来自主题: StartUp版 - 学CS的工作之外如何赚钱?
顺便提一下,试过elance等, 做过几个crawler的projects, 但效果不好。用户的期望
值高,但又不愿意付太多的钱。而且,用户的project scope经常变,因为他们不懂技
术,所以,在做之前没有预测到太多的问题。
我的建议是,尽量找懂一点技术的用户提供你的服务,这样好沟通。如果用户不懂技术
,至少要找曾经做过这类项目的用户,因为他们知道what's involved, how time
consuming it could be.
所以,找什么样的用户,是非常关键的。
好的用户,不太care钱,也肯出钱。这些用户往往更注重你做的软件的质量,他们懂得
物有所值。
不好的用户,总是希望找到cheap的solution, 对软件开发的流程也不太熟悉,觉得像码
积木一样简单。这类用户,你就是降价了,他们也不会满意的。
最差的用户,就是以合伙开发功能的名义,实质上利用免费劳动力的那种。对待这种用
户,要么不给他们做;要做的话,至少要收取base fee, 然后根据profit分成。但我一
般prefer一手交钱,一手交货的形式。用户没有钱的那种,很多都是他们自己不愿意去
贷款... 阅读全帖
G*******s
发帖数: 10605
14
来自主题: StartUp版 - social media推广的问题
上twitter大家一般是关注娱乐(sports, entertainment)的多,生活类也主要在购物
,旅游,商业类的我看到的很少,不过因为twitter用户广泛即使百分比很小也很乐观
。我的方法特别笨,就是找和我做同一个方向的大网站,看到他们的follower后直接
followe, 有不少会follow back, 最后还是看你能否长期提供有吸引力的内容。还有
就是twitter上面的web crawlers比facebook多很多,发twitter的时候注意加个你网站
的推广关键词。
b******y
发帖数: 9224
15

如果都是public的页面的话,是可以做个crawler抓取网页,然后用程序提取出来信息
的。这个应该没有什么难度。但如果没有一定的规律使软件能够沿着某个路径达到所有
的FBA页面的话,那可能是个问题。
b******y
发帖数: 9224
16
来自主题: StartUp版 - Rackspace email hosting的羊毛
在aws上跑spam程序倒不错,比如说搞个啥crawler,大规模的download数据啥的。
c*****o
发帖数: 1702
17
估计你这样就能做个类似VIX的指数。看看VIX指数怎么挣钱吧。 另外你这个会需要强
大的crawler跟big data storage. 另外twitter有流量限制的每天你弄不到多少数据/
媒体有严重的bias,媒体不代表大众的看法。现阶段你可以先搞股板sentiment 分析。
可惜中文sentiment比较难搞,没有现成的库
金融行当都是看track record的,你的sentiment指数能预测市场转向的话,肯定有人
愿意掏钱。不用担心。
l*******s
发帖数: 1258
18
thx回复。
呵呵,不懂VIX的说。
关于crawler和scraper,我开发过这玩意、工业级别的产品。问题不大。
big data storage,可能是个问题,只能是有所取舍的储存了。最小的空间解决方案就
是只存sentiment,不存整篇文章。
twitter的限制,正在调查,有多少做多少吧。
媒体的bias。bias,如何bias,恰恰是有人关心的东西吧。我瞎猜的。
现成的库:基本没有现成的库。中文英文都没有靠谱的。需要自己开发,好在我还懂这
个,也实现过,不过最后精度能如何不知道。
t*********e
发帖数: 630
19
说到 news, 比如 CNBC 上的新闻,每天更新。这个需要 crawler 不断爬,然后你的
index 不断更新
感觉从不同 sources 抓到不断更新的数据,不是个小的任务
a**h
发帖数: 1085
20
来自主题: Stock版 - 交易数据采集,求建议
基于一个跟踪幕后交易的算法基本有了,但是需要option和stock交易的免费实时数据
来运行。
感觉option的数据最难拿到,大牛能指点一下吗?实在不行就只能做个crawler,但是
会不会被切断数据源啊?

发帖数: 1
21
来自主题: Stock版 - GE = 割

Why should I short a low crawler? I would start a long position if it drops
more.
v******k
发帖数: 808
t**********g
发帖数: 3388
23
请问您知道lucence么?好像很多人都在lucence + heritrix。这个是干什么的?
e****a
发帖数: 4783
24
【 以下文字转载自 SanFrancisco 讨论区 】
发信人: eraera (美人他爹), 信区: SanFrancisco
标 题: 版面上面yahoo search的同灌
发信站: BBS 未名空间站 (Mon Sep 21 13:49:33 2009, 美东)
如果网站添加了microformat,怎么通知你们,让你们的crawler来提取呢?还是这些都
是自动化的?
谢谢
c*********n
发帖数: 1371
25
来自主题: EB23版 - google搜索怎么这么快?
对快速更新的page, google会自适应地提高web crawler的频率。
M**a
发帖数: 4816
26
LAKE POWELL – By: y: Wayne Gustaveson, June 29, 2011, Lake Elevation: 3647,
Water Temperature 74-78 F
From this point forward many of the reports will be about surface feeding by
striped bass. Here are some terms that will make it easier for you to
understand my reports.
"Slurps" are defined as surface feeding by stripers of all sizes on very
small larval shad. Tiny shad are poor swimmers. There is not much chance of
them eluding stripers that line up with open mouths and skim the surface
sucki... 阅读全帖
M**a
发帖数: 4816
27
来自主题: Arizona版 - 最近Tempe Town Lake鱼情如何?
Angler report:
Hi Rory,
I fished Tempe Town Lake by boat recently from sunrise to about 11 a.m.
Most notably, I caught a 6-pound catfish under the Rural Road Bridge on a
night crawler. I hooked another fish near the 202 Freeway Bridge at the
east end of the lake that I fought for 2 or 3 minutes before the line broke.
It felt like a very large catfish. I also caught 10 bass using a small
silver and light green medium-diving minnow. They were all quite small,
averaging 10 to 12 inches, with ... 阅读全帖
w********o
发帖数: 10088
28
从walmart买的蚯蚓管用么?
只是那种night crawler好像不适应这里的土
r**********0
发帖数: 53
29
Excellent condition, like new playard!!
I purchased it at toysrus in this summer, it is especially perfect for
crawlers and waddlers. As we are moving out of the town, I have to sell it..
Details can be found at: http://tippecanoe.craigslist.org/bab/5342297738.html
If you are interested, please reach me at: 765-6three7-86eleven
Thanks!!
w*******m
发帖数: 3
30
I am moving right now so I would like to sell my car even though I really
don't want to. Everything is in good condition, 03 Camry XLE, Leather and
Heating Chair, 6 Cylinder and 3.0L Engine. Clean Title, I have bought it
from 139k miles, and now it's 147k miles, never had an accident, excellent
condition and comfortable driving performance. 5000$.
If you have interest, you can contact my friend (I am out of town) for
taking a look at it. (669-two 6 two-9525)
If you have any question about the ca... 阅读全帖
D****0
发帖数: 475
31
来自主题: LosAngeles版 - 请推荐好的POOL MAN
是, 我就是这样做的, 自已买药片放在里面, 然后买一个 Creepy Crawler 定好时
间, 每天TA自动清洁, 很方便, 等XIA天的时候, 拿一杯水去店里测一下,配一些
药水提前一星期放下去就好了,,,
自已来吧, 相信我, 真的很方便,,,
z*********n
发帖数: 94654
32
来自主题: LosAngeles版 - 给版务提个建议
加精的文章最好不要版面删除
MITBBS的精华区功能貌似越来越差了,google crawler都不crawl了
好文章放在版面,想考古找,一google就google到了
放到jhq可真的要仔细寻找了,google不进去...?
两分钱而已
z*********n
发帖数: 94654
33
来自主题: LosAngeles版 - 大家都在哪里办网络
0就是0,就是没有
如果你家里线的确没有他们可能要钻crawler space钻阁楼啥的,还是满辛苦的,呵呵
t***o
发帖数: 1353
34
我在windows上 run 一个python crawler.... 但是, 有时候那个script 会freeze住
, 或者那个dos window freeze了。
在windows上, 如何kill掉这个死掉的,在 restart一遍?
s*********5
发帖数: 5637
35
来自主题: SanDiego版 - Poway的几个圣诞活动
Christmas in the Park: Old Poway Park, Saturday, December 10, 3:30 - 8:30 PM
Witness Christmas traditions come to life during Christmas in the Park,
including Christmas tree lighting, Mr. & Mrs. Claus, train rides and face
painting!
Poway WinterFest: Poway Community Park, December 16-19
Come glide with us on an outdoor synthetic ice skating rink! Free arts and
crafts, kids karaoke, and musical entertainment each day. Snow Hill will
open for sledding fun on Saturday. Skating tickets can be pur... 阅读全帖
y***u
发帖数: 5243
36
来自主题: SanFrancisco版 - Re: 整死Google并不是那么难 (转载)
那完全可以告死crawler的公司。。。
y***u
发帖数: 5243
37
来自主题: SanFrancisco版 - Re: 整死Google并不是那么难 (转载)
在网站的about us里面添加一个禁止非法crawler的条款就可以了。
要不然google怎么就不敢随便去crawl新闻集团啊。。。
s*****v
发帖数: 360
38
来自主题: SanFrancisco版 - microbe/littlestone 请进
想抓mitbbs.com的网页下来做自动的人肉搜索,不知道网站对这样的crawler有啥流量
上的限制? 不要程序没写完,我的IP被封了,连潜水,灌水都不行了。。。
s***f
发帖数: 457
39
Dear Friends:
Would you like to participate in a startup opportunity (on part time basis) ?
We are working on a startup opportunity, and it can be a good opportunity
for you too. You can be very valuable to the team.
What are the differences between this opportunity vs. other opportunities or
many creative ideas you had thought before ?
A. The opportunity is solid and concrete; Demand is real.
B. Impact Can be big and meaningful.
Your effort and contributions will really make the world a bett... 阅读全帖
n****s
发帖数: 137
40
来自主题: SanFrancisco版 - 做startup好呢, 还是买房投资好呢 ?
看下面这个startup招人的贴子有感。
我自己辛辛苦苦积攒了一点点钱(请大家不要笑话,<20万, 有钱准备笑话的人, 请走
开,谢谢) 。
正在想, 用这点钱再贷款, 买个投资房好呢, 还是咬咬牙, 把它投入, 做一个
startup ?
感觉现在做个网络相关的startup也不需要多少投资。
况且, 买个投资房, 收房费, 管理房客,也花时间, 感觉, 不一定有把时间花在
做startup上有意义。
你们怎么想 ?
=======================================================================
发信人: svcef (svcef), 信区: SanFrancisco
标 题: 你是否感兴趣加入一个创业团队 ? (兼职也可)
发信站: BBS 未名空间站 (Wed Mar 21 19:54:12 2012, 美东)
Dear Friends:
Would you like to participate in a startup opportunity (on part time basis) ?
We are work... 阅读全帖
r********n
发帖数: 7441
41
2,3 现在已经没用了,crawler能够识别出来绕过去
f******2
发帖数: 2455
42
来自主题: SanFrancisco版 - apple还是不如google啊
这个只是第一步,更relevant的ranking先做好,
后面build crawler, indexer的动作慢慢来。

发帖数: 1
43
来自主题: SanFrancisco版 - Bay area winner (转载)
【 以下文字转载自 JobHunting 讨论区 】
发信人: sfloser (lulu), 信区: JobHunting
标 题: Bay area winner
发信站: BBS 未名空间站 (Tue Aug 15 23:10:50 2017, 美东)
Hey losers~ Check out what a winner looks like~
https://voyagersview.blogspot.com/2017/08/the-story-of-an-underdog-2.html?m=
1
上篇从小学讲到大学,今天再来聊聊之後发生了什麽事,这边是比较接近现代的故事,
所以不知用啥照片好,就选张比较特别一点的军旅照吧。
台南市立东光国小
台南市立建兴国中数理资优班
保送台南一中资优班
推甄进入清华大学资讯工程系
清大资工全班第一名毕业
陆军官校图书馆网路官
UIUC CS MS GPA 4.0 (全额奖助学金)
Software Engineer @ Truveo (AOL) (26~28岁)
Senior Software Engineer @ LinkedIn (... 阅读全帖
o**********t
发帖数: 406
44
来自主题: Seattle版 - 打算去WA裸奔找工作, 有戏吗?
如果 c 很熟,特别是 memory management 等等,看点 Object Oriented 的理念,升
级到 c++ 应该不难。你定位在 entry level,公司也不会期待你写什么大型的 app。
如果 ca 有本地支援,就先去 ca 吧。到了以后,可以对整个西岸都疯狂投简历,打到
哪里算哪里。我的理论是每投 50 份简历,可以捞到一次面试。每五次面试,大概可以
捞到一个 offer。
CA 的 startup 半导体公司很多很多,你是 double E 专业,应该手到擒来,不用只盯
着软件。
记得一个朋友找工作的时候,弄了个简单的 crawler 自动上网搜索,按关键字发简历
,每天发 100 份左右。针对性自然很差,居然也得到不少回音。所以没什么秘诀,就
是疯狂发简历。
opt 的文件和过程都很标准,离开学校前先把所有文件准备好。跟 INTERNATIONAL
STUDENT OFFICE 搞好关系啊。多说好话,按照韦爵爷的秘诀,说好话也不费钱啊,万
一有事也好办点。
Good Luck!

嘛,
b*******y
发帖数: 1455
45
来自主题: Seattle版 - 创业小组四月例会
最近学会用C#了,也会写crawler了,希望这次能找个兼职挣点外快
q***2
发帖数: 1861
46
来自主题: Seattle版 - 创业小组四月例会
这个太谦虚了吧: 不只是“学会了”。。。或者“会写”吧。
比如说我老人家以前可以说“会做饭”,现在可以改说:饭菜做得很像回事了,有时间
认真做一下的话,可以做得很好,不少菜不亚于馆子里的大厨啦。 上周末,以前的一
个老客人执意点了两个菜,其中那个上素三鲜被夸得花儿一样,说是已经超过 XX 的水
平了 - 这个肯定是过誉乐,呵呵。
还有啊:这个crawler 中文是不是译为“内容抓取”啊? 很有商业价值的东西
x****t
发帖数: 1729
47
来自主题: Seattle版 - Job openings: Data Analyst
办身份,地点在西雅图downtown.需要sql比较好,会excel.
有兴趣者发简历去x****[email protected]
如果会sas, tableau会是 a big plus.
The Data Analyst will extract data from data warehouses, pixel logs and
other data stores like 3rd party Web Analytic systems, for example, Omniture
and Google Analytics. Extracted data will be manipulated, merged, and
analyzed to produce reports, graphs, dashboards and other output to
ultimately reveal performance of our customers' digital marketing programs.
The Data Analyst should be able to think st... 阅读全帖
m*********t
发帖数: 399
48
电闸是合上的,今天中午开始就是没有电。奇怪的是扳到关,再扳到开的瞬间,
crawler space 里会发出很大的警报声,类似汽车报警的声音,持续1-3秒的样子,试
过很多次都是这样。总闸和其他区域都是好的。
谁有过类似的经验?
V***u
发帖数: 81
49
来自主题: Texas版 - 周六晚上万圣节活动!
有感兴趣的朋友可以一起去感受一下。。
详情见网站: www.montrosecrawl.com
Time and Place: restaurant Brasil, 2604 Dunlavy, at 6 p.m. on October 29.
Fifth Annual Montrose Halloween Crawl
By ABBY DOWNING - BEAVER
The Montrose Halloween Crawl has returned for its fifth year. This event
combines a traditional pub crawl with the spirit of trick-or-treating as
several hundred people dress in costume and visit bars and pubs on
Westheimer in Montrose. This year’s event will encompass nine separate
venues. All Montrose Crawl par... 阅读全帖
k***x
发帖数: 6799
50
来自主题: WashingtonDC版 - 版上有几个手工web crawler
不定期地刷版,坦白一下是不是机器人?
首页 上页 1 2 3 4 5 6 7 8 9 10 下页 末页 (共10页)