由买买提看人间百态

topics

全部话题 - 话题: webcrawler
1 (共1页)
l******g
发帖数: 31
1
I need a webcrawler written in perl to download google trend data. I would
image this is something easy for computer sciense guy to do. google trend
requires the user to login with his/her google account, then a button to
download the data into CSV format will show up. I need a perl program to do
it automatically as I have lots of tickers to go through. here is an example
of google trend for Intel.
http://www.google.com/trends/?q=intc&ctab=0&geo=us&geor=all&dat
If anybody is willing to write me ... 阅读全帖
l******g
发帖数: 31
2
I need a webcrawler written in perl to download google trend data. I would
image this is something easy for computer sciense guy to do. google trend
requires the user to login with his/her google account, then a button to
download the data into CSV format will show up. I need a perl program to do
it automatically as I have lots of tickers to go through. here is an example
of google trend for Intel.
http://www.google.com/trends/?q=intc&ctab=0&geo=us&geor=all&dat
If anybody is willing to write me ... 阅读全帖
z****e
发帖数: 54598
3
来自主题: Programming版 - 那位大侠介绍一下python的webcrawler吧
你应该了解一下html和http这些东西
webcrawler无非是代替你人工发送request给某一个url,然后把得到的html这些给存起来
再从html中找到url,再发送,如此循环的一个过程
无非就这点东西,不算啥rocket science
大部分高级语言都有现成的类库帮你做这几步

发帖数: 1
4
来自主题: Military版 - 你们不是那个年代的不知道而已
infoseek和infospace都存在的。跟你对话是个非常吃力的过程,因为你特别擅长不懂
装懂的前提下对别人进行狂妄的人格羞辱。真不知道你这种人是怎么工作和生活的。在
论坛里专门靠copycat别人的观点对别人进行冷嘲热讽,
Blucora (formerly Infospace, Inc.) is a provider of Internet-related
services, mostly search engines. InfoSpace changed its name to Blucora and
NASDAQ symbol from INSP to BCOR on June 7, 2012. This event reflected the
company's change as the owner of two online businesses, after its
acquisition of TaxACT in January 2012, and distinguishes the parent company
from its search business ... 阅读全帖

发帖数: 1
5
来源: Twinlight 于 2018-08-15 15:31:15 [档案] [博客] [转至博客] [旧帖] [给我
悄悄话] 本文已被阅读: 439 次 (34900 bytes)
先讲一个故事,是关于复活节岛的。
复活节岛,一座位于南太平洋中部的孤岛。大约公元五世纪,这个只有约180平方公里
的死火山岛被太平洋波利尼西亚群岛中一个名为伊瓦的小岛的岛民发现,开始有人类居
住。根据考证和推断,从公元五世纪被发现到公元八九世纪是岛上的黄金时期,这一时
期,岛民最多时发展到一万多人,作为图腾崇拜的一种方式,他们用最原始的方式雕刻
了数百尊石像,最小的不足两米,最大的有22米高。他们在岛上火山口处山体里直接雕
刻,然后砍伐树木作为滚木运送到海边已经建好的祭坛上,同样用原始的方式把石像竖
起来,之后举行隆重的仪式,以此纪念去世的祖先,他们最后把同样是石料雕刻的眼睛
放入石像的眼部,这意味着死者的灵魂进入石像,从此即可保佑他的子孙后代。
然而,岛民的大量繁殖和雕刻大量的石像的结果是严重破坏了岛上的生态环境,森林大
量消耗,降雨开始减少,导致耕地退化,食物开始短缺,到八九世纪时,岛上部落之间... 阅读全帖

发帖数: 1
6
为什么世界在贸易战中必须硬怼中国 中国人看完集体沉默
先讲一个故事,是关于复活节岛的。
复活节岛,一座位于南太平洋中部的孤岛。大约公元五世纪,这个只有约180平方公里
的死火山岛被太平洋波利尼西亚群岛中一个名为伊瓦的小岛的岛民发现,开始有人类居
住。根据考证和推断,从公元五世纪被发现到公元八九世纪是岛上的黄金时期,这一时
期,岛民最多时发展到一万多人,作为图腾崇拜的一种方式,他们用最原始的方式雕刻
了数百尊石像,最小的不足两米,最大的有22米高。他们在岛上火山口处山体里直接雕
刻,然后砍伐树木作为滚木运送到海边已经建好的祭坛上,同样用原始的方式把石像竖
起来,之后举行隆重的仪式,以此纪念去世的祖先,他们最后把同样是石料雕刻的眼睛
放入石像的眼部,这意味着死者的灵魂进入石像,从此即可保佑他的子孙后代。
然而,岛民的大量繁殖和雕刻大量的石像的结果是严重破坏了岛上的生态环境,森林大
量消耗,降雨开始减少,导致耕地退化,食物开始短缺,到八九世纪时,岛上部落之间
因争夺食物发生了战争,根据传说,岛上甚至出现过人吃人的迹象。通过观察今天岛上
各处石像的遗址以及采石场,仿佛在一夜之间,没有人再... 阅读全帖

发帖数: 1
7
为什么世界在贸易战中必须硬怼中国 中国人看完集体沉默
先讲一个故事,是关于复活节岛的。
复活节岛,一座位于南太平洋中部的孤岛。大约公元五世纪,这个只有约180平方公里
的死火山岛被太平洋波利尼西亚群岛中一个名为伊瓦的小岛的岛民发现,开始有人类居
住。根据考证和推断,从公元五世纪被发现到公元八九世纪是岛上的黄金时期,这一时
期,岛民最多时发展到一万多人,作为图腾崇拜的一种方式,他们用最原始的方式雕刻
了数百尊石像,最小的不足两米,最大的有22米高。他们在岛上火山口处山体里直接雕
刻,然后砍伐树木作为滚木运送到海边已经建好的祭坛上,同样用原始的方式把石像竖
起来,之后举行隆重的仪式,以此纪念去世的祖先,他们最后把同样是石料雕刻的眼睛
放入石像的眼部,这意味着死者的灵魂进入石像,从此即可保佑他的子孙后代。
然而,岛民的大量繁殖和雕刻大量的石像的结果是严重破坏了岛上的生态环境,森林大
量消耗,降雨开始减少,导致耕地退化,食物开始短缺,到八九世纪时,岛上部落之间
因争夺食物发生了战争,根据传说,岛上甚至出现过人吃人的迹象。通过观察今天岛上
各处石像的遗址以及采石场,仿佛在一夜之间,没有人再... 阅读全帖

发帖数: 1
8
来自主题: Military版 - GoP和床铺全面反华的根本原因
涓轰粈涔堜笘鐣屽湪璐告槗鎴樹腑蹇呴』纭涓浗 涓浗浜虹湅瀹岄泦浣撴矇榛br />
鍏堣涓釜鏁呬簨锛屾槸鍏充簬澶嶆椿鑺傚矝鐨勩
澶嶆椿鑺傚矝锛屼竴搴т綅浜庡崡澶钩娲嬩腑閮ㄧ殑瀛ゅ矝銆傚ぇ绾﹀叕鍏冧簲涓栫
邯锛岃繖涓彧鏈夌害180骞虫柟鍏噷
鐨勬鐏北宀涜澶钩娲嬫尝鍒╁凹瑗夸簹缇ゅ矝涓竴涓悕涓轰紛鐡︾殑灏忓
矝鐨勫矝姘戝彂鐜帮紝寮鏈変汉绫诲眳浣忋鏍规嵁鑰冭瘉鍜屾帹鏂紝浠庡叕鍏
冧簲涓栫邯琚彂鐜板埌鍏厓鍏節涓栫邯鏄矝涓婄殑榛勯噾鏃舵湡锛岃繖涓椂
鏈燂紝宀涙皯鏈鏃跺彂灞曞埌涓竾澶氫汉锛屼綔涓哄浘鑵惧磭鎷滅殑涓鏂瑰
紡锛屼粬浠敤鏈師濮嬬殑鏂瑰紡闆曞埢浜嗘暟鐧惧皧鐭冲儚锛屾渶灏忕殑涓嶈冻涓
ょ背锛屾渶澶х殑鏈2绫抽珮銆備粬浠湪宀涗笂鐏北鍙e灞变綋閲岀洿鎺ラ洉
鍒伙紝鐒跺悗鐮嶄紣鏍戞湪浣滀负婊氭湪杩愰鍒版捣杈瑰凡缁忓缓濂界殑绁潧涓婏
紝鍚屾牱鐢ㄥ師濮嬬殑鏂瑰紡鎶婄煶鍍忕珫璧锋潵锛屼箣鍚庝妇琛岄殕閲嶇殑浠紡锛
屼互姝ょ邯蹇靛幓涓栫殑绁栧厛锛屼粬浠渶鍚庢妸鍚屾牱鏄煶鏂欓洉鍒荤殑鐪肩潧
鏀惧叆鐭冲儚鐨勭溂閮紝杩欐剰鍛崇潃姝昏鐨勭伒榄傝繘鍏ョ煶鍍忥紝浠庢鍗冲
彲淇濅綉浠栫殑瀛愬瓩鍚庝唬銆br />
鐒惰锛屽矝姘... 阅读全帖

发帖数: 1
9
为什么世界在贸易战中必须硬怼中国 中国人看完集体沉默
先讲一个故事,是关于复活节岛的。
复活节岛,一座位于南太平洋中部的孤岛。大约公元五世纪,这个只有约180平方公里
的死火山岛被太平洋波利尼西亚群岛中一个名为伊瓦的小岛的岛民发现,开始有人类居
住。根据考证和推断,从公元五世纪被发现到公元八九世纪是岛上的黄金时期,这一时
期,岛民最多时发展到一万多人,作为图腾崇拜的一种方式,他们用最原始的方式雕刻
了数百尊石像,最小的不足两米,最大的有22米高。他们在岛上火山口处山体里直接雕
刻,然后砍伐树木作为滚木运送到海边已经建好的祭坛上,同样用原始的方式把石像竖
起来,之后举行隆重的仪式,以此纪念去世的祖先,他们最后把同样是石料雕刻的眼睛
放入石像的眼部,这意味着死者的灵魂进入石像,从此即可保佑他的子孙后代。
然而,岛民的大量繁殖和雕刻大量的石像的结果是严重破坏了岛上的生态环境,森林大
量消耗,降雨开始减少,导致耕地退化,食物开始短缺,到八九世纪时,岛上部落之间
因争夺食物发生了战争,根据传说,岛上甚至出现过人吃人的迹象。通过观察今天岛上
各处石像的遗址以及采石场,仿佛在一夜之间,没有人再... 阅读全帖
w**********l
发帖数: 8501
10
靠,一群似懂非懂的外行在这扯淡。google那两 ceo读书的时候,做什么的知道吗?
As of November, 1997, the top search engines claim to index from 2 million (
WebCrawler) to 100 million web documents (from Search Engine Watch). It is
foreseeable that by the year 2000, a comprehensive index of the Web will
contain over a billion documents
这就是算法复杂度的意义, big O(n)都是不能承受之重,更别说动不动就O(nlogn)
了。
l********5
发帖数: 230
11
来自主题: JobHunting版 - Amazon面经
写一个webcrawler是怎么回事,。。具体什么要求哇?我记得是我们约莫要花一个月的
大project。。。
a***b
发帖数: 36
12
来自主题: JobHunting版 - 大家帮看看这个g的offer吧
能实际工作的webcrawler,几千台机器的水平吧
数据源那个,面试官说的也非常抽象,没有给太具体的例子,只是说比如一些产品信息
,类似amazon那样
l******g
发帖数: 31
13
No one interested in this at all?
N***m
发帖数: 4460
14
话说有人有一次问Guido,perl这么如此老朽的东西还有什么价值。
Guido放声大笑。
F****3
发帖数: 1504
15
来自主题: Programming版 - 请问Python初学者怎么学
主要想用Python做Natural Language Processing或者parsing website。或者
webcrawler。
请问应该从哪里开始呢?在Windows环境下编写python是不是比在Linux下面编写要差很
多。。。谢谢!
F****3
发帖数: 1504
16
来自主题: Programming版 - 请问Python初学者怎么学
主要想用Python做Natural Language Processing或者parsing website。或者
webcrawler。
请问应该从哪里开始呢?在Windows环境下编写python是不是比在Linux下面编写要差很
多。。。谢谢!
T*****u
发帖数: 7103
17
来自主题: Programming版 - 那位大侠介绍一下python的webcrawler吧
谢谢了
z****e
发帖数: 54598
18
来自主题: Programming版 - 那位大侠介绍一下python的webcrawler吧
web crawler就是一概念
你怎么impl跟语言本身没有关系
理论上你随便选一个高级语言
都可以搞定
e*****t
发帖数: 1005
19
来自主题: Programming版 - 那位大侠介绍一下python的webcrawler吧
理论上,你用打孔机打孔都可以实现。hiahia
乐高都能搭个图灵机。
z****e
发帖数: 54598
20
来自主题: Programming版 - 那位大侠介绍一下python的webcrawler吧
ibm帮元首屠杀犹太人时候就是做打孔机的
e*****e
发帖数: 543
21
来自主题: Programming版 - 那位大侠介绍一下python的webcrawler吧
是啊,在某local IBM office见过,还有个什么卡片排序的东东。
w****k
发帖数: 6244
22
来自主题: Programming版 - 那位大侠介绍一下python的webcrawler吧
scrapy, beautifulsoup, requests
p**o
发帖数: 3409
23
来自主题: Programming版 - 那位大侠介绍一下python的webcrawler吧
用requests或者urllib2裸写,用BeautifulSoup或者lxml或者正则来parse
或者用scrapy这样的framework
新手建议从裸写开始
T*****u
发帖数: 7103
24
来自主题: Programming版 - 那位大侠介绍一下python的webcrawler吧
Thanks for sharing. Can you specify more details?
T*****u
发帖数: 7103
25
来自主题: Programming版 - 那位大侠介绍一下python的webcrawler吧
牛人,我不懂才问的。问细节的时候回答概念,问概念的时候回答细节,我们新手跟不
上啊。
p**o
发帖数: 3409
26
来自主题: Programming版 - 那位大侠介绍一下python的webcrawler吧
just google the keywords
T*****u
发帖数: 7103
27
来自主题: Programming版 - 那位大侠介绍一下python的webcrawler吧
谢谢,much better...

起来
l**********n
发帖数: 8443
28
来自主题: Programming版 - fastest way to send 100k http requests in java
webcrawler用java和node哪个快?
y****d
发帖数: 432
29
来自主题: Statistics版 - 【分享】SAS2010全球论坛文章合集
★★★★★★★★★★★★★★★★★★★★★★★★★★★★★
前面说明:
需要的童鞋请到我的签名档的博客查找!谢谢!发E-mail太累了!
觉得有价值的话可以顶一下,以便更多的人看到!谢谢!
★★★★★★★★★★★★★★★★★★★★★★★★★★★★★
SAS2010全球论坛文章
1-10
Getting Connected to Your Data with SAS/CONNECT®
A Robust and Flexible Approach to Automating SAS® Jobs Under UNIX
Using SAS® Output Delivery System (ODS) Markup to Generate Custom
PivotTable and PivotChart Reports
Creating Easily Reusable and Extensible Processes: Code That Thinks for
Itself
ODS HTML Evolution, HTML that scrolls, panels, ... 阅读全帖
1 (共1页)