a********e 发帖数: 5779 | 1 有没有一个办法每天定期几次从某一个website读webpage,把其中某些感兴趣的data存
到database中。用什么写比较方便?多谢。优秀建议我发1000伪币。好的建议100wb。 |
s*******e 发帖数: 1630 | 2 如果website不需要login才看到的话很简单,随便一种语言都有function去抓整个
webpage的html下来,如果data的pattern很简单,直接regex抽就好,否则看看有没有
html parser,最后insert db。如果要schedule run,你可以找个免费hosting的地方
,可能php hosting的免费最多。收费的话可以租VM,也就是几十刀一年,然后你装什
么软件都可以,什么语言都可以了。 |
a********e 发帖数: 5779 | 3 Thank you very much.
Here is what I got by using java. But I did not set any browser information
when I call URL myURL=new URL("https://xxxxxxxxxxxxxxxx");
This website does not support this version of Internet
Explorer. Please upgrade to the latest version for a better experience.
href="/public/web-browsers.action">Upgrade Now
【在 s*******e 的大作中提到】 : 如果website不需要login才看到的话很简单,随便一种语言都有function去抓整个 : webpage的html下来,如果data的pattern很简单,直接regex抽就好,否则看看有没有 : html parser,最后insert db。如果要schedule run,你可以找个免费hosting的地方 : ,可能php hosting的免费最多。收费的话可以租VM,也就是几十刀一年,然后你装什 : 么软件都可以,什么语言都可以了。
|
g*****A 发帖数: 14950 | |
a********e 发帖数: 5779 | 5 你帮我写吧,所有wb归你
【在 g*****A 的大作中提到】 : 财大气粗 : 土豪
|
T*******p 发帖数: 524 | 6 这么简单的东西最多几小时的coding,login不login的没什么区别,也就用get或post.
然后用regular expression parse 下data存进database就搞定
【在 a********e 的大作中提到】 : 有没有一个办法每天定期几次从某一个website读webpage,把其中某些感兴趣的data存 : 到database中。用什么写比较方便?多谢。优秀建议我发1000伪币。好的建议100wb。
|
T*******p 发帖数: 524 | 7 换个compatible的browser agent
information
【在 a********e 的大作中提到】 : Thank you very much. : Here is what I got by using java. But I did not set any browser information : when I call URL myURL=new URL("https://xxxxxxxxxxxxxxxx"); : : : This website does not support this version of Internet : Explorer. Please upgrade to the latest version for a better experience. : href="/public/web-browsers.action">Upgrade Now : :
|
a********e 发帖数: 5779 | 8 I am running from command line, not from a web browser.
【在 T*******p 的大作中提到】 : 换个compatible的browser agent : : information
|
T*******p 发帖数: 524 | 9 By compatible browser agent , I meant in your code.
If you write you code in Java, google "Java set user agent"
【在 a********e 的大作中提到】 : I am running from command line, not from a web browser.
|
a********e 发帖数: 5779 | 10 thank you.
【在 T*******p 的大作中提到】 : By compatible browser agent , I meant in your code. : If you write you code in Java, google "Java set user agent"
|
|
|
g*****A 发帖数: 14950 | 11 好会骂人喔
【在 a********e 的大作中提到】 : 你帮我写吧,所有wb归你
|
s*******e 发帖数: 1630 | 12 re改user agent。抓到之后看看有没有你想要的data,万一那些data是ajax call回来
的,你html里边就一堆js script而已,又更难一些了。
【在 a********e 的大作中提到】 : thank you.
|
a********e 发帖数: 5779 | 13 是的。现在正google一个parser. 有啥建议?thx.
【在 s*******e 的大作中提到】 : re改user agent。抓到之后看看有没有你想要的data,万一那些data是ajax call回来 : 的,你html里边就一堆js script而已,又更难一些了。
|
A********r 发帖数: 28 | 14 免费奉送my visa bulletin后台的一段code,做的事情和你描述的基本一样: http://pastebin.com/Wka99Jpp
用的python,在google app engine运行,使用beautiful soup parse html
同时欢迎下载my visa bulletin app: https://play.google.com/store/apps/details
?id=com.endlessrain.myvb :D |
j*****y 发帖数: 2042 | 15 有的有Pay wall的内容login不login差别可大了
没有pay wall但是不带针对搜索引擎优化的静态页面的比如论坛,差别也有点大
post.
【在 T*******p 的大作中提到】 : 这么简单的东西最多几小时的coding,login不login的没什么区别,也就用get或post. : 然后用regular expression parse 下data存进database就搞定
|
T*******p 发帖数: 524 | 16 我原帖是说问题关键不在login不login
当然有复杂的情况,关健在于server是怎样track你的session,包括用cookie或script
. 没有login的session,可以做得比有login还复杂。
【在 j*****y 的大作中提到】 : 有的有Pay wall的内容login不login差别可大了 : 没有pay wall但是不带针对搜索引擎优化的静态页面的比如论坛,差别也有点大 : : post.
|
b******n 发帖数: 4509 | 17 python or ruby, piece of cake
or if you are old enough, use perlx
【在 a********e 的大作中提到】 : 有没有一个办法每天定期几次从某一个website读webpage,把其中某些感兴趣的data存 : 到database中。用什么写比较方便?多谢。优秀建议我发1000伪币。好的建议100wb。
|