由买买提看人间百态

boards

本页内容为未名空间相应帖子的节选和存档,一周内的贴子最多显示50字,超过一周显示500字 访问原贴
Programming版 - 从网页周期性抓取信息然后自动发邮件,应该怎么做?
相关主题
struts extjs 集成问题LISP is better than XML, but worse is better?
请教个python抓网页的问题goodbug和coltzhao大牛能不能给一个backend的定义?
请教一个初级问题怎么写程序拿这个网页的数据?
请教个网页数据抓取的程序设计express.js的作者弃node转投go
有人用 boost::property_tree 吗?新的<Web技术日报 >
有没有简化的xml? (转载)没有data store的model有什么用吗?
telnet下如何verify进入哪个页面?有没有这样的blind JSON parser
用如下的framework开发手机游戏可行么项目中又有人要用restful,结果我不restful了。。。
相关话题的讨论汇总
话题: js话题: parse话题: html话题: alert话题: dealsea
进入Programming版参与讨论
1 (共1页)
i**********e
发帖数: 14
1
举个例子
对Canon 60D感兴趣,于是想每隔1小时自动查询一遍dealsea网站主页
搜索"Canon 60D",找到该关键字的话,就自动给自己的邮箱发邮件提醒
这样的功能应该怎么实现?提前先多谢了
给指点个链接也很感谢!
a*f
发帖数: 1790
2
自己查询Dealsea ‘Deal Alert’,或者Fatwallet, Slickdeal等的 'Email Alert'
l**********n
发帖数: 8443
3
jsoup

【在 i**********e 的大作中提到】
: 举个例子
: 对Canon 60D感兴趣,于是想每隔1小时自动查询一遍dealsea网站主页
: 搜索"Canon 60D",找到该关键字的话,就自动给自己的邮箱发邮件提醒
: 这样的功能应该怎么实现?提前先多谢了
: 给指点个链接也很感谢!

z****e
发帖数: 54598
4
楼主你需要很多东西撒
1)线程,要控制线程,需要用到sleep(1000*3600)
2)http req/rep的类库和相关的tutorial
3)可能需要有parse html的类库
4)最后你还需要一个发送email的类库
a*f
发帖数: 1790
5
动态网页只能走插件

【在 z****e 的大作中提到】
: 楼主你需要很多东西撒
: 1)线程,要控制线程,需要用到sleep(1000*3600)
: 2)http req/rep的类库和相关的tutorial
: 3)可能需要有parse html的类库
: 4)最后你还需要一个发送email的类库

z****e
发帖数: 54598
6
那个网站不是楼主的
楼主只是负责从别人网站上取一个页面
这个跟动态不动态有啥关系?
反正取回来的都是一个html文本
哪怕后缀是jsp

【在 a*f 的大作中提到】
: 动态网页只能走插件
a*f
发帖数: 1790
7
ExtJS网站, AngularJS网站取回来的都是一堆JS代码,就是这个意思

【在 z****e 的大作中提到】
: 那个网站不是楼主的
: 楼主只是负责从别人网站上取一个页面
: 这个跟动态不动态有啥关系?
: 反正取回来的都是一个html文本
: 哪怕后缀是jsp

l**********n
发帖数: 8443
8
Spring TaskScheduler
z****e
发帖数: 54598
9
万恶的js

【在 a*f 的大作中提到】
: ExtJS网站, AngularJS网站取回来的都是一堆JS代码,就是这个意思
z****e
发帖数: 54598
10
那这样写代码实现的话
还需要找一个js的parser
omg
这个估计会成为最痛苦的部分
首先要搞懂页面上的js是咋回事
麻痹
还是看看网站自己有没有啥email alert吧
相关主题
有没有简化的xml? (转载)LISP is better than XML, but worse is better?
telnet下如何verify进入哪个页面?goodbug和coltzhao大牛能不能给一个backend的定义?
用如下的framework开发手机游戏可行么怎么写程序拿这个网页的数据?
进入Programming版参与讨论
a*f
发帖数: 1790
11
还有个办法就是用Selenium,也可以解决JS和Session登录问题

【在 z****e 的大作中提到】
: 万恶的js
z****e
发帖数: 54598
12
我刚看了下dealsea的首页
不复杂,基本上还都是html
应该不用parse js就能搞定

【在 a*f 的大作中提到】
: 还有个办法就是用Selenium,也可以解决JS和Session登录问题
l******t
发帖数: 55733
13
parse啥JS啊。monitor req/res看看怎么更新页面的,照着发就是了。取回来的十之八
九是json,用起来更方便了
d****n
发帖数: 1637
14
curl -L http://dealsea.com/search?q=canon+60d&search_mode=Deals | ./convert_html_to_json | ./parse_cannon_out_of_json
w****k
发帖数: 6244
15
use python, check the following libs
requests (download web page)
beautifulsoup (parse html)
smtplib (send email)

【在 i**********e 的大作中提到】
: 举个例子
: 对Canon 60D感兴趣,于是想每隔1小时自动查询一遍dealsea网站主页
: 搜索"Canon 60D",找到该关键字的话,就自动给自己的邮箱发邮件提醒
: 这样的功能应该怎么实现?提前先多谢了
: 给指点个链接也很感谢!

g*********e
发帖数: 14401
16
crontab
grep webpage
mutt
c***d
发帖数: 996
17
楼主给我十五块, 我给你作出来。

【在 i**********e 的大作中提到】
: 举个例子
: 对Canon 60D感兴趣,于是想每隔1小时自动查询一遍dealsea网站主页
: 搜索"Canon 60D",找到该关键字的话,就自动给自己的邮箱发邮件提醒
: 这样的功能应该怎么实现?提前先多谢了
: 给指点个链接也很感谢!

a*****g
发帖数: 19398
18
如果仅仅是对这个买东西感兴趣,不如用 slickdeal设置一下keyword就好了。

【在 i**********e 的大作中提到】
: 举个例子
: 对Canon 60D感兴趣,于是想每隔1小时自动查询一遍dealsea网站主页
: 搜索"Canon 60D",找到该关键字的话,就自动给自己的邮箱发邮件提醒
: 这样的功能应该怎么实现?提前先多谢了
: 给指点个链接也很感谢!

k*******6
发帖数: 103
19
Python, 只要自带的library,不到100行就行了。我去年写了个在Amazon 抓相机,今年
改了改刷Yosemite的cabin~
t******d
发帖数: 128
20
这么巧!我之前7月的时候就在刷cabin。。。
呵呵,估计明年去黄石也要弄类似的,你能分享一下code不:)

【在 k*******6 的大作中提到】
: Python, 只要自带的library,不到100行就行了。我去年写了个在Amazon 抓相机,今年
: 改了改刷Yosemite的cabin~

1 (共1页)
进入Programming版参与讨论
相关主题
项目中又有人要用restful,结果我不restful了。。。有人用 boost::property_tree 吗?
Angular ng-include not working有没有简化的xml? (转载)
.net 系列的。想向 back end 发展。该学哪些东西啊? (转载)telnet下如何verify进入哪个页面?
js try catch finally question用如下的framework开发手机游戏可行么
struts extjs 集成问题LISP is better than XML, but worse is better?
请教个python抓网页的问题goodbug和coltzhao大牛能不能给一个backend的定义?
请教一个初级问题怎么写程序拿这个网页的数据?
请教个网页数据抓取的程序设计express.js的作者弃node转投go
相关话题的讨论汇总
话题: js话题: parse话题: html话题: alert话题: dealsea