topics

全部话题 - 话题: wget
首页 6 7 8 9 10 末页 (共10页)
d*****t
发帖数: 7903
1
恩,这个也不错,看来wget还是挺灵活的。
我本来是意思是:一个数据门户网站,不知内部文件结构,但要求下载网站上所有*.
xml文件,有一个算一个。这个问题已经解决了,全面贴了个例子。进一步,如何仅下
载'a*.xml'一类的文件貌似没有解决。前面大神说过这个功能不可能实现?
v*****r
发帖数: 2325
2
来自主题: Programming版 - vim值得学吗?
i used to rely on GUI IDE heavily, and could not understand my friend doing
embedded system c programming with vi(thinking what a backward dev tool!,,
without knowing there is a guy called vim).
now majority of my programming is done with Vim under linux, and i become
very comfortable with vim and like its fast speed, and vast set of useful
command line utilities by linux, such as locate, wget, curl. I Still use
Eclipse though, when deployment environment is not linux, or when i need
function s... 阅读全帖
t*****n
发帖数: 4908
a9
发帖数: 21638
4
同这样怀疑,换个浏览器试试看。
另外,直接用wget下载下来看看。
a9
发帖数: 21638
5
1,还是用wget试一下看看。
2, 写一个response.contentlength试试
3, 你的数据库字段什么类型?
a*****e
发帖数: 1700
6
来自主题: Programming版 - haskell有潜力成为最好的web framework
这个例子有什么不好?我来说说自己的实际经验。
我两年前用 shell script (wget, curl, grep, sed, awk) 写了一个微博备份(从网
页登录,抓取所有历史微博、图片及留言)的工具,3个小时左右基本完成。但感觉不
爽,就是个 quick&dirty hack,整体来说用 regex 来做这种事情,程序本身流程很差。
然后我用 Haskell 重新写,包括学习 conduit 的过程,大概用了 6 个小时。对结果
非常满意,直接有流式的 html parser 可用,run in constant memory。而且页面流
程被抽象出来,可读性高多了。fully typed,调试很方便,而且我对程序的正确性和
后续维护也更有信心。后来又稍微改了一下,可以备份整个微群所有帖子和图片。
记得两年前的时候 conduit 刚刚 0.3 发布,和它竞争的那个 pipes 库也刚开始写,
远不如目前成熟。所以你说没有狗到haskell框架,其实还是不熟悉它的生态。
a9
发帖数: 21638
7
来自主题: Programming版 - web developer是不是清一色Macbook
相对比起来,windows的安全性还是好一些,公司电脑也不允许乱装,木马没什么问题。
mac里bsd的软件太多,最近bsd里大bug一个接一个,防不胜防,像openssl,bash,wget
这几个,都会影响到mac

windows
w**z
发帖数: 8232
8
来自主题: Programming版 - web developer是不是清一色Macbook
ssh 方便。

题。
wget
a9
发帖数: 21638
9
来自主题: Programming版 - web developer是不是清一色Macbook
相对比起来,windows的安全性还是好一些,公司电脑也不允许乱装,木马没什么问题。
mac里bsd的软件太多,最近bsd里大bug一个接一个,防不胜防,像openssl,bash,wget
这几个,都会影响到mac

windows
w**z
发帖数: 8232
10
来自主题: Programming版 - web developer是不是清一色Macbook
ssh 方便。

题。
wget
w***g
发帖数: 5958
11
来自主题: Programming版 - 还是awk牛B
如果你没有parallel命令,或者命令比较老的话,先用下面的更新。
(wget -O - pi.dk/3 || curl pi.dk/3/) | sudo bash
比如有个大文件XXX有1G, 想数行数。直接就是
cat XXX | wc -l
用parallel就是
cat XXX | parallel --block 10M --pipe wc -l | awk 'BEGIN{a=0;}{a = a+ $1;}
END{print a;}'
wc -l可以换成grep, awk等任意可以以pipe方式运行的程序。
parallel --pipe会把输入分成大致--block指定的大小,默认是1M。然后启动N个wc一
块跑。和hadoop一样,parallel只会在行与行之间切分,所以是awk-friendly的。
parallel --pipe这步相当于map,如果有需要后面再reduce一下。
如果不加--pipe,输入的每一行会作为参数启动一个后面跟的命令。比如你的输入如果
存在大量文件里,那么就是find ... -type f | pipe wc -l 了
很多人不会写... 阅读全帖
x******m
发帖数: 736
12
来自主题: Programming版 - local python 安装问题
下载了2.7版的gzfile
mkdir ~/src
mkdir ~/.localpython
cd ~/src
wget http://www.python.org/ftp/python/2.7.1/Python-2.7.1.tgz
tar -zxvf Python-2.7.1.tar.gz
cd Python-2.7.1
make clean
./configure --prefix=/home//.localpython
make
make install
都没问题。进到.localpython/bin/里面run python2.7的时候,报错:
Could not find platform independent libraries
Could not find platform dependent libraries
Consider setting $PYTHONHOME to [:]
ImportError: No module named site
请多指教
c********1
发帖数: 5269
13
I use selenium(with python or java) to get secured web page, it works well.
o******1
发帖数: 1046
14
多谢!那个网页倒不是https协议,就是直接端口80的http协议。原则上是不是只要给
对了cookie和密码,就应该正确返回呢?
c*********e
发帖数: 16335
15
你这种做法,其实就是csrf,这是hacker常用的伎俩。一般为了避免这个hack,在网页上
有个隐藏的field,是csrf token,每次由server side给出这个token的值,然后用户
submit之后,server side会检查这个token是否和设置的一致。
你看看网页的request里面有没有submit token?
c********1
发帖数: 5269
16
You can use fiddler to monitor the communication between web client and web
server.
http://www.telerik.com/fiddler
原则上只要给 send the same data as a logined web broswer.
You can manually use a web browser to login, and check the communication
between web browser and web server..
l*******m
发帖数: 1096
17
直接 ssh 写scripts, 安全又方便
c*********e
发帖数: 16335
18
有的web app,在你登录进去后,有个session cookie,这个session cookie是存在
browser的内存里的,browser关闭的时候,session cookie就消失了。

web
c********1
发帖数: 5269
19
My understanding of [session cookie]. I did not verify that.
[session cookie] is in memory, it can not be read by javascript, however it
will be sent to web server.
w***g
发帖数: 5958
20
慢是一回事。数据库ETL是有好处的,就是数据库的schema迫使L那一步的数据是干净的
。Hadoop和mongo这类没schema的,导入的时候容易了,事后处理就得handle各种corne
r case。我们的Hadoop表里经常有上游的垃圾混进来。有时候读着读着会来一条wget或
者别的什么程序的运行出错信息。
p***o
发帖数: 1252
21
来自主题: Programming版 - python download pdf
我用wget加-U "IE"就行,curl直接也可以 ...
e**********y
发帖数: 128
22
来自主题: Programming版 - python download pdf
There must be a way in python can do this. I cannot tell you exactly how off
the top of my head.
But you can also download a pdf given a url using simple bash builtin tools
like curl (Mac OS X) or wget (on other Unix flavor OS)
curl -O http://www.ncbi.nlm.nih.gov/pmc/articles/PMC187478/pdf/03X.pdf
w***g
发帖数: 5958
23
碰到老本行了。第一个
wget http://audiolive.rbc.cn:1935/live/fm1006/96K/tzwj_video.m3u8
出来的文件里有这种
20160714/07/fm1006_1468451970_video_seq_1191.ts
把上面的变换成
http://audiolive.rbc.cn:1935/live/fm1006/96K/20160714/07/fm1006_1468451970_video_seq_1191.flv
就是一个10秒钟的片段。
然后就是不断刷新m3u8下载新的片段。
l******n
发帖数: 9344
24
装windows,然后vm装你习惯的linux系统
n******7
发帖数: 12463
25
Mac不是Linux
apt是Debian系专用的
楼上的homebrew可以一试
Mac可以直接VM Linux 不需要装Windows
d*******r
发帖数: 3299
26
装 homebrew, 不需要在 app store 上装
p*******n
发帖数: 2697
27
以后能Google到的这种基本问题还是先请教Google吧。不要满世界的发帖问人
C*****5
发帖数: 8812
28
也不能这么说。stack overflow上也是什么简单的问题都有。人家还挺鼓励的。
p*******n
发帖数: 2697
29
我并非打击lz,只是他同一个内容的帖子在至少两个版面每个版面重复发了两遍。
stack overflow也会close同内容主题的呀。
v**k
发帖数: 207
30
这个问题我google 了许久,没结果。就问问。 mit 上大神就是多。
a***s
发帖数: 440
31
如果真是这样,你还是别干这行了。上班时会受好多气。
b*******s
发帖数: 5216
v**k
发帖数: 207
33
还好, not that bad. stay calm.
s*********y
发帖数: 6151
34
首先你要问一问自己 为什么要装这些。 如果只是为了包管理,mac也有相应的。
如果真的需要linux 装个虚拟机 或者ssh到服务器 也不是难事。
v**k
发帖数: 207
35
是为了包管理。弄好了。多谢。又在 mit 上学了东西!;)

首先你要问一问自己 为什么要装这些。 如果只是为了包管理,mac也有相应的。
v**k
发帖数: 207
36
还好,我是学理科的,搞了程序后,发现它有些东西比数学简单,有些东西就是平铺直
叙,不象数学要拐些弯, 而且程序好些东西更实用, 它的一些东西就是数学的应用,
如 time, space complexity. 以后大概会自己多看看。起码还挺有意思。
l******n
发帖数: 9344
37
比数学简单太多,不需要脑子。。。
l******n
发帖数: 9344
38
装windows,然后vm装你习惯的linux系统
n******7
发帖数: 12463
39
Mac不是Linux
apt是Debian系专用的
楼上的homebrew可以一试
Mac可以直接VM Linux 不需要装Windows
d*******r
发帖数: 3299
40
装 homebrew, 不需要在 app store 上装
p*******n
发帖数: 2697
41
以后能Google到的这种基本问题还是先请教Google吧。不要满世界的发帖问人
C*****5
发帖数: 8812
42
也不能这么说。stack overflow上也是什么简单的问题都有。人家还挺鼓励的。
p*******n
发帖数: 2697
43
我并非打击lz,只是他同一个内容的帖子在至少两个版面每个版面重复发了两遍。
stack overflow也会close同内容主题的呀。
v**k
发帖数: 207
44
这个问题我google 了许久,没结果。就问问。 mit 上大神就是多。
a***s
发帖数: 440
45
如果真是这样,你还是别干这行了。上班时会受好多气。
b*******s
发帖数: 5216
v**k
发帖数: 207
47
还好, not that bad. stay calm.
s*********y
发帖数: 6151
48
首先你要问一问自己 为什么要装这些。 如果只是为了包管理,mac也有相应的。
如果真的需要linux 装个虚拟机 或者ssh到服务器 也不是难事。
v**k
发帖数: 207
49
是为了包管理。弄好了。多谢。又在 mit 上学了东西!;)

首先你要问一问自己 为什么要装这些。 如果只是为了包管理,mac也有相应的。
v**k
发帖数: 207
50
还好,我是学理科的,搞了程序后,发现它有些东西比数学简单,有些东西就是平铺直
叙,不象数学要拐些弯, 而且程序好些东西更实用, 它的一些东西就是数学的应用,
如 time, space complexity. 以后大概会自己多看看。起码还挺有意思。
首页 6 7 8 9 10 末页 (共10页)