w*****u 发帖数: 299 | 1 目的即使user input的电影名字不完全,也可以找出可能的title.
因为用Accss Database, 所以用 “*" instead of "%". 还是不对,
请帮忙看看,谢乐谢乐,如果有更好的这类search功能的codes, 能
不能email给我 by e*****[email protected]?
Dim strSplit, i
strSplit = Request.Form("Title")
arrstrSplit = Split(strSplit)
For i=0 to UBound(arrstrSplit)
strSQL = "select * from Movies where Title LIKE '*"&
arrstrSplit(i)&"*'"
NEXT
rst.Open strSQL, StrConn |
|
p**o 发帖数: 3409 | 2 手写了一些C扩展,有些返回多重指针的函数不知道怎么用SWIG来包来供Python调用……
比如下面这个strsplit()函数,返回的是char**,怎么改才能让Python收到一个list (
of strings)?
http://www.swig.org/tutorial.html
我只是照tutorial简单地把函数声明抄进.i文件,Python中调用时返回的是
#include
#include
#include
/* Split an input string 'instr', using a set of given delimiters, to an
array of strings of at most 'maxparts' parts. */
char **strsplit (const char *instr, const char *delimiters, size_t maxparts)
{
char *... 阅读全帖 |
|
t*****w 发帖数: 254 | 3 When I had my job interview, they always tested my SAS skill.However I use R
all the time. To help your preparation, read my R codes to see how much you
can understand it.
%in%
?keyword
a<-matrix(0,nrow=3,ncol=3,byrow=T)
a1 <- a1/(t(a1)%*%spooled%*%a1)^.5 #standadization in discrim
a1<- a>=2; a[a1]
abline(h = -1:5, v = -2:3, col = "lightgray", lty=3)
abline(h=0, v=0, col = "gray60")
abs(r2[i])>r0
aggregate(iris[,1:4], list(iris$Species), mean)
AND: &; OR: |; NOT: !
anova(lm(data1[,3]~data1[,1... 阅读全帖 |
|
l*******r 发帖数: 3799 | 4 Historical intraday data一般不用钱弄不到, 要想折腾挂头皮的机器人,intraday可
能得自己攒
你可以自己写一个脚本parse nasdaq.com/yahoo finance/google finance, 也可以用
现成的API
很多软件都是基于Yahoo/Google finance API, 这里给一段R code如何自动下载SRS的
intraday data.
首先需要安装quantmod这个library, 安装完就可以运行了:
####################### CODE BEGIN ###########################
# Automatically pull the SRS data in every 10 seconds
library(quantmod)
while(TRUE){
ct <- Sys.time()
t <- unlist(strsplit(as.character(ct), " "))
date <- unlist(strsplit(t[1], "-"))
quote < |
|
R*********r 发帖数: 225 | 5 你这个好像拆成"ab","cd"了,呵呵。
>unlist(strsplit(unlist(strsplit("a b\nc d",split="\n")),split=' '))
[1] "a" "b" "c" "d"
the |
|
s*****n 发帖数: 2174 | 6 temp <-
as.numeric(unlist(strsplit(format(as.Date(doa, "%m/%d/%Y"), "%Y-%m%d"),
split = "-"))) -
as.numeric(unlist(strsplit(format(as.Date(dob, "%m/%d/%Y"), "%Y-%m%d"),
split = "-")))
temp[1] - as.numeric(temp[2] < 0) |
|
c***z 发帖数: 6348 | 7 我发现其实 getURL()就能得到 修改时间
哪位大侠能指点一下怎么parse出 文件名和修改时间呢?
> files <- getURL(sourcelink, ftp.use.epsv = FALSE, dirlistonly = FALSE)
> files <- strsplit(files, "\n")
> files <- unlist(files)
> files
[1] "-r-xr-xr-x 1 owner group 15780895 Mar 26 16:16 2011.q1-q3.
county_high_level.zip"
[2] "-r-xr-xr-x 1 owner group 128178060 Mar 26 17:02 2011.q1-q3.
end.zip"
[3] "dr-xr-xr-x 1 owner group 0 Mar 28 10:05 county"
[4] "dr-... 阅读全帖 |
|
c***z 发帖数: 6348 | 8 我是这么做的,可以获取ftp时间。
但是因为递归,还是不能运行良好。
# list of contents
filestubs <- getURL(sourcelink, ftp.use.epsv = FALSE, dirlistonly = FALSE)
filestubs <- strsplit(filestubs, "\n")
filestubs <- unlist(filestubs)
files <- as.data.frame(filestubs)
# obtain names and modify time
for (i in 1:length(filestubs)) {
# i <- 1
temp <- strsplit(filestubs[i], " ")
temp <- unlist(temp)
temp.name <- temp[length(temp)]
files$name[i] <- temp.name
temp.date <- paste(temp[length... 阅读全帖 |
|
b*******t 发帖数: 33714 | 9 你羡慕那些出口就会吟诗的文人吗?现在可以不用再羡慕他们了!因为一位网友“
yixuan”闲来无事,把《全宋词》拿出来“捣鼓”,算出了其中的99个高频词汇。熟记
这些高频词,你就可以随性所欲进行创作了!你还可以用“无序”的数字来创造一首“
美妙绝伦”的宋词,圆周率也可以哦!
简化宋词就是“东风何处在人间”
署名为“yixuan”的网友在个人博客里写道:“突然想看看宋词里面什么样的意象是最
常见的,比如可以做个频率分析什么的。当然文本挖掘需要分词,我没法在其中花太多
时间,于是想出了一个土办法。宋词的句子都很短,如果穷举可能的字的组合的话并不
是太多,况且最常见的词语一般是两三个字,这样可能的组合就更少了。”比如“犹解
嫁东风”这句话,可能的二字组合是“犹解”“解嫁”“嫁东”“东风”,三字组合是
“犹解嫁”“解嫁东”“嫁东风”,词的字数越多,可能的组合就越少。如果把每句话
可能的字的组合都列举出来,就可以整体统计频率了。”大家一致分析这位网友一定是
个理科生。
随后, “yixuan”贴出了他算出来的高频词,排在前面的分别是:
1、1485
2、东风(1382)
3、何处(1230)
... 阅读全帖 |
|
h*******g 发帖数: 10585 | 10 你羡慕那些出口就会吟诗的文人吗?现在可以不用再羡慕他们了!因为一位网友“
yixuan”闲来无事,把《全宋词》拿出来“捣鼓”,算出了其中的99个高频词汇。熟记
这些高频词,你就可以随性所欲进行创作了!你还可以用“无序”的数字来创造一首“
美妙绝伦”的宋词,圆周率也可以哦!
简化宋词就是“东风何处在人间”
署名为“yixuan”的网友在个人博客里写道:“突然想看看宋词里面什么样的意象是最
常见的,比如可以做个频率分析什么的。当然文本挖掘需要分词,我没法在其中花太多
时间,于是想出了一个土办法。宋词的句子都很短,如果穷举可能的字的组合的话并不
是太多,况且最常见的词语一般是两三个字,这样可能的组合就更少了。”比如“犹解
嫁东风”这句话,可能的二字组合是“犹解”“解嫁”“嫁东”“东风”,三字组合是
“犹解嫁”“解嫁东”“嫁东风”,词的字数越多,可能的组合就越少。如果把每句话
可能的字的组合都列举出来,就可以整体统计频率了。”大家一致分析这位网友一定是
个理科生。
随后, “yixuan”贴出了他算出来的高频词,排在前面的分别是:
1、1485
2、东风(1382)
3、何处(1230)
4... 阅读全帖 |
|
e****e 发帖数: 2740 | 11 你羡慕那些出口就会吟诗的文人吗?现在可以不用再羡慕他们了!因为一位网友“
yixuan”闲来无事,把《全宋词》拿出来“捣鼓”,算出了其中的99个高频词汇。熟记
这些高频词,你就可以随性所欲进行创作了!你还可以用“无序”的数字来创造一首“
美妙绝伦”的宋词,圆周率也可以哦!
简化宋词就是“东风何处在人间”
署名为“yixuan”的网友在个人博客里写道:“突然想看看宋词里面什么样的意象是最
常见的,比如可以做个频率分析什么的。当然文本挖掘需要分词,我没法在其中花太多
时间,于是想出了一个土办法。宋词的句子都很短,如果穷举可能的字的组合的话并不
是太多,况且最常见的词语一般是两三个字,这样可能的组合就更少了。”比如“犹解
嫁东风”这句话,可能的二字组合是“犹解”“解嫁”“嫁东”“东风”,三字组合是
“犹解嫁”“解嫁东”“嫁东风”,词的字数越多,可能的组合就越少。如果把每句话
可能的字的组合都列举出来,就可以整体统计频率了。”大家一致分析这位网友一定是
个理科生。
随后, “yixuan”贴出了他算出来的高频词,排在前面的分别是:
1、1485
2、东风(1382)
3、何处(1230)
... 阅读全帖 |
|
a*w 发帖数: 4495 | 12 【 以下文字转载自 WaterWorld 讨论区 】
发信人: evence (我们都是飞行军), 信区: WaterWorld
标 题: 文科生泡妞利器被码工摧毁了
发信站: BBS 未名空间站 (Fri Dec 2 12:12:24 2011, 美东)
你羡慕那些出口就会吟诗的文人吗?现在可以不用再羡慕他们了!因为一位网友“
yixuan”闲来无事,把《全宋词》拿出来“捣鼓”,算出了其中的99个高频词汇。熟记
这些高频词,你就可以随性所欲进行创作了!你还可以用“无序”的数字来创造一首“
美妙绝伦”的宋词,圆周率也可以哦!
简化宋词就是“东风何处在人间”
署名为“yixuan”的网友在个人博客里写道:“突然想看看宋词里面什么样的意象是最
常见的,比如可以做个频率分析什么的。当然文本挖掘需要分词,我没法在其中花太多
时间,于是想出了一个土办法。宋词的句子都很短,如果穷举可能的字的组合的话并不
是太多,况且最常见的词语一般是两三个字,这样可能的组合就更少了。”比如“犹解
嫁东风”这句话,可能的二字组合是“犹解”“解嫁”“嫁东”“东风”,三字组合是
“犹解嫁”“解嫁东”“嫁东风”,... 阅读全帖 |
|
A*********e 发帖数: 4361 | 13 【 以下文字转载自 LoveNLust 讨论区 】
发信人: anise (琴子), 信区: LoveNLust
标 题: 【转载】传说的作诗机就是这个原理
发信站: BBS 未名空间站 (Sat Dec 3 14:09:16 2011, 美东)
太搞笑了,有了这个程序,现在全民都可以做诗人了
发信人: henryjing (little13), 信区: PhotoGear
标 题: 【转载】文科生终于可以被消灭了
发信站: BBS 未名空间站 (Sat Dec 3 10:59:32 2011, 美东)
你羡慕那些出口就会吟诗的文人吗?现在可以不用再羡慕他们了!因为一位网友“
yixuan”闲来无事,把《全宋词》拿出来“捣鼓”,算出了其中的99个高频词汇。熟记
这些高频词,你就可以随性所欲进行创作了!你还可以用“无序”的数字来创造一首“
美妙绝伦”的宋词,圆周率也可以哦!
简化宋词就是“东风何处在人间”
署名为“yixuan”的网友在个人博客里写道:“突然想看看宋词里面什么样的意象是最
常见的,比如可以做个频率分析什么的。当然文本挖掘需要分词,我没法在其中花太多
时间,于是想... 阅读全帖 |
|
a***e 发帖数: 1073 | 14 太搞笑了,有了这个程序,现在全民都可以做诗人了
【 以下文字转载自 PhotoGear 讨论区 】
发信人: henryjing (little13), 信区: PhotoGear
标 题: 【转载】文科生终于可以被消灭了
发信站: BBS 未名空间站 (Sat Dec 3 10:59:32 2011, 美东)
你羡慕那些出口就会吟诗的文人吗?现在可以不用再羡慕他们了!因为一位网友“
yixuan”闲来无事,把《全宋词》拿出来“捣鼓”,算出了其中的99个高频词汇。熟记
这些高频词,你就可以随性所欲进行创作了!你还可以用“无序”的数字来创造一首“
美妙绝伦”的宋词,圆周率也可以哦!
简化宋词就是“东风何处在人间”
署名为“yixuan”的网友在个人博客里写道:“突然想看看宋词里面什么样的意象是最
常见的,比如可以做个频率分析什么的。当然文本挖掘需要分词,我没法在其中花太多
时间,于是想出了一个土办法。宋词的句子都很短,如果穷举可能的字的组合的话并不
是太多,况且最常见的词语一般是两三个字,这样可能的组合就更少了。”比如“犹解
嫁东风”这句话,可能的二字组合是“犹解”“解嫁”“嫁东”... 阅读全帖 |
|
b*********9 发帖数: 458 | 15 【 以下文字转载自 Sex 讨论区 】
发信人: evence (我们都是飞行军), 信区: Sex
标 题: 文科生泡妞利器被码工摧毁了 (转载)
发信站: BBS 未名空间站 (Sat Dec 3 01:28:41 2011, 美东)
发信人: evence (我们都是飞行军), 信区: WaterWorld
标 题: 文科生泡妞利器被码工摧毁了
发信站: BBS 未名空间站 (Fri Dec 2 12:12:24 2011, 美东)
你羡慕那些出口就会吟诗的文人吗?现在可以不用再羡慕他们了!因为一位网友“
yixuan”闲来无事,把《全宋词》拿出来“捣鼓”,算出了其中的99个高频词汇。熟记
这些高频词,你就可以随性所欲进行创作了!你还可以用“无序”的数字来创造一首“
美妙绝伦”的宋词,圆周率也可以哦!
简化宋词就是“东风何处在人间”
署名为“yixuan”的网友在个人博客里写道:“突然想看看宋词里面什么样的意象是最
常见的,比如可以做个频率分析什么的。当然文本挖掘需要分词,我没法在其中花太多
时间,于是想出了一个土办法。宋词的句子都很短,如果穷举可能的字的组合的话并不... 阅读全帖 |
|
s*****n 发帖数: 134 | 16 【 以下文字转载自 WaterWorld 讨论区 】
发信人: evence (我们都是飞行军), 信区: WaterWorld
标 题: 文科生泡妞利器被码工摧毁了
发信站: BBS 未名空间站 (Fri Dec 2 12:12:24 2011, 美东)
你羡慕那些出口就会吟诗的文人吗?现在可以不用再羡慕他们了!因为一位网友“
yixuan”闲来无事,把《全宋词》拿出来“捣鼓”,算出了其中的99个高频词汇。熟记
这些高频词,你就可以随性所欲进行创作了!你还可以用“无序”的数字来创造一首“
美妙绝伦”的宋词,圆周率也可以哦!
简化宋词就是“东风何处在人间”
署名为“yixuan”的网友在个人博客里写道:“突然想看看宋词里面什么样的意象是最
常见的,比如可以做个频率分析什么的。当然文本挖掘需要分词,我没法在其中花太多
时间,于是想出了一个土办法。宋词的句子都很短,如果穷举可能的字的组合的话并不
是太多,况且最常见的词语一般是两三个字,这样可能的组合就更少了。”比如“犹解
嫁东风”这句话,可能的二字组合是“犹解”“解嫁”“嫁东”“东风”,三字组合是
“犹解嫁”“解嫁东”“嫁东风”,... 阅读全帖 |
|
p**o 发帖数: 3409 | 17 我是举个简单易懂的例子,这个strsplit()其实是供其他C函数调用的,
还有好些类似的函数是py没有的。 |
|
q**j 发帖数: 10612 | 18 比如
x = as.character(a b c d)
y= strsplit(x, " ")就可以把它拆成a, b, c,d。
可是如果
x = as.character(a b\nc d)
就不灵了。这里面b和c之间用回车隔开的。
请教如果这样,应该如何应付?
多谢。 |
|
|
t**i 发帖数: 688 | 20 If you look closely, you should notice that I used regex for the splitter.
That is, either space or \n will be recognized. I tried the following and
it worked. Please do copy and paste to make sure you do not miss the
invisible space character.
> x="a b\nc d"
> strsplit(x,"[ \n]")
[[1]]
[1] "a" "b" "c" "d" |
|
t**i 发帖数: 688 | 21 > x="a b\n \tc\r \nd"
> strsplit(x, "[ *|\t*|\r*|\n*|\v*|\f*]+")
[[1]]
[1] "a" "b" "c" "d" |
|
t**i 发帖数: 688 | 22 Use R:
x=unlist(strsplit(paste(seq(0,1000),collapse=""),""))
length(x[x=="9"]) |
|
s*****n 发帖数: 2174 | 23 data <- read.csv("yourfile.txt", header = F)
unlist(strsplit(as.character(data$V1), split="")) |
|
A*****n 发帖数: 243 | 24 关于16.1.2,其实R也能读入非常复杂的input data,read.table只是最常用的而已。
用python读数据的时候, readlines 和 string.split是最常用的,而这个在R里面用
readLines和strsplit也可以做到,R也有一些正则表达式的功能。如果针对数据的具体
形式写函数,效果应该和用python写的预处理程序是一样的。 |
|
s*****n 发帖数: 2174 | 25 Of course tapply() is not the only way to do it. Read the help file of tappl
y(). If it is still unclear to you, you probably should write a loop to achi
eve your goal.
I can give you codes, but I do not suggest you use them if you do not
understa
nd them:
## Assume your data frame is called data
temp <- tapply(
data$Revenue,
paste(data$Sales_person,
as.Date(data$DATE_time),
sep = " "),
sum)
result <- data.frame(
matrix(unlist(strsplit(names(temp), split = " ")),
|
|
d*******1 发帖数: 854 | 26 一个string, 像xxx_yyy_zzzz_1, 怎样把yyy parse出来,根据yyy是被_分割开的第二
个string. 试了strsplit(data,'_')得到一个list, 不是想要的 |
|
d*******1 发帖数: 854 | 27 我的数据是这样:
dataframe: fm:
name
xxx_yyy_24hr_1
xxx_yyy_24hr_2
xxx_yyy_48hr_1
xxx_yyy_48hr_2
split<- strsplit(fm$name,'_')
这样每一行产生四个元素, 假设原来的DATA 一共100行, 我用unlist就会产生4X100
元素, 所以用 unlist(split)[3]就把24hr 赋值给所有rows了。 必须这样:
fm$time<- unlist(split)[c(3,7,11,15......)]
但是我的总行数一般是开始不知道的, 怎么办呢?
谢谢了 |
|
t**i 发帖数: 688 | 28 do.call("rbind", strsplit(....))[,2] |
|
d*******1 发帖数: 854 | 29 需要transpose 才行:
split<- strsplit(test$Experiment, '_')
msplit<- t(matrix(unlist(split),nrow=4))
test$time<- msplit[,3] |
|
f***a 发帖数: 329 | 30 a <- rep(1,15)
b <- rep(1:3,each=5)
tt <- c( "1,1,1,1,1,1,1,1,1,1,1,1,1,1,1"
,"1,1,1,1,1,2,2,2,2,2,3,3,3,3,3")
ind.a <- which(apply(data.frame(tt),1,function(t)
sum(as.numeric(unlist(strsplit(t,",",fixed=T)))-a)
)==0)
tt是你要检验的vector, ind.a是结果(index of elements which can be replaced
by a). 同理要检验b的话,在checking function中用b替换a就行了。
希望我看懂了你的意思,呵呵~
这个是假定element长度都是15的情况,不是的话添加检验长度的语句会更efficient些。 |
|
f***a 发帖数: 329 | 31 xx <- as.numeric(unlist(strsplit(x,"_")))
xx[!is.na(xx)] |
|
s*****n 发帖数: 2174 | 32 what you can do is to read them as a string into R, and then split the
string into each characters.
strsplit("ABCDE", split = "")
[[1]]
[1] "A" "B" "C" "D" "E" |
|
s*****n 发帖数: 2174 | 33 I just give you a hint, of course you need to modify it to fit what you need
. for example
> data
V1
1 ABCDE
2 ABCDE
3 ABCDE
> t(sapply(1:dim(data)[1], function(i) unlist(strsplit(data$V1[i], split = "
"))))
[,1] [,2] [,3] [,4] [,5]
[1,] "A" "B" "C" "D" "E"
[2,] "A" "B" "C" "D" "E"
[3,] "A" "B" "C" "D" "E" |
|
f*******3 发帖数: 26 | 34 R很简单: length(unique(strsplit(x,"")[[1]])) |
|
l*********s 发帖数: 5409 | 35 say, d <- "12/10/2001",
datastruct <- as.numeric( unlist( strsplit(d, "/")) )
datastruct is a tuple of (month, day,year). You shall be able to figure out
the rest stuff on your own now.
baozi plz. |
|
w********m 发帖数: 1137 | 36 readMERLIN <- function(infile) {
x <- file(infile, "r")
repeat {
rl <- readLines(x, n=1)
if (length(rl) == 0) break
if (length(grep("lnLikelihood", rl)) > 0) {
return( as.double(strsplit(rl, split= "=")[[1]][2]) )
}
}
}
y <- readMERLIN("test.txt")
analysis, |
|
c***z 发帖数: 6348 | 37 能详解一下么
我倒是找到了一个法子
首先列出目录下的文件和子目录,文件直接下载,子目录调用本函数(递归)
但是下载下来的文件大小不对,大侠能帮忙看看么
library("RCurl")
# ==========================================================================
====
# Function that downloads files from URL
# ==========================================================================
====
fdownload <- function(sourcelink) {
# sourcelink <- ftp.root # test, root level
# sourcelink <- dirs[1] # test, second level
targetlink <- paste(dropbox.root, substr(sourcelink, nchar(ftp.root)+... 阅读全帖 |
|
c***z 发帖数: 6348 | 38 I got a working version now:
#=====================================================================
# Function that downloads files from URL
#=====================================================================
fdownload <- function(sourcelink) {
# sourcelink <- ftp.root # test, root level
# sourcelink <- dirs[1] # test, second level
targetlink <- paste(dropbox.root, substr(sourcelink, nchar(ftp.root)+1,
nchar(sourcelink)), sep = '')
# list of contents
filenames <- getURL(sourceli... 阅读全帖 |
|
i*****y 发帖数: 188 | 39 我有个一个data frame, 有一个column是有如下形式:
1001-001, 1001-002,...,一直到1001-050,每个数据重复多次,
我想这一列变成numbers,也就是
1001001,1001002,...1001050,能够和原来的完全对应.
我用了strsplit(),可是这样以来,1001-001就被变成了2个numbers,1001 和001
,而不是我想要的一个数字。
请大家指点下,多谢啦!! |
|
c***z 发帖数: 6348 | 40 我有一个naive的想法是strsplit again
有更好的办法么?谢谢! |
|
c*********t 发帖数: 340 | 41 想不出更好的办法,对rcurl不是很熟
但是有个笨办法供lz参考
既然是fixed length就找出想要的column的位置:)
> grep("M",unlist(strsplit(files[1],"")))
47
> substr(files,47,47+11)
[1] "Mar 26 16:16" "Mar 26 17:02" "Mar 28 10:05" "Mar 28 10:05" "Mar 28 10:
05" "Mar 28 10:05" "Mar 28 10:05" "Mar 28 10:05" "Mar 28 10:05"
[10] "Mar 28 10:05" |
|
t******g 发帖数: 372 | 42 may not be the best, my 2ct
option1,
sapply(sapply(csv[,2], function(x) strsplit(x, ',')), function(y) prop.table
(table(y))['A'])
option2,
sapply(gregexpr('A', csv[,2]), function(x) length(x)) / sapply(gregexpr(',',
csv[,2]), function(x) length(x)+1)
..
row |
|
|
d*******7 发帖数: 118 | 44 s<-"123ABC45"
m<-unlist(strsplit(s,""))
paste(m[grep("[A-Z]",m)[1]:nchar(s)],collapse="")
123ABC45 |
|
v*******e 发帖数: 133 | 45 下面code可以,但是我觉得还是太复杂了
Product=c("A","A","A","B","B","C")
Color=c("red","yellow","black","yellow","white","black")
df1=data.frame(Product,Color)
b=aggregate(Color~Product, data = df1, FUN=paste, collapse = " ")
c <- strsplit((b$Color), " ")
maxLen <- max(sapply(c, length))
d<- as.data.frame(t(sapply(c, function(x) c(x, rep(" ", maxLen - length(x)))
)))
colnames(d) <- paste("Color", 1:maxLen, sep="")
df2=cbind(df1[,-c(2)], d) |
|