由买买提看人间百态

topics

全部话题 - 话题: gsub
1 (共1页)
s********y
发帖数: 64
1
来自主题: Programming版 - 问个关于R的低级问题
以下程序在执行opt <- yahoo.getAllOptions("IBM")后可以把IBM的option数据下载到
temporary file, 请问如何把temporary file的数据导出到一个TXT文件?
谢谢!
------------------------------------------------------------------
require(fCalendar)
require(fredImport)
## workaround for R 2.1.1:
Sys.timezone <- function ()
as.vector(Sys.getenv("TZ"))
yahoo.getOption <- function(ticker="QQQQ",maturity="2005-12",file="
tempfile01",method="internal",get.short.rate=TRUE) {
############################################################################... 阅读全帖
t*****w
发帖数: 254
2
来自主题: Statistics版 - 请问面试 R 应该怎么准备?
When I had my job interview, they always tested my SAS skill.However I use R
all the time. To help your preparation, read my R codes to see how much you
can understand it.
%in%
?keyword
a<-matrix(0,nrow=3,ncol=3,byrow=T)
a1 <- a1/(t(a1)%*%spooled%*%a1)^.5 #standadization in discrim
a1<- a>=2; a[a1]
abline(h = -1:5, v = -2:3, col = "lightgray", lty=3)
abline(h=0, v=0, col = "gray60")
abs(r2[i])>r0
aggregate(iris[,1:4], list(iris$Species), mean)
AND: &; OR: |; NOT: !
anova(lm(data1[,3]~data1[,1... 阅读全帖
k***g
发帖数: 7244
3
来自主题: History版 - 计算模拟历史
以前闲着无聊的时候曾经做过一个《资治通鉴》的字频统计,单以频率计,中国历史不
过是“王”与“人”,“义”与“忠”,“将军”与“刺史”,“长安”与“洛阳”。
既然有了频率,自然也就有了概率和条件概率。根据条件概率,当给出一个序列的字词
后,预测下一个字词是什么,就变成了一个简单的最大似然估计问题。如果觉得这个序
列太长,计算起来太麻烦,可以假设简化的马尔科夫结构,譬如假设下一个词的概率取
决与之前的n个词而不是整个序列,这基本上就是计算语言学里的 n-gram 算法了。
所以我们可以用《资治通鉴》作为语料得出经验条件概率,然后来随机模拟出历史文本
,产生原汁原味(至少是统计意义上的)史书 (技术细节见附录)。 虽然这只是文字
游戏,但是仍然能从概率上看出《资治通鉴》记述的历史中,最容易重现怎样的事件。
譬如下面这则 (random seed = 2000):
撰 刘 崇 俊 以 惟 岳 又 从 入 关 , 宣 等 从 太 子 也 , 惧 履 危 亡 之 事
, 发 步 骑 二 十 骑 自 北 至 北 寺 狱 , 竟 不 使 宗 庙 社 稷 。 宗 元 为
柳 州 司 马 。 坚 大 怒 ... 阅读全帖
r*******y
发帖数: 1081
4
来自主题: Linux版 - ./test input and ./test < input
I got it
cat $1 >tmp
cat tmp | awk '{if (NR==1) {printf "%s",$2} else {printf ", %s",$2}}'
cat tmp | awk '{if (NR==1) {gsub("\"", "", $2);printf "\n%s",$3} else {gsub
("\"", "", $2);printf ", %s",$3}}'
rm -f tmp
Thanks a lot
t****t
发帖数: 6806
5
来自主题: Programming版 - 初级awk问题 (转载)
gsub()?
j***3
发帖数: 142
6
来自主题: Programming版 - 初级awk问题 (转载)
隔壁的建议用
awk 'gsub("C","8",$1)' test.txt > test2.txt
只把$1里有"C"的几行 输出,
没有输出其他行。
f******g
发帖数: 13917
7
来自主题: Unix版 - 初级awk问题
you are using the wrong function.
you should use:
gsub(/C/,"8", $1)
s*****n
发帖数: 2174
8
来自主题: Statistics版 - 今天又“R”了 -- 感想和请教。
1. names(data)[1] <- "newname" 就可以, 如果你不喜欢用数字index, 也可以这样
names(data)[names(data)=="var1"] <- "newname" 或者
names(data) <- gsub("var1", "newname", names(data)) 都可以
2. 你说那个有个条件, 就是BY variable必须是相同的. 考虑如果data1, data2,
data3之间做一个merge. data1和data2之间用var1和var2来做index match, 而data1和
data3之间用var3来做index match. 反正就是这种比较复杂的merge, 每个data之间的
BY variable都不确定. 很难定义一个函数来handle多个data, 除非这个函数本身提供
很多很多参数.
3. 除了SAS, 还有别的语言有你说的这种"最近的data"的概念吗?
是最近一个赋值(写)的, 还是最后一个取值(读)的? 比如
data3 <- merge(data1, data2)
print(data2
s*****n
发帖数: 2174
9
你的第一个concern, 存在于任何key lookup性质的工作里面, 和方法本身无关.
"a", "a " 和 " a" 这本身就是不同的key. 任何平台, 包括SAS, SQL, R, Matlab,
Python等等, 都应该把他们当作不同的东西来对待. 只不过不同的软件可能提供不同
的函数处理前后的空格问题. R里面可以使用trim()或者gsub()搞定.
至于4和4.0, 这个本身就是不应该出现的问题. 如果只是从编程的角度讲,
用于key的variable本身就应该是离散型的. 用浮点数作为key match本身就不推荐.
这就好像不推荐比较两个浮点数是否相等一样. 最安全的做法, 就是都转换成字符串
操作, 就没有任何疑问了.
q**j
发帖数: 10612
10
google了一下。都是用gsub或者sub。看上去都是regular expression。有没有简单的
办法?R有没有现成的函数来干这个?多谢。
s*********e
发帖数: 1051
11
steal from page 23 in "data manangment with R"
> rpage = url(’http://www.r-project.org/main.shtml’,’r’)
> while(1){
+ l = readLines(rpage,1)
+ if(length(l) == 0)break;
+ if(regexpr(’has been released’,l) > -1){
+ ver = sub(’ + print(gsub(’^ *’,’’,ver))
+ break
+ }
+ }
D*******a
发帖数: 207
12
来自主题: Statistics版 - R问题, 在线等
gsub(".","-","aaaa.bbb")
c***i
发帖数: 3
13
来自主题: Statistics版 - R问题, 在线等
gsub里加个fixed = T
d*******1
发帖数: 854
14
来自主题: Statistics版 - R问题, 在线等
已经试了不好使
tmiri$lablex<- gsub(".","-", tmiri$label)
得到如下:
> tail(tmiri$label)
[1] "DS_011110_SC_5.4_18" "DS_011110_SC_5.4_18" "DS_011110_SC_5.4_18"
[4] "DS_011110_SC_5.4_18" "DS_011110_SC_5.4_18" "DS_011110_SC_5.4_18"
> tail(tmiri$labelx)
[1] "-------------------" "-------------------" "-------------------"
[4] "-------------------" "-------------------" "-------------------"
b*****n
发帖数: 685
15
来自主题: Statistics版 - 简单的R问题
其实很简单,就是取出string里面某些character,例如
x="STR_123",要取出"123"。我知道能用grep/gsub,但是有没有更直观的办法?
用substr也可以实现,但是字符定位是个问题,也就是找到"_"所在的位置,有个很老
土的遍历办法能找到,可是效率太低。
哪位大拿贡献一把?
D******n
发帖数: 2836
16
来自主题: Statistics版 - 简单的R问题
as.integer(gsub("[^0-9]","",x))
D******n
发帖数: 2836
17
来自主题: Statistics版 - 菜鸟问题 (R & SAS)
s="a b c ...."
ss=gsub(' ','',s);
result = sapply(1:91,function (x) {substr(ss,x,x+9)});

10
t****a
发帖数: 1212
18
来自主题: Statistics版 - 这个数据怎么处理?
try regular expression?
in R:
gsub('[.]*','.',yourcharacter)
b********y
发帖数: 63
19
来自主题: Statistics版 - 一个用R 进行data preparation的问题
or
as.integer(gsub("-", "", "1000-010"))
t*****w
发帖数: 254
20
来自主题: Statistics版 - SSN排序问题
1. as.numeric(gsub("-", "", "social_security"))
2. sort
m******2
发帖数: 564
21
我人笨?
我看是编R的那帮人存心不良!
首先对Excel这个最普遍的数据格式主程序不支持,难道让大家都自己手动把数敲进去?
csv就csv吧,没事就给自动转个factor, 生怕别人不知道你有factor这个类型
再有带逗号的数据是不是最常用的数据格式? 那么多经济数据都是带逗号的,
那你R凭什么装傻不给认?
哦,我用个gsub命令编个函数就可以了
那你怎么不事先编好? 让我溜你的命令找解决办法,好多学学R是吗?
我用过Eviews SPSS之类从来没有遇到过这种问题,从来就是Excel直接转了
R怎么了?是免费心有不甘吧?是不坑用户心里不舒服吧?
1 (共1页)