关于gsub的讨论汇总 - 话题女王

s********y
发帖数: 64

以下程序在执行opt <- yahoo.getAllOptions("IBM")后可以把IBM的option数据下载到
temporary file，请问如何把temporary file的数据导出到一个TXT文件？
谢谢！
------------------------------------------------------------------
require(fCalendar)
require(fredImport)
## workaround for R 2.1.1:
Sys.timezone <- function ()
as.vector(Sys.getenv("TZ"))
yahoo.getOption <- function(ticker="QQQQ",maturity="2005-12",file="
tempfile01",method="internal",get.short.rate=TRUE) {
############################################################################... 阅读全帖

t*****w
发帖数: 254

来自主题: Statistics版 - 请问面试 R 应该怎么准备？

When I had my job interview, they always tested my SAS skill.However I use R
all the time. To help your preparation, read my R codes to see how much you
can understand it.
%in%
?keyword
a<-matrix(0,nrow=3,ncol=3,byrow=T)
a1 <- a1/(t(a1)%*%spooled%*%a1)^.5 #standadization in discrim
a1<- a>=2; a[a1]
abline(h = -1:5, v = -2:3, col = "lightgray", lty=3)
abline(h=0, v=0, col = "gray60")
abs(r2[i])>r0
aggregate(iris[,1:4], list(iris$Species), mean)
AND: &; OR: |; NOT: !
anova(lm(data1[,3]~data1[,1... 阅读全帖

k***g
发帖数: 7244

来自主题: History版 - 计算模拟历史

以前闲着无聊的时候曾经做过一个《资治通鉴》的字频统计，单以频率计，中国历史不
过是“王”与“人”，“义”与“忠”，“将军”与“刺史”，“长安”与“洛阳”。
既然有了频率，自然也就有了概率和条件概率。根据条件概率，当给出一个序列的字词
后，预测下一个字词是什么，就变成了一个简单的最大似然估计问题。如果觉得这个序
列太长，计算起来太麻烦，可以假设简化的马尔科夫结构，譬如假设下一个词的概率取
决与之前的n个词而不是整个序列，这基本上就是计算语言学里的 n-gram 算法了。
所以我们可以用《资治通鉴》作为语料得出经验条件概率，然后来随机模拟出历史文本
，产生原汁原味（至少是统计意义上的）史书（技术细节见附录）。虽然这只是文字
游戏，但是仍然能从概率上看出《资治通鉴》记述的历史中，最容易重现怎样的事件。
譬如下面这则（random seed = 2000）：
撰刘崇俊以惟岳又从入关，宣等从太子也，惧履危亡之事
，发步骑二十骑自北至北寺狱，竟不使宗庙社稷。宗元为
柳州司马。坚大怒 ... 阅读全帖

r*******y
发帖数: 1081

来自主题: Linux版 - ./test input and ./test < input

I got it
cat $1 >tmp
cat tmp | awk '{if (NR==1) {printf "%s",$2} else {printf ", %s",$2}}'
cat tmp | awk '{if (NR==1) {gsub("\"", "", $2);printf "\n%s",$3} else {gsub
("\"", "", $2);printf ", %s",$3}}'
rm -f tmp
Thanks a lot

t****t
发帖数: 6806

来自主题: Programming版 - 初级awk问题 (转载)

gsub()?

j***3
发帖数: 142

来自主题: Programming版 - 初级awk问题 (转载)

隔壁的建议用
awk 'gsub("C","8",$1)' test.txt > test2.txt
只把$1里有"C"的几行输出，
没有输出其他行。

f******g
发帖数: 13917

来自主题: Unix版 - 初级awk问题

you are using the wrong function.
you should use:
gsub(/C/,"8", $1)

s*****n
发帖数: 2174

来自主题: Statistics版 - 今天又“R”了 -- 感想和请教。

1. names(data)[1] <- "newname" 就可以, 如果你不喜欢用数字index, 也可以这样
names(data)[names(data)=="var1"] <- "newname" 或者
names(data) <- gsub("var1", "newname", names(data)) 都可以
2. 你说那个有个条件, 就是BY variable必须是相同的. 考虑如果data1, data2,
data3之间做一个merge. data1和data2之间用var1和var2来做index match, 而data1和
data3之间用var3来做index match. 反正就是这种比较复杂的merge, 每个data之间的
BY variable都不确定. 很难定义一个函数来handle多个data, 除非这个函数本身提供
很多很多参数.
3. 除了SAS, 还有别的语言有你说的这种"最近的data"的概念吗?
是最近一个赋值(写)的, 还是最后一个取值(读)的? 比如
data3 <- merge(data1, data2)
print(data2

s*****n
发帖数: 2174

来自主题: Statistics版 - 更新一下Taste of R，再问两个R的问题。

你的第一个concern, 存在于任何key lookup性质的工作里面, 和方法本身无关.
"a", "a " 和 " a" 这本身就是不同的key. 任何平台, 包括SAS, SQL, R, Matlab,
Python等等, 都应该把他们当作不同的东西来对待. 只不过不同的软件可能提供不同
的函数处理前后的空格问题. R里面可以使用trim()或者gsub()搞定.
至于4和4.0, 这个本身就是不应该出现的问题. 如果只是从编程的角度讲,
用于key的variable本身就应该是离散型的. 用浮点数作为key match本身就不推荐.
这就好像不推荐比较两个浮点数是否相等一样. 最安全的做法, 就是都转换成字符串
操作, 就没有任何疑问了.

q**j
发帖数: 10612

来自主题: Statistics版 - R问题：（比较着急）如何去掉leading and trailing blanks.

google了一下。都是用gsub或者sub。看上去都是regular expression。有没有简单的
办法？R有没有现成的函数来干这个？多谢。

s*********e
发帖数: 1051

来自主题: Statistics版 - 有没有什么R PACKAGE 能把web上的文本抓下来?

steal from page 23 in "data manangment with R"
> rpage = url(’http://www.r-project.org/main.shtml’,’r’)
> while(1){
+ l = readLines(rpage,1)
+ if(length(l) == 0)break;
+ if(regexpr(’has been released’,l) > -1){
+ ver = sub(’ + print(gsub(’^ *’,’’,ver))
+ break
+ }
+ }

D*******a
发帖数: 207

来自主题: Statistics版 - R问题，在线等

gsub(".","-","aaaa.bbb")

c***i
发帖数: 3

来自主题: Statistics版 - R问题，在线等

gsub里加个fixed = T

d*******1
发帖数: 854

来自主题: Statistics版 - R问题，在线等

已经试了不好使
tmiri$lablex<- gsub(".","-", tmiri$label)
得到如下：
> tail(tmiri$label)
[1] "DS_011110_SC_5.4_18" "DS_011110_SC_5.4_18" "DS_011110_SC_5.4_18"
[4] "DS_011110_SC_5.4_18" "DS_011110_SC_5.4_18" "DS_011110_SC_5.4_18"
> tail(tmiri$labelx)
[1] "-------------------" "-------------------" "-------------------"
[4] "-------------------" "-------------------" "-------------------"

b*****n
发帖数: 685

来自主题: Statistics版 - 简单的R问题

其实很简单，就是取出string里面某些character，例如
x="STR_123"，要取出"123"。我知道能用grep/gsub，但是有没有更直观的办法？
用substr也可以实现，但是字符定位是个问题，也就是找到"_"所在的位置，有个很老
土的遍历办法能找到，可是效率太低。
哪位大拿贡献一把？

D******n
发帖数: 2836

来自主题: Statistics版 - 简单的R问题

as.integer(gsub("[^0-9]","",x))

D******n
发帖数: 2836

来自主题: Statistics版 - 菜鸟问题（R & SAS）

s="a b c ...."
ss=gsub(' ','',s);
result = sapply(1:91,function (x) {substr(ss,x,x+9)});

10

t****a
发帖数: 1212

来自主题: Statistics版 - 这个数据怎么处理？

try regular expression?
in R:
gsub('[.]*','.',yourcharacter)

b********y
发帖数: 63

来自主题: Statistics版 - 一个用R 进行data preparation的问题

or
as.integer(gsub("-", "", "1000-010"))

t*****w
发帖数: 254

来自主题: Statistics版 - SSN排序问题

1. as.numeric(gsub("-", "", "social_security"))
2. sort

m******2
发帖数: 564

来自主题: Statistics版 - 苦逼的R，连个数据都读不对！！！

我人笨?
我看是编R的那帮人存心不良!
首先对Excel这个最普遍的数据格式主程序不支持,难道让大家都自己手动把数敲进去?
csv就csv吧,没事就给自动转个factor, 生怕别人不知道你有factor这个类型
再有带逗号的数据是不是最常用的数据格式? 那么多经济数据都是带逗号的,
那你R凭什么装傻不给认?
哦，我用个gsub命令编个函数就可以了
那你怎么不事先编好? 让我溜你的命令找解决办法,好多学学R是吗?
我用过Eviews SPSS之类从来没有遇到过这种问题，从来就是Excel直接转了
R怎么了？是免费心有不甘吧？是不坑用户心里不舒服吧？

#	版面	帖数(主题数)
-	全站	4871 (796)
1	Military	3777 (569)
2	Stock	341 (51)
3	Joke	117 (17)
4	History	116 (3)
5	Automobile	100 (9)
6	USANews	55 (9)
7	Midlife	45 (1)
8	Headline	41 (41)
9	Dreamer	33 (13)
10	FleaMarket	32 (20)
11	Living	30 (7)

topics

未名新帖统计// 7月16日

历史上的今天