K***a 发帖数: 72 | 1 In the data sample below, I’m trying to derive the fields (Clarity,
ColorAltClean, CaratClean, etc) from the Description field above it, the
description is for diamond product.
We have SAS Enterprise Miner, but don’t have text miner, is there any good
SAS tool can accomplish this task?
Description
Platinum 1.10ct Round I1 I Sds.32ct Baguettes IGI Cert 31302436
Clarity ColorAltClean CaratClean Shape CertAgent CERTNUMClean
I1 I 1.10 Round IGI 31302436 |
Y****a 发帖数: 243 | 2 这跟text mining沾不上边儿吧,顶多算data import from file
SAS里不是有fixed width读数据的方法吗,或者separate by space
实在不行,数据又不大的话,先读到excel里,用空格做分割符,然后再导入SAS |
K***a 发帖数: 72 | 3 谢谢YueJia回复。也许只有用SAS code解决了。本来想试试能不能在text mining领域
找到更简单和更适合长期应用的方法。 |
d********i 发帖数: 193 | 4 可以考虑用regular expressions来parse data |
K***a 发帖数: 72 | |
z******n 发帖数: 397 | 6 正则表达式最好了,为啥还要其他方法
【在 K***a 的大作中提到】 : 谢谢端阳。还有其它办法吗?
|
f********1 发帖数: 228 | 7 不知道整体data的情况,从给的例子猜测,可能是把每个第四行的data用空格做分隔符
读出来。Linux下可以用awk command
http://superuser.com/questions/396536/how-to-keep-only-every-nt
regular expression也是很好的方法 |