b***m 发帖数: 5987 | 1 一个巨大的文件,XML格式,是一个access log数据库数据倒出来的结果。由于格式问
题,该XML文件不分行。有什么好办法做XML分析,目的是分析XML然后总结出里面某些
字样的出现情况。我现在用的是Perl,目前没找到特别合适的库。如果有C#的方案也可
以。大家集思广益吧。 |
t****a 发帖数: 1212 | 2 传说中的SAX就是处理大XML的啊,你肯定看过了,是不好用么?如果你的问题简单,不
需要考虑XML结构,那么直接sed效率更高。 |
b***m 发帖数: 5987 | |
t****a 发帖数: 1212 | 4 sed还是很有用的,做这种dirty things sed, grep得学会。
另外,如果你的分析是一次性的,就算TB的话sed grep几个小时到一天也该够了。如果
你需要经常干这个,并且分析不需要考虑结构的话,那么推荐你把它弄到hadoop上去,
用sed配合hadoop streaming来做,那样做起来快很多。
【在 b***m 的大作中提到】 : 你说的SAX和SED俺通通不懂……
|
b***m 发帖数: 5987 | 5
grep是Linux上那个grep吗?SED给个link看看?我不知道微软内部是否允许使用啊。
【在 t****a 的大作中提到】 : sed还是很有用的,做这种dirty things sed, grep得学会。 : 另外,如果你的分析是一次性的,就算TB的话sed grep几个小时到一天也该够了。如果 : 你需要经常干这个,并且分析不需要考虑结构的话,那么推荐你把它弄到hadoop上去, : 用sed配合hadoop streaming来做,那样做起来快很多。
|
t****a 发帖数: 1212 | |
b***m 发帖数: 5987 | 7
嗯,仔细看看先。
【在 t****a 的大作中提到】 : wiki是好东西:http://en.wikipedia.org/wiki/Sed
|
b********a 发帖数: 300 | |
H********e 发帖数: 130 | 9 我的PhD 研究是做XML查询处理的,经常要处理GB级别的XML文件,如果需要考虑XML自
己的模式DTD的话,SAX是很好的选择
我有现成的Java代码,如果你需要的话,我可以发给你
【在 b***m 的大作中提到】 : 一个巨大的文件,XML格式,是一个access log数据库数据倒出来的结果。由于格式问 : 题,该XML文件不分行。有什么好办法做XML分析,目的是分析XML然后总结出里面某些 : 字样的出现情况。我现在用的是Perl,目前没找到特别合适的库。如果有C#的方案也可 : 以。大家集思广益吧。
|
h****e 发帖数: 928 | |
b***m 发帖数: 5987 | 11 这不是面试题啊,是我手头的工作之一。
【在 h****e 的大作中提到】 : 很好的面试题。LZ做完了公布一下方法吧。
|
b***m 发帖数: 5987 | 12 明天我先琢磨一下SAX这个东东。谢谢啦啊。
【在 H********e 的大作中提到】 : 我的PhD 研究是做XML查询处理的,经常要处理GB级别的XML文件,如果需要考虑XML自 : 己的模式DTD的话,SAX是很好的选择 : 我有现成的Java代码,如果你需要的话,我可以发给你
|