E**********e 发帖数: 1736 | 1 今天比较高兴, 网上搜了个比较简单的xml parser,比较efficient。 本来在real
xml file上测试了,比较满意。但是换到了experian 的xml files。 竟然有bug。 花
了一天的时间debug。最终搞定了。 总共就几个简单的functions, 用recursion。竟
然很好的解决的experina的问题。 说到这,不得不赞自己一下。 学习能力还是很厉害
的吗。IT组的一个资深软件工程师用C#编的parser,用了most brute force 的
algorithm,答应出来竟然要10多页纸。
另外,也要赞一下python。 发现用python处理 xml file,很有效。 xml转成
dictionary data structure, 然后到json,到dataframe,到mongoDB. 一下子全通了
。 |
e*******s 发帖数: 1979 | 2 讲讲parsing algorithm?
【在 E**********e 的大作中提到】 : 今天比较高兴, 网上搜了个比较简单的xml parser,比较efficient。 本来在real : xml file上测试了,比较满意。但是换到了experian 的xml files。 竟然有bug。 花 : 了一天的时间debug。最终搞定了。 总共就几个简单的functions, 用recursion。竟 : 然很好的解决的experina的问题。 说到这,不得不赞自己一下。 学习能力还是很厉害 : 的吗。IT组的一个资深软件工程师用C#编的parser,用了most brute force 的 : algorithm,答应出来竟然要10多页纸。 : 另外,也要赞一下python。 发现用python处理 xml file,很有效。 xml转成 : dictionary data structure, 然后到json,到dataframe,到mongoDB. 一下子全通了 : 。
|
j**********r 发帖数: 3798 | 3 这东西难道不是有一堆开源类库,还要自己写?
【在 E**********e 的大作中提到】 : 今天比较高兴, 网上搜了个比较简单的xml parser,比较efficient。 本来在real : xml file上测试了,比较满意。但是换到了experian 的xml files。 竟然有bug。 花 : 了一天的时间debug。最终搞定了。 总共就几个简单的functions, 用recursion。竟 : 然很好的解决的experina的问题。 说到这,不得不赞自己一下。 学习能力还是很厉害 : 的吗。IT组的一个资深软件工程师用C#编的parser,用了most brute force 的 : algorithm,答应出来竟然要10多页纸。 : 另外,也要赞一下python。 发现用python处理 xml file,很有效。 xml转成 : dictionary data structure, 然后到json,到dataframe,到mongoDB. 一下子全通了 : 。
|
p***r 发帖数: 4702 | 4 why
【在 E**********e 的大作中提到】 : 今天比较高兴, 网上搜了个比较简单的xml parser,比较efficient。 本来在real : xml file上测试了,比较满意。但是换到了experian 的xml files。 竟然有bug。 花 : 了一天的时间debug。最终搞定了。 总共就几个简单的functions, 用recursion。竟 : 然很好的解决的experina的问题。 说到这,不得不赞自己一下。 学习能力还是很厉害 : 的吗。IT组的一个资深软件工程师用C#编的parser,用了most brute force 的 : algorithm,答应出来竟然要10多页纸。 : 另外,也要赞一下python。 发现用python处理 xml file,很有效。 xml转成 : dictionary data structure, 然后到json,到dataframe,到mongoDB. 一下子全通了 : 。
|
E**********e 发帖数: 1736 | 5 pyhton 是有开源的。
不过,要是是么都拿开源的, 自己怎么会提高? 是不是。 自己通过这个项目,很好
的明白了xml的数据结构,同时加深理解了python dictionary的数据结构。再加上
mongodb,json 数据结构。好像hive也就类似的数据结构。
而且pytyon dataframe 太赞了。 即使有的key missing, 但是最终dataframe 可以让
他们现行。很容易debug。
而且我这个比开源的要快。这是关键。 我现在能够熟练的操作xml, mongodb, sql。
这些是金融行业比较流行的数据结构。 我向data scientist 迈进了一小步。
【在 j**********r 的大作中提到】 : 这东西难道不是有一堆开源类库,还要自己写?
|
p***r 发帖数: 4702 | 6 支持xpath 之类吗?这些玩意要一做一套,或者符合iso 不然没有什么卵用。
你的xml parser 支持namespace 吗
【在 E**********e 的大作中提到】 : pyhton 是有开源的。 : 不过,要是是么都拿开源的, 自己怎么会提高? 是不是。 自己通过这个项目,很好 : 的明白了xml的数据结构,同时加深理解了python dictionary的数据结构。再加上 : mongodb,json 数据结构。好像hive也就类似的数据结构。 : 而且pytyon dataframe 太赞了。 即使有的key missing, 但是最终dataframe 可以让 : 他们现行。很容易debug。 : 而且我这个比开源的要快。这是关键。 我现在能够熟练的操作xml, mongodb, sql。 : 这些是金融行业比较流行的数据结构。 我向data scientist 迈进了一小步。
|
j**********r 发帖数: 3798 | 7 XML作为数据载体已经过时了。
【在 E**********e 的大作中提到】 : pyhton 是有开源的。 : 不过,要是是么都拿开源的, 自己怎么会提高? 是不是。 自己通过这个项目,很好 : 的明白了xml的数据结构,同时加深理解了python dictionary的数据结构。再加上 : mongodb,json 数据结构。好像hive也就类似的数据结构。 : 而且pytyon dataframe 太赞了。 即使有的key missing, 但是最终dataframe 可以让 : 他们现行。很容易debug。 : 而且我这个比开源的要快。这是关键。 我现在能够熟练的操作xml, mongodb, sql。 : 这些是金融行业比较流行的数据结构。 我向data scientist 迈进了一小步。
|
E**********e 发帖数: 1736 | 8 还不懂xpath。
现在是从xml转化到python dict。 namespace有相应的函数处理掉。
这个parser是用来处理工作的数据。目前没有必要考虑iso是么。也许处理别的vendor
的xml还会有bug。不过即使有debug,再改进也行。 核心的东西就是recursion。 而且
也有附属的数据转化功能, xml 相应的text 转化成相应的数据类型。
总的来说, 处理experian的信用报告的xml 也就足够了。
【在 p***r 的大作中提到】 : 支持xpath 之类吗?这些玩意要一做一套,或者符合iso 不然没有什么卵用。 : 你的xml parser 支持namespace 吗
|
l**g 发帖数: 133 | |
p**r 发帖数: 5853 | 10 你被骗了,一般真的认真学习的,都没时间来发帖,
吃饭拉屎都在想进化。
【在 l**g 的大作中提到】 : 为楼主认真学习的精神点赞
|
E**********e 发帖数: 1736 | 11 mitbbs上垃圾挺多的,充诉各个版面,见不的有人夸自己好。像您这位就是。
我吃饱了撑的,没事发个假贴,引来您这尊大神
确实该高兴。马工的是干不了。但作为data scientist,coding能力胜任的。这也是自
己正在提高的方向。工作中有时就应该自己找活干。我这个parser一搞定,就可以绕开
IT。不是说IT干的不好。不同组之间有时工作安排不同,必须等。 |