今天写了个比较effecient XML parser - JobHunting版 - 未名存档

本页内容为未名空间相应帖子的节选和存档，一周内的贴子最多显示50字，超过一周显示500字访问原贴

JobHunting版 - 今天写了个比较effecient XML parser

相关主题
● 两个面试	● ST和HU店面
● === 2 Java Developer Openings （Bay Area Only） ===	● 你们遇到过限时做project的面试吗
● === Startup Job Opening: Java Developer ===	● 发两个软件组的面试题
● 转一个Employment oppotunity for Jr .Net developer	● 这道雅虎的面试题绝了，有谁会做吗
● Java developer or .Net devleloper Opportunites at Citi	● 本组招人提供内推有意者私信给我
● 学什么语言的问题（java/c/c++/python/php/ruby）其实很简单	● 给还在找工作的XDJM们打气！（附MS面试建议）
● 求问大牛json parser的问题	● 怎么提高BST traversal efficiency?
● 被问到一道题： how to design a xml parser.	● 有个recruiter发给我的，我用不着，看看有没有感兴趣的，直接跟recuiter联系吧

相关话题的讨论汇总
话题: xml话题: parser话题: effecient话题: 比较话题: dataframe

进入JobHunting版参与讨论

1

(共1页)

E**********e 发帖数: 1736	1 今天比较高兴，网上搜了个比较简单的xml parser，比较efficient。本来在real xml file上测试了，比较满意。但是换到了experian 的xml files。竟然有bug。花了一天的时间debug。最终搞定了。总共就几个简单的functions，用recursion。竟然很好的解决的experina的问题。说到这，不得不赞自己一下。学习能力还是很厉害的吗。IT组的一个资深软件工程师用C#编的parser，用了most brute force 的 algorithm，答应出来竟然要10多页纸。另外，也要赞一下python。发现用python处理 xml file，很有效。 xml转成 dictionary data structure，然后到json，到dataframe，到mongoDB. 一下子全通了。
e*******s 发帖数: 1979	2 讲讲parsing algorithm? 【在 E**********e 的大作中提到】 : 今天比较高兴，网上搜了个比较简单的xml parser，比较efficient。本来在real : xml file上测试了，比较满意。但是换到了experian 的xml files。竟然有bug。花 : 了一天的时间debug。最终搞定了。总共就几个简单的functions，用recursion。竟 : 然很好的解决的experina的问题。说到这，不得不赞自己一下。学习能力还是很厉害 : 的吗。IT组的一个资深软件工程师用C#编的parser，用了most brute force 的 : algorithm，答应出来竟然要10多页纸。 : 另外，也要赞一下python。发现用python处理 xml file，很有效。 xml转成 : dictionary data structure，然后到json，到dataframe，到mongoDB. 一下子全通了 : 。
j**********r 发帖数: 3798	3 这东西难道不是有一堆开源类库，还要自己写？【在 E**********e 的大作中提到】 : 今天比较高兴，网上搜了个比较简单的xml parser，比较efficient。本来在real : xml file上测试了，比较满意。但是换到了experian 的xml files。竟然有bug。花 : 了一天的时间debug。最终搞定了。总共就几个简单的functions，用recursion。竟 : 然很好的解决的experina的问题。说到这，不得不赞自己一下。学习能力还是很厉害 : 的吗。IT组的一个资深软件工程师用C#编的parser，用了most brute force 的 : algorithm，答应出来竟然要10多页纸。 : 另外，也要赞一下python。发现用python处理 xml file，很有效。 xml转成 : dictionary data structure，然后到json，到dataframe，到mongoDB. 一下子全通了 : 。
p***r 发帖数: 4702	4 why 【在 E**********e 的大作中提到】 : 今天比较高兴，网上搜了个比较简单的xml parser，比较efficient。本来在real : xml file上测试了，比较满意。但是换到了experian 的xml files。竟然有bug。花 : 了一天的时间debug。最终搞定了。总共就几个简单的functions，用recursion。竟 : 然很好的解决的experina的问题。说到这，不得不赞自己一下。学习能力还是很厉害 : 的吗。IT组的一个资深软件工程师用C#编的parser，用了most brute force 的 : algorithm，答应出来竟然要10多页纸。 : 另外，也要赞一下python。发现用python处理 xml file，很有效。 xml转成 : dictionary data structure，然后到json，到dataframe，到mongoDB. 一下子全通了 : 。
E**********e 发帖数: 1736	5 pyhton 是有开源的。不过，要是是么都拿开源的，自己怎么会提高？是不是。自己通过这个项目，很好的明白了xml的数据结构，同时加深理解了python dictionary的数据结构。再加上 mongodb，json 数据结构。好像hive也就类似的数据结构。而且pytyon dataframe 太赞了。即使有的key missing，但是最终dataframe 可以让他们现行。很容易debug。而且我这个比开源的要快。这是关键。我现在能够熟练的操作xml， mongodb， sql。这些是金融行业比较流行的数据结构。我向data scientist 迈进了一小步。【在 j**********r 的大作中提到】 : 这东西难道不是有一堆开源类库，还要自己写？
p***r 发帖数: 4702	6 支持xpath 之类吗？这些玩意要一做一套，或者符合iso 不然没有什么卵用。你的xml parser 支持namespace 吗【在 E**********e 的大作中提到】 : pyhton 是有开源的。 : 不过，要是是么都拿开源的，自己怎么会提高？是不是。自己通过这个项目，很好 : 的明白了xml的数据结构，同时加深理解了python dictionary的数据结构。再加上 : mongodb，json 数据结构。好像hive也就类似的数据结构。 : 而且pytyon dataframe 太赞了。即使有的key missing，但是最终dataframe 可以让 : 他们现行。很容易debug。 : 而且我这个比开源的要快。这是关键。我现在能够熟练的操作xml， mongodb， sql。 : 这些是金融行业比较流行的数据结构。我向data scientist 迈进了一小步。
j**********r 发帖数: 3798	7 XML作为数据载体已经过时了。【在 E**********e 的大作中提到】 : pyhton 是有开源的。 : 不过，要是是么都拿开源的，自己怎么会提高？是不是。自己通过这个项目，很好 : 的明白了xml的数据结构，同时加深理解了python dictionary的数据结构。再加上 : mongodb，json 数据结构。好像hive也就类似的数据结构。 : 而且pytyon dataframe 太赞了。即使有的key missing，但是最终dataframe 可以让 : 他们现行。很容易debug。 : 而且我这个比开源的要快。这是关键。我现在能够熟练的操作xml， mongodb， sql。 : 这些是金融行业比较流行的数据结构。我向data scientist 迈进了一小步。
E**********e 发帖数: 1736	8 还不懂xpath。现在是从xml转化到python dict。 namespace有相应的函数处理掉。这个parser是用来处理工作的数据。目前没有必要考虑iso是么。也许处理别的vendor 的xml还会有bug。不过即使有debug，再改进也行。核心的东西就是recursion。而且也有附属的数据转化功能， xml 相应的text 转化成相应的数据类型。总的来说，处理experian的信用报告的xml 也就足够了。【在 p***r 的大作中提到】 : 支持xpath 之类吗？这些玩意要一做一套，或者符合iso 不然没有什么卵用。 : 你的xml parser 支持namespace 吗
l**g 发帖数: 133	9 为楼主认真学习的精神点赞
p**r 发帖数: 5853	10 你被骗了，一般真的认真学习的，都没时间来发帖，吃饭拉屎都在想进化。【在 l**g 的大作中提到】 : 为楼主认真学习的精神点赞
E**********e 发帖数: 1736	11 mitbbs上垃圾挺多的，充诉各个版面，见不的有人夸自己好。像您这位就是。我吃饱了撑的，没事发个假贴，引来您这尊大神确实该高兴。马工的是干不了。但作为data scientist，coding能力胜任的。这也是自己正在提高的方向。工作中有时就应该自己找活干。我这个parser一搞定，就可以绕开 IT。不是说IT干的不好。不同组之间有时工作安排不同，必须等。

1

(共1页)

进入JobHunting版参与讨论

相关主题
● 有个recruiter发给我的，我用不着，看看有没有感兴趣的，直接跟recuiter联系吧	● Java developer or .Net devleloper Opportunites at Citi
● Front-End Developer @ Verizon Wireless NJ	● 学什么语言的问题（java/c/c++/python/php/ruby）其实很简单
● Job Opening @ Verizon Wireless @ Central NJ	● 求问大牛json parser的问题
● 和大家讨论一下设计一个在线象棋游戏	● 被问到一道题： how to design a xml parser.
● 两个面试	● ST和HU店面
● === 2 Java Developer Openings （Bay Area Only） ===	● 你们遇到过限时做project的面试吗
● === Startup Job Opening: Java Developer ===	● 发两个软件组的面试题
● 转一个Employment oppotunity for Jr .Net developer	● 这道雅虎的面试题绝了，有谁会做吗

相关话题的讨论汇总
话题: xml话题: parser话题: effecient话题: 比较话题: dataframe

未名新帖统计// 7月16日

#	版面	帖数(主题数)
-	全站	4871 (796)
1	Military	3777 (569)
2	Stock	341 (51)
3	Joke	117 (17)
4	History	116 (3)
5	Automobile	100 (9)
6	USANews	55 (9)
7	Midlife	45 (1)
8	Headline	41 (41)
9	Dreamer	33 (13)
10	FleaMarket	32 (20)
11	Living	30 (7)

* 这里只显示发帖超过25的版面，努力灌水吧:-)