由买买提看人间百态

topics

全部话题 - 话题: parsers
首页 上页 1 2 3 4 5 6 7 8 9 10 下页 末页 (共10页)
b*******s
发帖数: 5216
1
来自主题: AnthroLing版 - a script
#!/usr/bin/env /usr/bin/python3
import sys, os, argparse, shutil
templates_dir = os.path.expanduser('~') + '/templates/'
cwd = os.getcwd() + '/'
py_templates = ['empty.py']
cpp_templates = ['empty.h','empty.cpp']
test_templates = ['Makefile','main.cpp','helper.h','Test.cpp']
perf_templates = ['perf.h']
main_templates = ['entry.cpp']
make_templates = ['CMakeLists.txt']

def copy_templates(templates,name,affected,to_be_replaced,to_replace):
for file in templates:
if not os.pat... 阅读全帖
K**G
发帖数: 217
2
【 以下文字转载自 Dreamer 讨论区 】
发信人: Dreamer (不要问我从哪里来), 信区: Dreamer
标 题: Out of Biology: 2013 Computer Science PHD 申请总结
发信站: BBS 未名空间站 (Sat Apr 27 03:44:44 2013, 美东)
很多人问我申请的过程,我申请了两季,12年和13年。毕竟申请过两次,有更多的教训和
经验,因此在这里我想把我的一些想法分享给ddmm们,希望能对今后的申请有所帮助。麻
烦大家不要转到社交网络上去。
先简单介绍一下我自己,08生科。12年申请北美BME和computational biology方向PHD。
12年八月去了cornell的ECE/BME项目,原本应该去做bioinfor之类的。去cornell之后决
定转申cs,方向 NLP(自然语言处理)和 ML(机器学习)。科研背景:申请bio时做过一
些计算生物学科研,后来北大这边bioinformatics那边不收出国的本科生。2012年3月初
开始,当时因为偶然的原因,在北大计算语言所(ICL)李素建老师组做毕设,... 阅读全帖
s*********0
发帖数: 2045
3
看了罪状书,这里面白纸黑字,纵跨过去9年的email,不可能抵赖掉,你买通最高法院
都没法删掉。
http://www.justice.gov/file/439936/download
而且张浩老婆写了封信说这回下飞机就抓有多么多么突然,其实诉状里面说了早在2011
年张浩等人的美国patent申请发表以后美国公司读到了觉得不对味,美国公司老总去天
津转了一圈当时就发现他们抄袭美国技术,当面就指出来了,4年前就知道了,现在何
来惊讶?
下面是2010年张浩和Pang Wei在中国申请的专利(按USPTO规矩2011年发表),这白纸
黑字,是不是他们自己发明的很容易判断:
http://appft.uspto.gov/netacgi/nph-Parser?Sect1=PTO2&Sect2=HITO
http://appft.uspto.gov/netacgi/nph-Parser?Sect1=PTO2&Sect2=HITO
http://appft.uspto.gov/netacgi/nph-Parser?Sect1=PTO2&Sect2=HITO
h*h
发帖数: 27852
4
http://www.yinwang.org/blog-cn/2014/12/31/google-story
我和 Google 的故事(2015 修订版)
2009 和 2010 年,两年的夏天我都在 Google 实习,然而最后毕业的时候我却没有为
Google 工作。虽然我心里很清楚这里面的原因,可总有些人觉得不解,为什么居然有
人不想为 Google 工作?如果你是这些人其中之一,那你可能想知道我在 Google 时的
切身感受。
直到将近 2015 年新年的今天,我发现这篇文章仍然具有普遍的意义。面对 Google 的
员工,我仍然是同样的感觉。他们很多人太拿自己的公司当回事了,自高自大,放弃自
己的尊严来舔这个公司的屁股。这些人总觉得好像所有人都希望为 Google 工作,即使
进不了 Google,都想去 Google “蹭饭”似的。如果一个人说“我很厉害”,我也许
会尊敬他,可是如果他说“我为 Google 工作”,以此来显得厉害,我就会鄙视他。我
只尊敬那些尊敬他们自己的人。以自己的公司名声来抬高自己的人,是最被我瞧不起的
,因为他们跟仗着人势的狗没什么区别。
进 G... 阅读全帖
c****x
发帖数: 6601
5
发信人: MoneyPort (MoneyPort), 信区: Programming
标 题: 王垠:我为什么不在乎人工智能
发信站: BBS 未名空间站 (Thu Apr 27 18:20:23 2017, 美东)
来源:王垠
www.yinwang.org/blog-cn/2017/04/23/ai
如有好文章投稿,请点击 → 这里了解详情
有人听说我想创业,给我提出了一些“忽悠”的办法。他们说,既然你是程序语言专家
,而现在人工智能(AI)又非常热,那你其实可以搞一个“自动编程系统”,号称可以
自动生成程序,取代程序员的工作,节省许许多多的人力支出,这样就可以趁着“AI
热”拉到投资。
有人甚至把名字都给我想好了,叫“深度程序员”(DeepCoder = Deep Learning +
Coder)。口号是:“有了 DeepCoder,不用 Top Coder!” 还有人给我指出了这方向
最新的,吹得神乎其神的研究,比如微软的 Robust Fill……
我谢谢这些人的关心,然而其实我并不在乎,也不看好人工智能。现在我简单的讲一下
我的看法。
机器一样的心
很多人喜欢鼓吹人工... 阅读全帖
H**r
发帖数: 10015
6
来自主题: Military版 - 新转CS的千老
单纯parser这部分来说,编程语言的parser确实容易,nlp的parser非常难做。
但是compiler除了paser还有很多东西。
mitbbs的人平均年龄也快50了吧,天天比谁学的东西难谁牛逼,幼稚不幼稚,傻逼不傻
逼。
H**r
发帖数: 10015
7
来自主题: Military版 - 新转CS的千老
语义分析挺火,不过我没怎么研究过。
总的来说parser是第一步吧。反正这玩意儿谁挺深,我后来做的方向和nlp也完全没关
系。parser做的不对了语义肯定是理解不对的。现在好像很流行sentiment analysis,
更高层一些。不过虽然大家都在往更高层的分析做研究,不代表基础已经做得很好了。
这就好像现在计算机视觉也喜欢研究人脸代表的情绪,但其实物体识别还没达到科幻作
家希望的水平。

parser
A***g
发帖数: 1816
8
来自主题: JobHunting版 - 某独角兽公司火热店面题
店面的迟到20分钟,我发email去叫,才给我打电话,然后让我介绍自己以前的项目,
那头爱听不听的,整了十分钟。
然后写题,不是什么烧闹智力算法题,是麻烦题,写parser,给个string,比如89+8*2
,然后算出来结果105。当然不可以用什么高级lib,手写parser。
上次写parser不知道多久前了,开始问他各种情况,然后分析,然后写各个method的接
口,然后填进去。
我用的是先找每个*和/,算了结果,替换,然后再下去找,
然后找+,/
结果哩哩啦啦,没能最后运行通过。
整个写的过程几乎没有浪费时间,不过一下子就一百行了,虽然尽量写得结构清楚,不
过肯定某个逻辑有点问题。他最后想牛一下,说你某个地方问题是,再一看,哦,没问
题。
算是跪了,酸葡萄一下,不想去,职位不是那么吸引人,算是见识过这家公司了。
l**n
发帖数: 7272
9
来自主题: Apple版 - Unix的缺陷(ZT)
虽然这里的码工比较少,但是能appreciate coding和programming的朋友也可以看看。
我觉得挺有意思的。
http://blog.sina.com.cn/s/blog_5d90e82f01014k5j.html
我想通过这篇文章解释一下我对 Unix 哲学本质的理解。我虽然指出 Unix 的一个设计
问题,但目的并不是打击人们对 Unix 的兴趣。虽然 Unix 在基础概念上有一个挺严重
的问题,但是经过多年的发展之后,这个问题恐怕已经被各种别的因素所弥补(比如大
量的人力)。但是如果开始正视这个问题,我们也许就可以缓慢的改善系统的结构,从
而使得它用起来更加高效,方便和安全,那又未尝不可。同时也希望这里对 Unix 命令
本质的阐述能帮助人迅速的掌握 Unix,灵活的应用它的潜力,避免它的缺点。
通常所说的“Unix哲学”包括以下三条原则[Mcllroy]:
一个程序只做一件事情,并且把它做好。
程序之间能够协同工作。
程序处理文本流,因为它是一个通用的接口。
这三条原则当中,前两条其实早于 Unix 就已经存在,它们描述的其实是程序设计最... 阅读全帖
n****1
发帖数: 1136
10
来自主题: Programming版 - Haskell很难学。。
monad的却有不对称的问题, 但是那是由它的数学结构决定的,Haskell也没办法哦.
其实monad早就不是唯一的选择,譬如写parser,monad的限制就太强了. Alternatives有
functor/applicative functor/arrow/iterable这类的啊. 而且applicative functor
应该是对称的. 现在的parser很多用arrow, 比如hxt(xml parser).
关于do block:
haskell官方wiki里面是不鼓励大家滥用do block的, 的却, do block很多情况可以
被>>=代替.
但我个人觉得完全不是问题啊! Haskell所有东西是immutable的,也就是说referential
transparency在do block里面也能保证, 那这玩意就算再像imperative些(其实骨子里
还是FP),再丑陋些, 也不会影响逻辑或者程序的正确性吧.
换句话说,如果c语言没有指针,所以变量都是immutable,那c也是FP.

,
),
S*A
发帖数: 7142
11
来自主题: Programming版 - 最高大上的 atoi
手写其实更容易维护。看看 gcc 转换的时候是如何说的,
YACC 把代码切成一小段一小段的,中间还有个
黑盒子的状态树,其实维护更加困难。C 其实不是
严格 LLK 语法的。
BTW 注意到手写后速度还轻微提高了没有?
http://gcc.gnu.org/wiki/New_C_Parser
Benefits:
Although timings showed a 1.5% speedup, the main benefits are
facilitating of future enhancements including: OpenMP pragma support; lexing
up front for C so reducing the number of different code paths; diagnostic
location improvements (and potentially other diagnostic improvements);
merging cc1/cc1obj into a single executable with runti... 阅读全帖
w*******e
发帖数: 285
12
来自主题: Programming版 - 王垠对google的看法 (转载)
说说我的几点看法,第一如果grok python的parser确实是他写的那的确是很牛,但是
这也只是grok的一部分,grok的主要功能还是支持code search,如果code search没有
grok python的parser也是确实会差一些,但是并不是那么严重,基于纯regex的
parsing也不是完全不能用,grep不也照样可以撑一撑吗。
codesearch这个确实是google内部提高生产力的第一利器,说白了大家都是copy paste
,越方便越好。
还有他认为wanzhanyong的gtest和gmock没有技术含量,这也不完全对,毕竟cpp和
jiava不一样,不是reflection语言,你不能随便胡来那么容易的mock,我感觉gtest和
gmock对于写cpp unittest还是非常好的,对提高代码质量很有帮助。我个人不好判断
他写的grok python parser的贡献就一定比gmock和gtest大,所以他觉得自己肯定因该
当principal也是可以商榷的。
最后说unittest,这个的确是google的culture,至于好坏见仁见智。... 阅读全帖
h*h
发帖数: 27852
13
【 以下文字转载自 Military 讨论区 】
发信人: hsh (nidaye), 信区: Military
标 题: 王垠:我和 Google 的故事(2015 修订版)
发信站: BBS 未名空间站 (Mon May 9 18:09:22 2016, 美东)
http://www.yinwang.org/blog-cn/2014/12/31/google-story
我和 Google 的故事(2015 修订版)
2009 和 2010 年,两年的夏天我都在 Google 实习,然而最后毕业的时候我却没有为
Google 工作。虽然我心里很清楚这里面的原因,可总有些人觉得不解,为什么居然有
人不想为 Google 工作?如果你是这些人其中之一,那你可能想知道我在 Google 时的
切身感受。
直到将近 2015 年新年的今天,我发现这篇文章仍然具有普遍的意义。面对 Google 的
员工,我仍然是同样的感觉。他们很多人太拿自己的公司当回事了,自高自大,放弃自
己的尊严来舔这个公司的屁股。这些人总觉得好像所有人都希望为 Google 工作,即使
进不了 Google,都想去... 阅读全帖
d***a
发帖数: 13752
14
来自主题: Programming版 - 请评价一下yinwang的这个工作
他做了一个JavaScript的类似于简化型parser的工具, 分析现有JavaScript的程序,再
输出混乱化但运行等价的程序。这个parser的实现比一个完整的JavaScript的parser要
简单,系统也没有执行的部分,所以实现快,运行效率也高。但也因为如此,输出的程
序和原程序有一定的可能性,运行不等价,这就出了bug。他写的工具比现有的工具出
bug的可能性小。
王垠这家伙是个不错的工匠。但计算机这行,并不认为一个好的工匠就牛。大家公认的
牛人,要么象图灵那样在理论上比别人牛一大截,或者在研究中开创一个全新的领域;
要么象Jobs, Gates, Larry Page那样搞出不得了的产品。象王垠这个水平的工匠,重
点大学科班出身里一抓一大把,他虽然不错,也不稀奇。但他自认这样的就是牛人,和
大家对牛人的认知不一样。
M*******t
发帖数: 189
15
来自主题: Programming版 - 王垠:我为什么不在乎人工智能
来源:王垠
www.yinwang.org/blog-cn/2017/04/23/ai
如有好文章投稿,请点击 → 这里了解详情
有人听说我想创业,给我提出了一些“忽悠”的办法。他们说,既然你是程序语言专家
,而现在人工智能(AI)又非常热,那你其实可以搞一个“自动编程系统”,号称可以
自动生成程序,取代程序员的工作,节省许许多多的人力支出,这样就可以趁着“AI
热”拉到投资。
有人甚至把名字都给我想好了,叫“深度程序员”(DeepCoder = Deep Learning +
Coder)。口号是:“有了 DeepCoder,不用 Top Coder!” 还有人给我指出了这方向
最新的,吹得神乎其神的研究,比如微软的 Robust Fill……
我谢谢这些人的关心,然而其实我并不在乎,也不看好人工智能。现在我简单的讲一下
我的看法。
机器一样的心
很多人喜欢鼓吹人工智能,自动车,机器人等技术,然而如果你仔细观察,就会发现这
些人不但不理解人类智能是什么,不理解人工智能有什么局限性,而且这些“AI 狂人
”们的心,已经严重的机械化了。他们或多或少的失去了人性,仿佛忘记了自己是一个
人,... 阅读全帖
w*****s
发帖数: 122
16
What is the best free XML software for Chinese at the moment?
For Chinese XML, the best at the moment (December 1998) is
probably Internet Explorer 5.0 beta. The best XML parser is
probably IBM's XML Parser for Java. The best XML/SGML parser
is probably James Clark's SP software (C++). An XML
version of Perl is coming too!
s********t
发帖数: 4150
17
来自主题: XML版 - [转载] XML parsing problem
【 以下文字转载自 Java 讨论区,原文如下 】
发信人: SmartAgent (sigh...), 信区: Java
标 题: XML parsing problem
发信站: The unknown SPACE (Tue Jan 2 02:00:05 2001) WWW-POST
Trying to parse XML file with IBM's XML4J, but it just
doesn't work. Any masters to give some advice?
The code:
DOMParser parser = new DOMParser();
parser.parse("index.xml");
Document document = parser.getDocument();
Element doc = (Element)document.getDocumentElement();
...
The XML file: (It doesn't refer to the dtd file as it is,
but it won't work ei
w*****h
发帖数: 28
18
【 以下文字转载自 Java 讨论区 】
【 原文由 wendywh 所发表 】
XML can have several roots.
But it's hard to find a XML parser to deal with that.
As to the Oracle parser, you can check getDocumentElement(), it will
allows direct access to the child node that is the root element of
the document.But the return value is just Element. So it means that you cannnot
return a list of root elements.
I have not find any parser can return a list of root elements.
P*****x
发帖数: 72
19
来自主题: XML版 - XML schema questions
Which XML parser are u using? For apache parser, you need to set the
external schema location in parser setup code.
l*******s
发帖数: 1258
20
In my opition, this is a ambiguity problem in parsing.
There are more than one parsing for each sentence you mentioned, then the
dog could be either active or passive.
If you have more context, you might be able to figure out active or passive.
However, just according to the independent sentences, it is almost
impossible.
about parser, you can try Stanford parser:
http://nlp.stanford.edu:8080/parser/
an online demo.
ps: I don't think RE can help, because this is not a string match problem
l*******t
发帖数: 1430
21
来自主题: Military版 - 新转CS的千老
nlp的parser上下文相关,和计算机技术本身没啥关系。编译器也不是难在parser,是
在后面的grammer,grammer也是难在语义优化上,也和算机技术没啥关系
t******g
发帖数: 462
22
来自主题: Food版 - 亚米网靠谱吗
因为他们发现了小秘密,我觉得这是做广告老手的表现。
秘密就是mitbbs消息parser在读消息时,url前面必须是空格或者是http://开头。
这位做的是中文后面紧跟url没有空格。parser解释成文本。
Edit: 好像是一行是否开始url为准。以下是测试:
starts with url
http://www.yamibuy.com/
starts with other text
就是http://www.yamibuy.com/
o*********7
发帖数: 101
23
来自主题: JobHunting版 - 请教一个C++的题目
Write a parser for the following format
( a, b ):( c, d ):( e, f ):...
assume the data resides in a std::string
What data structure will you parse it into and outline your parser.
对STL不算太熟悉,稍微知道一点点
不知道是放在map里面比较好还是放在list里面更合适
请指教,非常感谢
j*****7
发帖数: 10575
24
第一,去linkedin上按照语言关键字搜索,看看你要的地区,哪种语言提供的工作机会
多,级别高。例如,你可以搜索湾区50miles以内,java的职位有多少,c/c++和php的
有多少。不仅要看多少,还要看职位的级别和待遇。software engineer < sr < staff
< principal。QA < QE = UI/Front < ServerSide Engineer
第二,看你的兴趣和将来的职业发展。想做通信和系统底层的,学c/c++。想做
enterprise software,尤其是应用/商用软件的,学java。想快速搭建网站的,想做UI
的,学php/ruby/javascript。每个领域都有其独特的技术需求。
第三,语言是不是相通的?
是相通的,但你必须要起码精通一门。目前来看,一般来说,最好在这几个语言中精通
一个:java/c.c++/python/php。虽然每年都有一些新的语言冒出来,例如scala之类的
,但是想要代替主流语言,还是需要好几年的。虽说语言的语法是类似的,但是如果做
到熟练,那不写一年的代码恐怕很难做到“熟练”吧。
除此之外,... 阅读全帖
j*****7
发帖数: 10575
25
第一,去linkedin上按照语言关键字搜索,看看你要的地区,哪种语言提供的工作机会
多,级别高。例如,你可以搜索湾区50miles以内,java的职位有多少,c/c++和php的
有多少。不仅要看多少,还要看职位的级别和待遇。software engineer < sr < staff
< principal。QA < QE = UI/Front < ServerSide Engineer
第二,看你的兴趣和将来的职业发展。想做通信和系统底层的,学c/c++。想做
enterprise software,尤其是应用/商用软件的,学java。想快速搭建网站的,想做UI
的,学php/ruby/javascript。每个领域都有其独特的技术需求。
第三,语言是不是相通的?
是相通的,但你必须要起码精通一门。目前来看,一般来说,最好在这几个语言中精通
一个:java/c.c++/python/php。虽然每年都有一些新的语言冒出来,例如scala之类的
,但是想要代替主流语言,还是需要好几年的。虽说语言的语法是类似的,但是如果做
到熟练,那不写一年的代码恐怕很难做到“熟练”吧。
除此之外,... 阅读全帖
h****e
发帖数: 374
26
来自主题: JobHunting版 - 你们遇到过限时做project的面试吗
应该不至于吧。那个公司就是专门做js平台的,他们的做的东西比parser复杂得多。

:更可能是,他们公司需要这样一个parser但是找不到人写
:就用招聘的方式免费找人写
s*********y
发帖数: 615
27
来自主题: JobHunting版 - 发两个软件组的面试题
在会议室里看到上个礼拜面试新毕业生的东西,,发两个出来,估计可能对大家也没啥
实际作用,反正等着开会也没啥事干,,就当给自己以后找工作攒个人品了。。呵呵,
,我不会软件组的,所以也不知道难易,也没答案
behavioral:
What is the hardest software problem that you have debugged. how did you go
about doing it? what caused the bug
XML Parser(我们的东西会用到xml。所以)
XML exists to define tests available on some system:




Design and implement a class to:
1.store and manage... 阅读全帖
o*q
发帖数: 630
28
来自主题: JobHunting版 - 请教leetcode高频题是哪些题
# Title Editorial Acceptance Difficulty Frequency
1
Two Sum 28.3% Easy
292
Nim Game 54.4% Easy
344
Reverse String 57.3% Easy
136
Single Number 52.2% Easy
2
Add Two Numbers 25.6% Medium
371
Sum of Two Integers 51.6% Easy
4
Median of Two Sorted Arrays
20.4% Hard
6
ZigZag Conversion 25.6% Easy
13
Roman to Integer 42.7% Easy
237
... 阅读全帖
L********e
发帖数: 159
29
还好吧。相当于一个简化版json parser而json parser本身逻辑就很简单,code差不多
这样
def read_object():
read_start_object()
while (cursor.value != '}'):
field = read_field_name():

if field == 'name':
read_string_value()
elif field == 'children':
read_array()

read_end_object()
def read_array():
read_start_array()
while (cursor.value != ']'):
read_object()
read_end_array()
def read_field_name():
name = read_string_value()
read_colon()
re... 阅读全帖
T**********a
发帖数: 324
30
来自主题: JobHunting版 - 来做道题!
1). 写一个parser,对每一个log的记录,返回如下的一个东西
{函数ID,开始还是结束,时间
}
2) 对log,用parser,对每一个返回的东西,作如下处理 (当然初始要弄一下)
(保持函数运行状态)
a)如果是某函数结束,计算“这一段时间里面”是否“exclusive",如果是,‘这段时
间”有多长
b)更新函数运行状态
3)到买买提发帖,号召大家刷题
哪里有题刷 哪里就有拳皇 题就是拳皇!
t*******r
发帖数: 22634
31
来自主题: Music版 - 【技术】头声,口型与共鸣
那请老白用 LR(k)文法准确无二义得定义一下
“正确的歌唱方法”。
其实是不是 LR(k) 文法都无所谓,只要不要循环
定义就行了。比如一下文法可以让任何 parser
直接死菜(除了文科生 parser):
===========================================
正确的歌唱方法 ::
不会导致嗓子有问题的歌唱方法。
会导致嗓子有问题的歌唱方法 ::
不正确的歌唱方法。
===========================================
k*****t
发帖数: 161
32
来自主题: WaterWorld版 - 发现firefox 4比3快多了
html parser 和 javascript parser 有快慢之分。
t*******r
发帖数: 22634
33
来自主题: WaterWorld版 - 素数的数学递归定义的问题
你说的没错,俺数学的确不行,所以做码工正好。。。 :-)
至于计算机中文词汇,我承认是不行。不过这不怪我,是 I63 坚持要我敲
中文词汇的。再说了,灌水主要是开心,一个一个查翻译太费事了。不过
以后俺术语少用中文,省得落下蛊惑大众的骂名。。。
另外 YACC 实际上是根据类似 BNF 的定义格式自动生成 parser 的程序,
生成的是 LALR parser,如果我没有记错的话。。。
t*******r
发帖数: 22634
34
来自主题: WaterWorld版 - 素数的数学递归定义的问题
俺是 Algorithm-Depot 门口的老莫,主要给老板干体力活。。。
十多年前曾经用 YACC 写过一个简单的 parser,不过那个语法很简单。
后来没再写过 parser,也忘得差不多了。
复杂的文法可以写成 tree,其实不少 tree 算法也可以看成是某种
文法,不过大伙儿一般不从这个角度看。。。

free
集。
i*****o
发帖数: 1714
35
来自主题: Apple版 - ChineseWeb 偷偷用Proxy?
声明一下,我是作者,别的id都不是,我写的这么好用的app可不能让别人抢了我的风
头,尤其是挨骂的时候:)
这个app就是因为以前老刑喜欢改代码,那个很好用的mitbbs app经常不能用,我才打
主意自己写app的。其实我以前从没上过苹果版,因为mitbbs app的问题才来的,而且
把parser放到server上的主意也是在这个版上看到的。不过现在要把parser搬回终端上
太烦了,主要是因为改动太多,而且难看的很,很多地方我自己都不知道在干啥了。不
过等我闲下来还是可以考虑的。
谢谢大家的支持,以前我最担心的是国安局发现后把我的server给block了这样我回国
就用不了了,还特地给自己留了一个ip address:)。既然有人这么关心的是自己的
passwd,我还是upgrade一下,下个版本在登录的时候会给大家一个大警告。
还是要再次声明一下,我自己对看别人的隐私没有什么兴趣,有时间的话我会写各种各
样的app的:)anyways,我用的是cloud上的服务器,所有东西都存在那儿,出什么事
大家去看就是了,要不然为了这么个小app牺牲了自己太不值得了。
I**********s
发帖数: 441
36
javaCC用在java平台上是不错. 说到LR parser, 并没有流行的版本. 常用的yacc,
bison, byacc等都是LALR(1). LR(1)的优点在于可以分析所有context free的语法, 这
一点LALR(1)做不到. 而LL的语法也可以转换成LR(1). Knuth的原LR(1)算法长期一直被
认为速度太慢, 产生的parsing table太大. 即便现在, 用Knuth原算法实现的LR(1)
parser generator也常常需要很长时间才能完成运算. 比如我听说一个C++
implementation对于一个about 120 tokens, 350 production的语法, 要20分钟才能得
到结果. 另外一个implementation(in Python?), 作者称对大约100 tokens, 500
productions的语法, "I let it run for nearly three days, and it was far from
finishing, but using nearly 16GB of memory"
I**********s
发帖数: 441
37
GLR is an extension of LR by forking to handle nondeterministic and
ambiguous grammars. But here in the case of deterministic and unambiguous
grammars, LALR(1) parser still may have "mysterious reduce/reduce conflict".
LR(1) parser can handle this.
B****x
发帖数: 17
38
来自主题: CS版 - 牛人很神奇的简历啊
http://blog.sina.com.cn/s/blog_661c16d00100kc51.html
机器学习大家谈(转贴)(2010-03-17 21:42:19)转载
标签:杂谈 分类:学术科研
闲着无事,想写点一些我所了解的machine learning大家。由于学识浅薄,见识有限,
并且仅局
限于某些领域,一些在NLP及最近很热的生物信息领域活跃的学者我就浅陋无知,所以
不对的地方大
家仅当一笑。
Machine Learning 大家(1):M. I. Jordan
在我的眼里,M Jordan无疑是武林中的泰山北斗。他师出MIT,现在在berkeley坐
镇一方,
在附近的两所名校(加stanford)中都可以说无出其右者,stanford的Daphne Koller
虽然也
声名遐迩,但是和Jordan比还是有一段距离。
Jordan身兼stat和cs两个系的教授,从他身上可以看出Stat和ML的融合。
Jordan 最先专注于mixtures of experts,并迅速奠定了自己的地位,我们哈尔滨
工业大
学的校友徐雷跟他做博后期间,也在这个方向上沾光不少... 阅读全帖
z***e
发帖数: 5393
39
"所以那个周末我没有出去玩,我下载了一个 Jython,把它的 parser 文件 (ANTLR)
拿出来。自己设计了一个更简单的 AST 数据结构,"
---他前面不是说要“从头开发一个”么?parser都跳过了,也叫从头开发?
另外他这种思维,创个毛业,永远是打工命。
z***e
发帖数: 5393
40
"所以那个周末我没有出去玩,我下载了一个 Jython,把它的 parser 文件 (ANTLR)
拿出来。自己设计了一个更简单的 AST 数据结构,"
---他前面不是说要“从头开发一个”么?parser都跳过了,也叫从头开发?
另外他这种思维,创个毛业,永远是打工命。
w***y
发帖数: 6251
41
我只用一个也是有错:(
DROP TABLE test CASCADE;
ERROR: parser: parse error at or near "CASCADE"
DROP TABLE test RESTRICT;
ERROR: parser: parse error at or near "RESTRICT"
DROP TABLE test;
DROP
c*******d
发帖数: 353
42
来自主题: Java版 - java & XML 2 example problem
In "Java & XML 2" I tried to follow the example
in Chapter 3. I downloaded the parser packages from apache website but I
couldn't find the mentioned xerces.jar file instead all evidence points to
xml-apis.jar. The code compiles ok but when I tried to run it, here is the
error message:
~/source_code/java/javaxml2/ch03/src]60: java -classpath
"../../lib/xerces-2_6_2/:." javaxml2.SAXTreeViewer ../xml/contents.xml
java.lang.ClassNotFoundException: org.apache.xerces.parsers.SAXParser
at
org.x
c*****t
发帖数: 1879
43
I want to introduce a new way of dealing with file pattern matching.
This is using a project called CookCC which I started.
Basically, instead of writing complicated lexer patterns using Pattern
for non-trivial text files, it is actually easier to write a lexer/parser
using CookCC. However, the traditional way of writing lexer/parser
(such as using Antlr / JavaCC) is that you are writing code in a
proprietary file format that doesn't have good Java editing.
So here is how CookCC does it. I am
g**********y
发帖数: 14569
44
来自主题: Java版 - 简单算法问题
For my specific problem, input is just a bunch of well formed xhtml code. I
used XML parser to manage content according to user's role. Then I realize
that XML parser is too heavy. All I need to remove some
under some
condition. That's how the problem comes.
c*****t
发帖数: 1879
45
来自主题: Java版 - Design thought.. Sugguestions?
This is a long post...
I am trying to update CookCC (a lexer / parser generator in Java) for
a new feature.
One existing CookCC feature is that one can specify the lexer pattern
and parser grammar in Java annotations. For example:
@CookCCOption
class MyParser extends GeneratedParser
{
@Lex (pattern = "[_A-Za-z][_A-Za-z0-9]*", state = "INITIAL")
String scanIdentifier ()
{
return yyText ();
}
@Rules (rules = {
@Rule (lhs = "Expr", rhs = "Expr '+' Expr"),
c******n
发帖数: 4965
46
来自主题: Programming版 - 土了
花了半天的功夫,
一个
java.lang.UnsupportedOperationException: This parser does not support
specification "null" version "null"
[java] at javax.xml.parsers.DocumentBuilderFactory.setXIncludeAware
(DocumentBuilderFactory.java:590)
错误, 找来找去原来是xerces 从maven 上down 的version 不对,新版是叫
xercesImpl
google 太重要了, 最后找到有人有同样错误
w****k
发帖数: 6244
47
来自主题: Programming版 - 写crawler
不同网站,不同页面,结构不同,需要不同的parser。
一个个肉眼看,然后写parser,这么搞搞死掉啊
a*****e
发帖数: 1700
48
来自主题: Programming版 - functional programming?
你说的这个是经典的解释器,用户并不直接接触到实际的编译器,而是通过网站或什么
别的途径输入写好的脚本,你在后台来执行它。我这样理解没错吧?
你可以分两步走,第一步,先把 DSL AST 所需要的 data type 定义出来,然后对此写
一个解释器。调试过程中,可以直接用 datatype 写 AST,省去写 parser 的麻烦。
第一步做好了,然后就可以用 haskell parsec 之类的库把程序输入的字串转换为 AST
,略为学习一下 parsec 的用法就好了,简单的 recursive descent。
做 embeded DSL 可以省去第二步,但的确,在你的情况中,还是需要一个 parser 的
部分。
a*****e
发帖数: 1700
49
来自主题: Programming版 - functional programming?
你说的这个是经典的解释器,用户并不直接接触到实际的编译器,而是通过网站或什么
别的途径输入写好的脚本,你在后台来执行它。我这样理解没错吧?
你可以分两步走,第一步,先把 DSL AST 所需要的 data type 定义出来,然后对此写
一个解释器。调试过程中,可以直接用 datatype 写 AST,省去写 parser 的麻烦。
第一步做好了,然后就可以用 haskell parsec 之类的库把程序输入的字串转换为 AST
,略为学习一下 parsec 的用法就好了,简单的 recursive descent。
做 embeded DSL 可以省去第二步,但的确,在你的情况中,还是需要一个 parser 的
部分。
E*****m
发帖数: 25615
50
来自主题: Programming版 - 如何把文字转换成机器可读形式?

可以用 Stanford parser, 也可以不用, NLTK 自己有傳統的 grammar, 沒有
Stanford 那樣的 statistical parser 那麼強大就是了。
首页 上页 1 2 3 4 5 6 7 8 9 10 下页 末页 (共10页)