d*****u 发帖数: 17243 | 1 会python很有用,另外有些工作要求用Java
你上网站看看就知道了
我觉得学统计的人看懂一般的NLP算法都很容易
无非就是MaxEnt,Hidden Markov Model,各种Baysian network
你可以自己做一些小项目练习一下文本处理
推荐Speech and Language Processing这本书后面的习题 |
|
g***b 发帖数: 16 | 2 如果文件很大,比如10M以上,我觉得还是存在文件系统速度更快.Database只记录文件位
置.
我处理大量的50兆以上的文件,我存在文件系统. |
|
r*********n 发帖数: 4553 | 3 我觉得很难啊,要文字处理的,最好是普屏,但是现在基本都是宽屏,宽屏里面最好是
1920x1200,但是现在1920x1200基本只有24寸中高端IPS屏才有,但是价格又远远超过
你的预算。你看看hp ZR22w,用portrait模式。 |
|
g****y 发帖数: 436 | 4 想自己配个机器,主要跑文本处理程序,FILE IO 很重。
需要:
CPU要多线程,至少4个,用普通桌面CPU就可以
24-32G ram, 越快越好
主板要稳定,不需要超频
硬盘快,大,安全
机箱要安静
对显卡无要求,散热过得去就好。不要求一定是intel CPU。
多谢了!
budget 是 5000 |
|
g**********e 发帖数: 96 | 5 有个老的acer,看的累眼睛。在家看文本处理文档多,哪个显示器好点?要求不伤眼睛
,不需要触摸屏,尺寸24-27,分辨率合适就行,价格高点也接受,想着买个好点的能
多用几年而且用的舒服。 |
|
b******n 发帖数: 4225 | 6 ssd现在容量小,太贵了……再等等吧
因为主要功能就是上网,文本处理,最多photoshop,速度要求不高
加上coupon这个硬盘可以40多刀拿下
想想先混着,等x200报废了再上好电脑好硬盘 |
|
m**********s 发帖数: 87 | 7 【 以下文字转载自 Military 讨论区 】
发信人: miraclevenus (miracle), 信区: Military
标 题: 有没有一款电视可以用作电脑显示屏?
发信站: BBS 未名空间站 (Wed Apr 8 00:30:17 2015, 美东)
大约是24-28 inch 这个档次上的
有没有呢?
要能够文本处理眼睛不会太累,就是分辨率还可以吧
谢谢! |
|
r******r 发帖数: 700 | 8 vim/gvim 很不错。有些人喜欢 emacs.
都是免费的。而且如果愿意花时间,这两个能够当作基本的文本处理工具,比很多其他
的,强多了吧 |
|
b***i 发帖数: 3043 | 9 发现,中文变成乱码
文本文件properties应该存成什么 utf-8?unicode?
还有,程序中需要怎么做能让字符串是中文?下面程序中字符串b结果是乱码。c确实中文
# MessageBundle.properties
planet = Mars
warning = \u00ce\u00d2\u00c3\u00c7\u00d4\u00da{0}\u00c4\u00c7\u00c0\u00ef\u00bf\u00b4\u00b5\u00bd\u00c1\u00cb
static String getS(String content){
String tryget;
try{
tryget = messageSP.getString(content);
} catch(MissingResourceException e){
tryget=content;
}
return tryget;
}
static String spMessage(String content, Object[] messageArgumen |
|
c********l 发帖数: 8138 | 10 当年学过Perl,没觉得对文本处理强大,
不就是一个regular expression么?java/python都内置支持啊 |
|
c********l 发帖数: 8138 | 11 当年学过Perl,没觉得对文本处理强大,
不就是一个regular expression么?java/python都内置支持啊 |
|
C********s 发帖数: 120 | 12 从本质上说,就是emacs本身就是elisp的解释器。你写的任何对
emacs的外挂都可以即时在emacs里编辑、修改、运行、查错、成为
emacs的一部分而~无需重启~。emacs的任何功能都是elisp函数,
对用户开放,可以修改、重写。elisp本身是lisp的一个变种,继承
了lisp简洁优雅的语法和强大的表现力,而且有着多年积累的丰富
的各类文本处理API。
不服气的用vimscript实现一下emacs calc。我觉得python binding
也没法和emacs比,如果起一个vim就要起一个python解释器vim本来
相对emacs的轻便也就不存在了,而且还要面对python的版本升级、
可移植性、库函数的升级维护问题。
从使用习惯上来说,vim用户的习惯大概都差不多,而emacs用户很
少能找到两个使用方法完全一样的。从功能上来说,emacs里集成
其它功能很普遍很常见,谁在vim里读邮件听mp3发tweet上IRC? |
|
z****n 发帖数: 1933 | 13 看了大家的讨论。我还是得承认,现在我们还是离不开windows,像我就是一个游戏迷。但是对于特定的用户群,linux已经可以在桌面系统中独挡一面了。
1. Netbook低端用户, 只用于上网,娱乐。
2. 对于一些学术用户,公司用户。linux下用惯shell scrip, perl等命令行工具,windows下很难找到替代。只有cygwin。
3。 对于一些程序员,linux和各种编译器结合的很好,加上强大的文本处理功能。Windows必须得装个臃肿的VS,才能开始写code
另外本文是原创,转载我自己的。所以申请发包子。
【 以下文字转载自 Windows 讨论区 】
发信人: zdchen (quake), 信区: Windows
标 题: Windows还能走多远
发信站: BBS 未名空间站 (Sun May 24 23:38:26 2009)
一直是Windows的忠实用户,因为桌面系统几乎没有很多选择。用过几个版本的Linux,
感觉还是需要很多设置才能完成一些基本的功能。可是最近的经历,让我的看法有了变
化。新买了个手提,
1. 先装了个windows7尝鲜,结果系 |
|
N****w 发帖数: 21578 | 14 不合理吧,除非是文本扫描识别再创建一个新的 word 文件
word |
|
p**v 发帖数: 853 | 15 vi 和vim我主要用来做简单的文本处理,linux and windows。
用emacs除了在linux下写code和debug(with GUD),也在windows下用。
一个很喜欢的功能是recent,C-xf打开最近经常访问的文件,也就是
经常需要的文件,然后直接跳到上次离开的地方。这个功能我觉得很
方便实用,很真不知道有什么其他的好办法,不只限于editor了,
可以做相似的事。
这两个editor都需要花些时间才能真正体会到他们的强大,个人的经验
是emacs学起来更难点,但一旦用熟练了就能感觉到妙处了。不过话说
回来,也的确不想再花时间学更多的editor/ide啦,学用他们主要都是
做学生时候的事啦。现在windows下用visual studio编程,就好像没记住
什么快捷键,而且有时候老想用emacs的那套,其实也有插件的,不想
折腾了。firefox里已经装了,呵呵。 |
|
n*w 发帖数: 3393 | 16 是不是因为perl两个语言特性
1. tie
2. regular express 和语言紧密结合
perl的regular express似乎可以做到别的script语言做不到的一些功能。但也慢点。
tie相对python的open有什么优势? |
|
n*w 发帖数: 3393 | 17 tie是个有点奇怪的东西。perl的generator。 |
|
|
t****t 发帖数: 6806 | 19 这种文本处理的, 一般python不会比perl更好用(如果你两个都会的话)
当然, 这里最好是用expect |
|
b******n 发帖数: 592 | 20 perl 文本处理,调用系统命令的,小于100行的程序无敌
python 小规模,科学计算,简单数据模型(没有tree的),省时间,好维护
C/C++ 复杂数据模型,大内存,开发时间长点,运行比python快20倍
bash 调用系统命令,外部程序,流程简单的
这都是我平时用的上的,没觉得一个语言能干太多。也有人用excel写游戏,那个就属
于另类了。改用什么就用什么,我最顺手的就是这些 |
|
x****u 发帖数: 44466 | 21 几百兆可以整个map到内存里面,然后靠缓存也比较有效率。
中,然后把剩下的写入处理过的文件中,只有整数,即每行只有n1, n2到最后一个,每
行内的数字用逗号隔开,行间用unix换行符。在这个过程中,可以把总行数搞定,也知
道每行多少个数据。然后 |
|
p***o 发帖数: 1252 | 22 也可以处理的时候gzip一下,读的时候在管道里gunzip,能省
不少磁盘I/O。现在都是多核的机器,闲着也是闲着。 |
|
w*********r 发帖数: 73 | 23 有个小project,需要抓取一些网页(需要从已抓取的网页里面提取链接继续抓取),
然后对这些网页进行整理、分析,去除一些无关的内容,只保留我们感兴趣的部分内容。
现在比较模糊的几个地方有:用什么语言做比较方便,有比较容易调用的库?C++/C#/
VB?Perl我不懂。时间效率不是最主要的,因为每天可能就抓取那么几千至几万个链接
。因为抓取了以后还要对网页进行整理和分析,文本处理比较方便的函数/库有哪些?
请大牛点拨一下,多谢。 |
|
b******n 发帖数: 592 | 24 c 纯粹很多,虽然说什么都能实现,但是麻烦很多啊。每种语言都有自己适用的方向,
其实限制都不是特别多,特别通用语言。很多时候不是一种语言能不能实现什么,而是
适不适合,时间成本的考虑上是不是合适。
c也可以做文本处理,但是我一定会用perl。
c比c++好处是没有那么多解谜题。。
++ |
|
d*****u 发帖数: 17243 | 25 很多选101的都不是计算机专业的,那是工程和数学、物理专业的必修课
这些专业的本科生只希望能完成科学计算,或者编一些简单的文本处理
顺便也懂得计算机的基本工作原理
为了这些目的学C实在不值得,不如学python,javascript之类的实用
另外某大学把programming I从C++改成python后做了跟踪调查
学生学programming II (用c++)时成绩并没有比以前下降
所以first language用哪个好像也无所谓 |
|
d*****u 发帖数: 17243 | 26 我想在一个很长的字符串里搜索单词,比如China,
然后忽略大小写,把该字符串里China,china, CHINA之类的词都插上某个
输出的字符串含有,但是目标词大小写还是跟以前一样
比如CHINA不能变成China
不知道有没有简单一点的方法呢?
本来用str_ireplace()很方便,但是大小写就变了
不然就只有用笨办法一个一个定位,可能比较慢 |
|
l********a 发帖数: 1154 | 27 除了string replace,我还能想到正则 |
|
|
a***y 发帖数: 2803 | 29 echo preg_replace("/^([Cc][Hh][Ii][Nn][Aa])$/","$1",$mystring);
可以显示替换后的string. |
|
a***y 发帖数: 2803 | 30 插在哪儿啊,头上还是尾巴上?
象这样?
China |
|
d*****u 发帖数: 17243 | 31 这个办法还不错
只是如果查找对象每次不同的话,每次都要先把字符分开 |
|
|
|
|
d*****u 发帖数: 17243 | 35 我的意思是,不一定每次都查China
下次可能是另外一个单词,在字符串变量里面的
所以这么做的话,要先把字符串的字符逐个分开 |
|
d*******3 发帖数: 6550 | 36 很简单啊,
echo preg_replace("/^(.*)(china)(.*)$/i","$1$2$3",$mystring);
同一个单词不区分大小写匹配就行了,如果是变量就把china 换成变量就可以了 |
|
p*********t 发帖数: 2690 | 37 perl为啥子搞到现在这样,被python比下去?
觉得perl的长处还是文本处理,包括php抄袭它的cgi
perl为啥就没有java的那股网络语言的霸气呢? |
|
w****o 发帖数: 2260 | 38 【 以下文字转载自 JobHunting 讨论区 】
发信人: winhao (勇敢的人), 信区: JobHunting
标 题: scripting language的问题
发信站: BBS 未名空间站 (Sun Mar 4 02:40:18 2012, 美东)
只会C/C++,工作中也够用了。
可是想学一个scripting language,到底是perl, 还是python适用的广呢?
基本上就是想做一些文本处理,然后也会用到一些网络的功能,比如去抓crawl网站.
还有一个考虑就是如果跳巢的话,主要的软件公司和热门的互联网公司里用哪种的多? |
|
J*****n 发帖数: 4859 | 39 我最近重新学习了一下boost,发现python的那套东西,似乎C++里面也能方便的做到。
除了文本处理上他占点便宜,其他C++也都有。
如果是特别的数学统计的包裹,那么R里面更多。
本身对脚本不是特别熟,请教一下,Python到底有什么特别的优势? |
|
r********n 发帖数: 7441 | 40 boost,我一直用他们的随机数生成器,还不错,不是效率最高的,另外,文本处理也
明显加强了, regex试过,也挺好用,但是不明白它怎么能够和 perl 的匹配引擎抗衡
,不过 perl 脚本启动运行效率太低 |
|
l***y 发帖数: 4671 | 41 差不多是维护问题吧。。。
是这样一个历史问题:bioinformatics 领域传统上用 c/c 做并行计算,用 Perl 做
文本处理和 scripting,主要在超级计算机上工作。而目前越来越多的超级计算机使用
python 做 scripting。我过去的任务调度是用 Perl 实现的,现在就有个矛盾:如何
协调 bioinformatics 和 HPC 的不同的 scripting 语言的传统。
比如说,组里做 bioinformatics 的,被要求一定要用 c/c /Perl,而我们使用的
HPC cluster 只提供了 python script 的模板来调度资源和 balance loading。目前
我提供了一个 Perl script 的资源调度模板供大家使用,并根据 python scripts 的
更新而更新。但很困惑这种努力是否和目前超级计算机的 scripting 的趋势背道而驰
。我可没时间在这种细节上跟潮流做对,把自己的精力投到这个 re-inventing 的无底
洞去。在想是否该要求大家学习 python -- 估计大家对为这点儿小事学习一种... 阅读全帖 |
|
|
|
|
s*******a 发帖数: 8827 | 45 perl的regex超好用的,我一条regex规则用c写的话可能就得上百行code才能做到。
而且cpan超强大,基本我所有想到的功能别人都帮我实现好了。用perl写东西就跟搭积
木似的。 |
|
y*******g 发帖数: 6599 | 46 其他语言也有regex库呀 硬写自己的规则的话估计还是c简单 |
|
s*******a 发帖数: 8827 | 47 但是perl的特别好用。比如可以表达 negative match
(?!) - Negative look ahead assertion foo(?!bar) matches foo when not
followed by bar |
|