关于文本处理的讨论汇总 - 话题女王

全部话题 - 话题: 文本处理

F****3
发帖数: 1504

来自主题: Programming版 - perl的文本处理大部分容易在python里实现吗？

现在在学Python主要来做text processing，感觉很好学（正在学习，还不是很会）。
但是听说perl是专门用来处理文档的，历史悠久，有很多package。不知道是不是单看
文本处理和NLP这一块，在掌握python的基础上再另外学习perl还是有必要的？
问题可能很白，请牛人们见谅啊！！！
谢谢！

c*********e
发帖数: 16335

来自主题: Programming版 - perl的文本处理大部分容易在python里实现吗？

en,用perl, cpan.org是个非常好的地方，你会发现好多人免费写的插件。perl是文本
处理之王，现在银行还用它，它非常简洁。

G***l
发帖数: 355

来自主题: Programming版 - 哪种脚本语言适合做代码的文本分析？

lz你的标题误导人了。你在标题里说文本分析，结果一堆回复perl/python的，那些做
文本处理是很好。但你这个不是文本的问题，因为你这不是单纯的文本，是有语义的。
你这个基本就是需要个compiler frontend。比如你那个c语言的问题。你要用compiler
把代码转换为abstract syntax tree。有了这个ast之后，所有的变量定义都能准确定
位到，这时候你把ast上所有变量定义后面加一个初始化，再把ast反过来写成source
code，就成了。
如果你的需求很简单，比如只是变量定义加上初始化，那用纯文本regular expression
处理就可以了，perl，python很适合，哪怕sed/awk都可以搞定。如果复杂的话就需要
parser了，你可以用antlr,yacc之类的，那些常见语言的grammar都有现成的，不过要
是你自己特定的语法的话，就要自己写lexer/parer了，用上面提到的parser
generator的工具也挺容易。

F****3
发帖数: 1504

来自主题: Programming版 - perl的文本处理大部分容易在python里实现吗？

谢谢楼上给我的建议！！！
菜鸟弱问一下三个相关的问题：
1） Python的re package是不是没有perl的regular expression那么强大？
2）或者说Python处理文本没有perl那么多"现成的东西多"？我是菜鸟，很多时候一般
要看看cpan之类上面的别人的code才能入门。。。
3) 我的工作百分之99%是处理文本，请问这种情况是不是还是学一下perl比较好一点。谢
谢！

c*********e
发帖数: 16335

来自主题: Programming版 - perl的文本处理大部分容易在python里实现吗？

工作百分之99%是处理文本,那就学regular expression吧，大部份语言里都支持
regular expression的。

。谢

l******n
发帖数: 9344

来自主题: Programming版 - 问个log处理的问题

使用单机处理大约1000个文件大约500G的log数据，要做一下几件事情：
1.从ip到city,这个需要先提取ip然后用第三方的api，然后统计地区的访问次数
2.timestamp,然后统计每个ip每日访问时间.
3.访问device信息，比如os, browser
4. spider记录统计
我就想到2种办法：
1.直接文本处理
2.到把数据提取出来后放到数据库，统计会比较快。但是第二个好像不太容易
哪位处理过类似的log的给点意见，如果有现成的轮子也说说。
谢谢

w********o
发帖数: 10088

来自主题: Programming版 - 为什么一说文本处理就提perl

因为perl的正则用起来非常方便
但是最近我碰到很多例子,比如处理一些网上抓下来的源代码,经常会发生匹配错误,本
来有的字符串,匹配不到,有时候重新运行一遍,又能匹配到了
多个类似程序同时运行的时候,这种情况尤其明显.做了不少优化和测试,还是没啥头绪

l*******s
发帖数: 1258

来自主题: Programming版 - perl的文本处理大部分容易在python里实现吗？

我还是觉得决定regex的不是某种编程语言而是用regex的人
你需要的所有功能我相信通过python都可以实现而且好多包都可以用
有时候没必要写一个老长老长一看就恶心的regex解决问题分开做更敏捷更好维护
另外 python里面的nltk包相信perl里没有对应的。这玩意可是集rule based、
machine learning、corpus于一体的NB包啊。你要是整天搞text处理，以后肯定用的上。
美国我知道的几个搞NLP的系，都用python做教学语言了

。谢

k*****u
发帖数: 1688

来自主题: Statistics版 - [转载] 如何进行文本挖掘,文本挖掘的目的,web挖掘和目的

原作者为爱萌@人大经济论坛，本文是我转载过来的。
文本挖掘是新时期人们对数据的更加深入的需求的,文本挖掘的原材料是各种文本格式
的文本,文字,图片,通过这些来分析相似,关键性,内部蕴涵的逻辑结构等等.
文本数据多是半结构化的数据,(结构化数据是有一定规律的数据,半结构化,是这些文本
有标题,作者,出版日期,类别等结构的东西,同时也有非结构的成分:内容)
文本挖掘有很多方法,基于关键字的方法,标记方法,信息提取方法.
web挖掘是对网页的挖掘,这是因为随着www的发展,
越来越多的信息在网络中,这些数据不仅对商业,对经济,
而且对政治,文化有很深远的影响. web挖掘可以分为web内容挖掘,web结构挖掘,web使
用挖掘,
可以根据html语言对web进行文本挖掘从而达到web挖掘,
但是很多网页并不遵守W3C html规范.
如何通过SAS进行编程对文本,web进行挖掘
为什么我一直在说SAS的文本挖掘和web挖掘,因为这些程序我还不知道如何编写,
其他程序我都知道了,也编写过了.
这是与算法相关的了!
文本挖掘是数据挖掘的一种，有时也看成是质性研究的一种方法。大致的... 阅读全帖

g****g
发帖数: 1828

来自主题: Linux版 - awk

AWK是一种优良的文本处理工具，Linux及Unix环境中现有的功能最强大的数据处理引擎
之一。这种编程及数据操作语言（其名称得自于它的创始人阿尔佛雷德·艾侯、
Peter Weinberger 和 Brian Kernighan 姓氏的首个字母）的最大功能取决于一个人所
拥有的知识。 AWK 提供了极其强大的功能：可以进行正则表达式的匹配，样式装入、
流控制、数学运算符、进程控制语句甚至于内置的变量和函数。它具备了一个完整的语
言所应具有的几乎所有精美特性。实际上 AWK 的确拥有自己的语言： AWK 程序设计语
言，三位创建者已将它正式定义为“样式扫描和处理语言”。它允许您创建简短的程
序，这些程序读取输入文件、为数据排序、处理数据、对输入执行计算以及生成报表，
还有无数其他的功能。gawk 是 AWK 的 GNU 版本。
最简单地说，AWK 是一种用于处理文本的编程语言工具。AWK 在很多方面类似于 Unix
shell 编程语言，尽管 AWK 具有完全属于其本身的语法。它的设计思想来源于
SNOBOL4 、sed 、Marc Rochkind设计的有效性语言、语言工具 y... 阅读全帖

x****s
发帖数: 356

来自主题: MusicPlayer版 - 怎样读写文本六线谱

什么是文本六线谱？
文本六线谱是在计算机上用ASCII码的形式记录吉他曲谱的方法。它
是在Internet这种特殊的传播媒体上发展起来的。以图象格式存在的
正规曲谱制作起来比较麻烦，而且对于某些不同操作系统的计算机还
存在浏览上的限制。而文本六线谱是由文本字符和数字写成，任何计
算机都可浏览下载，更方便互联网上吉他爱好者的相互交流。尽管没
有正规的曲谱看上去完美，但文本六线谱的歌曲资源实在是太多了，
现在几乎所有提供吉他曲谱的网站都在使用文本六线谱，可以说你想
要找什么歌的吉他谱，都可以在网上找到。
文本六线谱能表现什么？
文本六线谱能告诉你应该弹哪些音，也就是音发自吉他上的哪根弦，
哪个品位。
文本六线谱还能告诉你哪些地方需要使用打弦、拉弦、推弦、滑弦、
泛音和颤音等技巧。
文本六线谱还能告诉你这首歌使用的是什么调弦方法，如果没有专门
指出，则默认的是吉他的标准调弦。如果需要使用品夹，文本六线谱
也会标出。
文本六线谱还能告诉你歌曲的节奏，音符的长短。
但音符的准确时值，文本六线谱却无法表现，所以我们就来看看下面
文本六线谱不能表现什么？
文本六线谱通常不能够准确的表现音符的时值，所... 阅读全帖

D**o
发帖数: 2653

来自主题: WaterWorld版 - 苏杰文本侦察学发现：《儿子韩寒》作者非韩仁均

儿子韩寒》作者不是韩仁均的证据，以复旦大学古籍所苏杰博士的思路证明
------------ 中国商军
今天，看到复旦大学砖头苏杰博士写的《（三重门）作者身份的语言学分析》一文，保
韩人士一片尖叫，最有典型的是鸡蛋大学的严锋叫兽：“哇，真正的校勘学专家，复旦
古籍所得苏杰老师出手了。这一篇可以完爆所有质疑派的狗屁“文本分析”。”更有叫
嚣者云：“真是个脑残，不懂就好好学学，或者请教一下你们的教主他的文本分析是啥
玩意儿，可以让方舟子PK苏教授嘛。他还敢像把生物化学说成生物医学那样糊弄人？毕
竟跨学科太远了。哦，万能的教主呀，阿门”......
对此、偶只感到悲怆。虽然偶也是跨学科跨专业，偶专业一直是经济或管理，但区别是
受过世界著名大学研究方法的规范训练。这不妨碍偶跨专业研究，因为科学的研究方法
都是同样的定性或定量分析，只是分析内容不同，瓶子都一样，里面装的可以千变万化。
当然，苏博士作文的前半部很好，至少不用偶来普及语言分析对作者身份鉴别的常识了
。苏博士搬了一个老外，以为可以唬人。偶也不知道他是否真读过这个老外的论文，还
是选择性失明？明明老外在论文强调... 阅读全帖

S*********o
发帖数: 1334

来自主题: TrustInJesus版 - 新约圣经的文本证据(zz)

《新约导论》 - D.A. Carson, Douglas J. Moo著，尹妙珍、纪荣神译
那么，我们手头传承了哪些文本证据？现存约有五千份希腊文新约抄本或部分抄本（有
些仅是残篇），记有全部或部分的希腊文新约；此外，现存约有八千份译本的抄本或部
分抄本。。。此外，现时有超过二千份经课集（Lectionaries)。经课集是一些教会读
物，内有一些经文的选段，及一些写在陶片（ostraca，陶片是一些陶器碎片，通常是
穷人用来写字的材料）和护身符上面一小段的新约经文，时期从第四世纪至十三世纪不
等，而全部译本的证据也可以按着同样的方式分类。虽然这些材料大部分是来自主后
500至1500年这一千年间，不过最早期的残篇都是来自第二世纪的上半叶。
从古代世界流传至今的所有作品中，新约是有最充分文本证据的作品，留意到这点，帮
助很大。例如，著名罗马史家塔西图（Tacitus）所写Annals的前六册，只留有一份抄
本，可追溯到第九世纪。欧里庇得斯（Euripides）是有最多文本核实的希腊悲剧作家
，其现存的作品有54份蒲草纸抄本和276份皮纸抄本，而几乎所有皮卷都是源自拜占庭
的时期。帕特... 阅读全帖

m***r
发帖数: 359

来自主题: Programming版 - Python日报 2015年3月楼

Python日报 2015-03-18
@好东西传送门出品, 过刊见
http://py.memect.com
订阅：给 [email protected]
/* */ 发封空信，标题: 订阅Python日报
更好看的HTML版
http://py.memect.com/archive/2015-03-18/short.html
1) 【用Gensim+networkx做文本主题抽取和可视化】 by @爱可可-爱生活
关键词：工具, 库, 数据科学, 应用, IPython, 机器学习, 可视化, 图分析
[IPN]《Topic Modelling》 [1] Python下用Gensim+networkx做文本主题抽取和可视化
的ipn，很不错。其实是上次《The Art of Literary Text Analysis》http://weibo.com/1402400261/C8tDOETWf )系列中的一篇，估计好些朋友只转发或收藏还没顾上看，单独推荐下
[1] http://nbviewer.ipython.org/github/sgsinclair/alta... 阅读全帖

y***u
发帖数: 7039

来自主题: Military版 - 何新：伊索并非希腊人：关于伊索寓言文本真相的考证

何新：伊索并非希腊人：关于伊索寓言文本真相的考证
16世纪西班牙名画家委拉士开兹笔下的伊索，注意画家赋予伊索共济会的秘仪揣手礼姿
态。
【不追究文本出处，即无从认知希腊历史的真相】已故罗念生先生是一位对学术非常认
真的翻译家，值得尊敬。他懂希腊语，身为80岁的老人，临终前还在孜孜不倦地翻译荷
马的著作。罗氏也是著名的《伊索寓言》的翻译家之一。出于对古希腊文化的热爱而
深信不疑，与古希腊哲学的另一位著名翻译家苗力田先生敢于存疑求真的态度不同——
罗氏毫无保留地相信关于希腊的全部故事。所以他从来不对所翻译的原作，做版本和文
本来历方面的考证。罗氏只是根据西方所出版的所谓古希腊文本力求准确地进行对译
。他以为，这样就可以准确地copy古希腊文化。殊不知，在不分辨源流出处的情况下，
如果那是假货，这种准确翻译所准确复制的也只是西方的谎言，对中国读者只能模糊掉
所应该了解的真相。
例如伊索寓言，所谓的“希腊寓言家伊索”——既不是希腊人，生前也并没有写过任何
寓言著作，或者就如同那位著名的瞎子诗人荷马一样——生前根本没见过什么古希腊文
字。其实，最早在欧洲出现的托名的“伊索寓言”，文本不是古希... 阅读全帖

z****e
发帖数: 74

来自主题: MobileDevelopment版 - App开发技术日报 5月刊

Python日报 2015-05-11
@好东西传送门出品, 过刊见
http://py.memect.com
订阅：给 [email protected]
/* */ 发封空信，标题: 订阅Python日报
更好看的HTML版
http://py.memect.com/archive/2015-05-11/short.html
1) 【用Python理解概率分布的内在联系】 by @_散沙_Python玩家_
关键词：数据科学, PDF, 计算, 林元烈
只用20页PDF，Python陪你真正理解如下图的概率分布之间的内在联系，帮你大学概率
课刷分，统计系考研复习，工作中解决问题更有Insight。百度盘链接不下载直接看 [1]
[1] http://pan.baidu.com/share/link?shareid=3790134688&uk=3943084481
2) 【Python调用OpenDaylight REST API实验】 by @LUPA开源社区
【Python调用OpenDaylight REST API实验】作为一种简洁易用的编程语言，Python... 阅读全帖

m***r
发帖数: 359

来自主题: Programming版 - Python日报 2015年3月楼

Python日报 2015-03-07
@好东西传送门出品, 过刊见
http://py.memect.com
订阅：给 h*[email protected] 发封空信，标题: 订阅Python日报
更好看的HTML版
http://py.memect.com/archive/2015-03-07/short.html
1) 【Python下利用GetStream.io快速搭建一个实时通知系统】 by @Python传送门
关键词：代码
Python下利用GetStream.io快速搭建一个实时通知系统 [1]
[1] https://gist.github.com/tbarbugli/3d43136edb5dcf9bf98b
2) 【Python中备忘功能和装饰器】 by @Python开发者
关键词：Donald Michie
《Python中备忘功能和装饰器》备忘这个词是由Donald Michie在1968年提出的，它基
于拉丁语单词“memorandum”，意思是“被记住”。虽然它和单词“memorization”在
某种程度上有些相似，但它并不是该单词的错误拼写。 [1] （ ... 阅读全帖

G*****r
发帖数: 36

来自主题: JobHunting版 - 简历用哪种文件格式: Word, PDF, HTML 还是纯文本? /硅谷猎头

节选自《我在硅谷当猎头》第三篇致求职者）
在互联网普及的招聘时代，简历都存放在电脑文件中。常见的格式有Word、PDF、 HTML
和纯文本，究竟用哪种格式？我的建议是纯文本 (TXT) 格式最好。
MS Word 是最常见的文字处理软件，所以很多人的简历采用Word 格式。Word 具有丰富
的排版指令、表格处理和字体选择功能。一些女孩子还在简历里加入了彩色照片，企图
给招聘人员留下深刻印象。还有人使用黑体、斜体字突出重点内容。
电脑使用水平较高的朋友还会使用PDF格式。PDF是Portable Document Format的缩写，
中文译为可移植文件格式。使用Adobe 公司的 Adobe Reader软件可以阅读后缀为.PDF
格式的文档。PDF格式的优点在于文件格式与操作系统无关，也就是说，PDF文件不管是
在微软的Windows， Unix还是在苹果电脑公司的Mac OS操作系统中都是通用的。PDF 格
式的简历不容易被修改。
很多人有自己的个人主页，可以把简历放在互联网上，采用的文件格式是HTML (Hyper
Text Markup Language)，即超文本

F****3
发帖数: 1504

来自主题: CS版 - 请问perl初学者最开始看那本书好

谢谢您告诉我这些！！
我学perl主要是为了在文本处理和抓网页。这个听说是perl的强项。。。不知道对不对
。不过听说python是很好用，非常犹豫。目前市面上text analysis用的语言大部分是
perl。
你推荐的learning perl我已经买了，准备看一看。Python也准备学一学。
请问perl和python是不是等有了具体要做的项目，然后学习，一边学一边用更有效率？
还是在有项目之前每天看一个小时的书？谢谢！
我现在其实就是从网站上下载很多文本，然后处理海量文本文件。谢谢！！！

F****3
发帖数: 1504

来自主题: CS版 - 请问perl初学者最开始看那本书好

r********3
发帖数: 694

来自主题: JobHunting版 - 请问搭建一个类似IBM I2或者palantir的分析平台需要多少人? (转载)

【以下文字转载自 Programming 讨论区】
发信人: ruoyang123 (ruoyang), 信区: Programming
标题: 请问搭建一个类似IBM I2或者palantir的分析平台需要多少人?
发信站: BBS 未名空间站 (Sat May 20 21:50:18 2017, 美东)
现在国内一个企业联系我想让我帮忙组一个团队做一个类似IBM I2或者palantir
那样的企业级别大数据可视化分析平台.
主要数据类型文本数据,soical network,以及高维数据,要求能够处理streaming data
数据和数据库之类的底层都是ready的
我本身是专做前台可视化分析和产品设计的,后台懂一些,自己搭建过简单的分析应用.
但是这种大的项目和组建团队没什么经验.我现在对团队的想法:
后台
文本处理分析,NLP,text mining 1人
machine learning, data mining (graph, multi-dimensional) 1人
后台架构,编程 2人
数据库处理, streaming engine 1人
前台
应用架构及... 阅读全帖

v**o
发帖数: 64

来自主题: Java版 - Re: 能不能在java里显示输出word文件？

因为word文件格式是不透明的，所以除了微软任何人都不能直接
处理显示word文件。
其它windows上的编程语言之所以行，是因为一项以前叫ole
现在叫activex的技术，不幸的是java不支持这项技术。
不过你可以调用word程序把word打开
java中处理文本显示相当复杂，在javax.swing.text包
下的的东西都是为这个目的而存在的，事实上文本
处理这个计算机最古老的问题在任何语言中都不简单
swing用的mvc的pattern应该说功能很强大，但上手
就慢了点。

d**o
发帖数: 864

来自主题: Programming版 - 请问哪有用python处理文本或者html的code

处理html可以用beautifulsoup
处理文本，看你要做什么的，不过regular expression一定要学的。

m***r
发帖数: 359

来自主题: Programming版 - Python日报 2015年2月楼

Python日报 2015-02-01
@好东西传送门出品, 过刊见
http://py.memect.com
订阅：给 [email protected]
/* */ 发封空信，标题: 订阅Python日报
更好看的HTML版
http://py.memect.com/archive/2015-02-01/short.html
1) 【Linux服务器Python生产环境配置】 by @叶枫落
关键词：基础, 博客, 课程, 运维
[Blog Update] Linux服务器Python生产环境配置经常我们做运维配置的时候会重复查
找一些教程 [1] #linux# #python#
[1] http://hearrain.com/2015/02/814
2) 【哈工大公开课：程序设计入门—Python】 by @跃Louie
关键词：基础
推荐一门好课《程序设计入门—Python》， @云课堂App —每天涨一点姿势[给力] [1]
[1] http://mooc.study.163.com/course/YOOKCS0001-1000002017#/info?u... 阅读全帖

r********3
发帖数: 694

来自主题: Programming版 - 请问搭建一个类似IBM I2或者palantir的分析平台需要多少人?

现在国内一个企业联系我想让我帮忙组一个团队做一个类似IBM I2或者palantir
那样的企业级别大数据可视化分析平台.
主要数据类型文本数据,soical network,以及高维数据,要求能够处理streaming data
他们想要个轻量级的平台主要服务于内部,整合和分析数据
对外的客户端有专门的另一批人做,他们的产品是基于我们的分析结果
现在数据和数据库之类的底层都是ready的
我本身是专做前台可视化分析和产品设计的,后台懂一些,自己搭建过简单的分析应用.
但是这种大的项目和组建团队没什么经验.我现在对团队的想法:
后台
文本处理分析,NLP,text mining 1人
machine learning, data mining (graph, multi-dimensional) 1人
后台架构,编程 2人
数据库处理, streaming engine 1人
前台
应用架构及网页编程 1-2人
分析应用1人(我)
UI UX设计 1人
希望有经验的人给点建议,谢谢!

s***o
发帖数: 175

来自主题: CS版 - perl和python到底哪个好？

根据你的要求(文本处理，个人使用)，我个人推荐你用Perl:
Python简单直观易读，但是Regular Expression是外部模块，不是语言本身内嵌的，用
起来有点别扭。
Perl处理文本是最爽的，各种库稳定，文档齐全。
Ruby很多地方借鉴了Perl,OO做的很纯，什么都是对象(连class都是对象),就语言本身
而言，我最喜欢Ruby,但是库的积累和文档跟前两个语言差太大了。

z****e
发帖数: 54598

来自主题: Java版 - rails和java,c#的rest web services比较，有何优缺点？ (转载)

脚本简单，跑起来快，而且perl类语言，对于文本处理能力实在是很强大
很多数据库比如mariadb，都内置perl引擎，然后用perl来处理文本

z****e
发帖数: 54598

来自主题: Java版 - rails和java,c#的rest web services比较，有何优缺点？ (转载)

脚本简单，跑起来快，而且perl类语言，对于文本处理能力实在是很强大
很多数据库比如mariadb，都内置perl引擎，然后用perl来处理文本

d****p
发帖数: 685

来自主题: Programming版 - script language主要是干什么用的？

两者不是一个东西，无法比。
C/C++是强大的通用语言；Perl是具有悠久历史（相对其他如Ruby Python）强大类库支
持的专用语言（文本处理＋
系统管理）。在特定开发项目中（网络，数据库，文本处理，中小项目）Perl的开发效
率较C/C++高。
Perl很多函数是系统调用，并不慢。
许多Perl程序难维护是因为很多公司内部当初之所以用Perl是因为只准备写one-shot程
序所以程序员开始就没有准备
考虑维护。如果用心写一样可以写出可维护的代码。（承认Perl对OO的支持很不自然）

w***g
发帖数: 5958

来自主题: Programming版 - 编程语言选择问题

IDE的坏处是把人吊死在一棵树上。用vi/emacs的好处则是可以同时编辑各种语言。我一
般搞一个东西的时候需要用到很多不同的工具，包括bash, awk, gnuplot, c++，latex
，不同的任务用不同的工具解决，然后用Makefile来管理各个任务的运行，从产生数据
到生成图片到更新文档，用IDE远远不如vi方便。
另外，其实unix下那套文本处理的工具，包括cut paste sort join grep awk sed，结
合起来用功能非常强大，用bash glue一下可以胜任大多数文本处理的任务，并不需要用
python。

F****3
发帖数: 1504

来自主题: Programming版 - 请问哪有用python处理文本或者html的code

根据大家建议看了看python入门的书，但是有点抽象。希望看看sample code，主要是
关于处理文本的，除了activestate以外还有什么地方有很多code吗？

i**w
发帖数: 422

来自主题: TeX版 - 请问能不能让latex输出纯文本而不是pdf

就是说该做的处理还是处理，比如reference
但是输出的结果弄成纯文本的

b*****e
发帖数: 288

来自主题: Biology版 - 浅谈生物信息的职业发展规划

浅谈几点我个人的经验。
1. 编程，文本处理
这个是入门的基础，我认为这个最倒是好办。
在有人带的情况下，如果自己对电脑比较感兴趣，那么linux+Perl有2～3个月就入门了。
之后再学其他语言要看课题需求、编程习惯和对学科的理解。比如JAVA，C++等。
这样做各种比对、文本处理应该没问题。
再熟悉了各大生物学主流数据库，那么就可以先摸爬滚打了。
只是进阶比较难。一方面靠积累，另一方面看悟性了。
2. 统计学、数学方面，
我还是主张先学统计，再结合这学语言。
我当年是先学了5年的统计，之后再学的R，这样之后做起来的时候完全是在解决统计学
语言的技术问题，而不需要再去想统计学本身的问题。
这样半年下来，R学了个皮毛，凑合发点文章够用了。
但还是那句话，进阶太难，太漫长。
3. 数据库，网页
这个相对来说还是性价比比较高的。学起来快，出东西也快，不太费脑子，运气等其他
不可预知因素小。
缺点就是做生物的不能只靠这个吃饭，这不是做生物信息的核心竞争力。（当然如果你
们实验室有能力能搞出并维持那些大型综合性数据库，算我没说）
这方面可以搞点东西凑合毕业，但也别做得过多。不然就成了码工，失去... 阅读全帖

z****e
发帖数: 74

来自主题: MobileDevelopment版 - App开发技术日报 5月刊

Python日报 2015-05-09
@好东西传送门出品, 过刊见
http://py.memect.com
订阅：给 [email protected]
/* */ 发封空信，标题: 订阅Python日报
更好看的HTML版
http://py.memect.com/archive/2015-05-09/short.html
1) 【用Python实例介绍t-SNE算法】 by @Python传送门
用Python实例介绍t-SNE算法 [1]
[1] https://beta.oreilly.com/learning/an-illustrated-introduction-to-the-t-
sne-algorithm
2) 【ELM代码工具Python-ELM】 by @hbyido
关键词：库, 数据科学, 代码, 机器学习
【 ELM代码工具】Python-ELM v0.3-- an implementation of the Extreme Learning
Machine in Python, based on scikit-learn. [1]
[1... 阅读全帖

I*******e
发帖数: 1879

来自主题: Programming版 - [合集] 什么办法可以把一个文本文件map到一串数字

☆─────────────────────────────────────☆
eggonlyegg (功夫山熊猫) 于 (Mon Mar 16 16:55:20 2009) 提到:
同时可以反向的map回来，有现成的函数吗？
谢谢
☆─────────────────────────────────────☆
eggonlyegg (功夫山熊猫) 于 (Mon Mar 16 16:59:16 2009) 提到:
md5不是校验的吗？我需要可以通过数字还原文本

☆─────────────────────────────────────☆
city (city) 于 (Mon Mar 16 17:01:15 2009) 提到:
把每个字母拆成16进制，再分段转成10进制数字？
☆─────────────────────────────────────☆
eggonlyegg (功夫山熊猫) 于 (Mon Mar 16 17:03:35 2009) 提到:
我在想，可以不可以直接把文本文件当二进制文件处理？
先试试
☆─────────────

x*****g
发帖数: 353

来自主题: JobHunting版 - 北京初创公司招JAVA后台，自然语言处理工程师

我们是一家致力于采用新一代人工智能科技改变传统人类生活的互联网创业企业。我们
致力于成为世界顶尖的专业垂直领域自然语言处理，人工智能的解决方案和系统提供方
。核心团队成员来自MIT，剑桥，清华，北大，中科院，北航，浙大等，有丰富的一线
互联网和创业公司经验，已获得顶级风险投资基金的投资。
公司研发团队占总人数80%以上，在北京/硅谷设立相应研发机构。公司团队崇尚工程师
文化，既有人工智能&数据方向领军人物，也有充满潜力的技术极客，在这里你能够与
行业尖端领袖一起学习交流。我们专注于前沿技术的研究，机器学习、图像识别、语音
识别、NLP、大数据挖掘等，并参加国际相关领域的比赛，技术氛围浓厚。这里一定有
你喜欢的研究方向。我们期待你的到来！

【为什么选择汉宇 Next Talk】
人工智能/大数据正在风口的行业（起点选择很重要，选offer的第一步是根据趋势选择
行业）
一个好的职业生涯起点（如果你做得好，不分你的学历，背景，都将会有晋升机会，公
司会把好的资源给到做得好的人）
一个靠谱的强大团队（团队内的核心成员大多来自于名牌公司或名牌大学，都属于很聪
明，效率极高的人，公司氛围开放... 阅读全帖

b***i
发帖数: 3043

来自主题: Java版 - editor 处理tab键

要显示一个文本窗口，要求能处理tab，怎么处理呢？
在keypressed里面，如何得到selectedText的起始行，和终止行？
然后，如何在每一行中加入一个tab?
如果按着shift,如何去掉tab
多谢。有没有java内建的模块可以处理这些的？

b*******3
发帖数: 145

来自主题: JobHunting版 - 老美朋友提供 Resume等文本编辑修改服务,适合职场新人

新闻编辑老美朋友现在自由职业，可以提供修改简历， COVER LETTER等文本的编辑服
务，她的连接https://www.fiverr.com/emorj8
（版务你好，不知道在这里给朋友打广告是否合适，请适当处理，谢谢）

h****3
发帖数: 339

来自主题: CS版 - 如何利用Oracle外部表导入文本文件的数据(转载）

Oracle外部表支持两种类型的驱动：一种是ORACLE_LOADER，外部表的数据必须来源于
文件文件，另一种则是ORACLE_DATAPUMP，外部表的数据必须是二进制dump文件，该
dump文件是先前将Oracle内部表的数据导入到外部表中填充的文件。很显然，Oracle希
望将数据保留在数据库内部进行处理。
首先，我们来看一下该文本文件的大小及记录。
其次，构建创建外部表语句。
第三、在scott用户下执行该建表语句。
第四、查看生成的外部表是否有问题。

m*****r
发帖数: 298

来自主题: Java版 - 请教文本替换

如图右侧文本改成左侧那样。需求如下：
1、都在PageLevelButtonPanel或者PageLevelButtonPanelPopup的DIV里面。
2、border="0" 改成 cellpadding="2"
3、删除width属性，引号可能是单引号或双引号，百分值不确定。
总共几百个文件，有文件名列表，但没有路径，路径近似，比如是
c:\a\b\c\d\1
c:\a\b\c\d\2
c:\a\b\c\d\3
用String/SB里面的方法还是regular expression？没有regex经验。
源文件路径如果不好处理，也可以考虑hard code进去。
上次用java读写文件可能是几年前的事情了。。。。
谢谢高人指点哈。

y**b
发帖数: 10166

来自主题: Programming版 - client往server发送不同类型数据怎么处理？

java程序， client可以登录、聊天、画图，这些信息要送到server，
(server验证帐号，以及把聊天文本或绘出的图像发送给其他clients）。
1.请问client端这些不同类型、不同时段、长度随时变化的数据，应该
用什么格式的stream发送呢？
2.server一个while循环怎么接收、识别这些不同类型的数据呢？
3.client也要接收数据，while循环岂不会造成blocked？
4.一对sockets之间，能不能某个时段传一种stream格式，另一个时段
传另一种stream格式？
5.比如我一边画图(每画一笔就传送出去，其他用户能收到)，一边接收
对方聊天文本，一定需要两个线程吗？这两个同时运行的线程能否同时
与server进行传输？

d********t
发帖数: 9628

来自主题: Programming版 - 哪种脚本语言适合做代码的文本分析？

有啥好说的，Perl到目前为止还是最灵活，处理文本最方便的。

l*******g
发帖数: 27064

来自主题: Programming版 - 哪种脚本语言适合做代码的文本分析？

处理文本，perl语言是不是最方便

m***r
发帖数: 359

来自主题: Programming版 - Python日报 2015年3月楼

Python日报 2015-03-14
@好东西传送门出品, 过刊见
http://py.memect.com
订阅：给 [email protected]
/* */ 发封空信，标题: 订阅Python日报
更好看的HTML版
http://py.memect.com/archive/2015-03-14/short.html
1) 【用Python解决蒙提霍尔问题(Monty Hall problem)】 by @Python传送门
关键词：Monty Hall, 蒙提
用Python解决蒙提霍尔问题(Monty Hall problem) [1]
[1] http://trevorappleton.blogspot.co.uk/2015/03/solving-monty-hall-problem-with-python.html?utm_content=buffer28355&utm_medium=social&utm_source=twitter.com&utm_campaign=buffer
2) 【利用Python和OpenCV将URL直接转换成OpenCV... 阅读全帖

#	版面	帖数(主题数)
-	全站	4871 (796)
1	Military	3777 (569)
2	Stock	341 (51)
3	Joke	117 (17)
4	History	116 (3)
5	Automobile	100 (9)
6	USANews	55 (9)
7	Midlife	45 (1)
8	Headline	41 (41)
9	Dreamer	33 (13)
10	FleaMarket	32 (20)
11	Living	30 (7)

topics

未名新帖统计// 7月16日

历史上的今天