|
b****e 发帖数: 119 | 2 昨天微博上关于Python值得一读的讨论
SegmentFault 2014-12-04 13:52
【7 个测量 Python 脚本和控制内存以及 CPU 使用率的技巧】分享自 @SegmentFault
,文章传送门: http://t.cn/RzaeK7C
Python开发者 2014-12-04 10:20
《Dumbo:开发Hadoop程序变得如此简单》Dumbo是一个Python模块,它使得编写和运行
Hadoop Streaming程序变得非常简单。http://t.cn/RvZ54w4
Fighting槟 2014-12-04 09:32
【通过nltk的机器学习方法实现论坛垃圾帖的过滤】通过nltk的机器学习方法实现论坛
垃圾帖的过滤 这个问题属于非结构化数据的分类问题,我们以nltk的朴素贝叶斯算法
来实现 (ghost)(ghsotvip)(ghost渗透
组) 第一步,我们要准备… http://t.cn/RzaX9ef
网路冷眼 2014-12-04 08:39
... 阅读全帖 |
|
o****e 发帖数: 417 | 3 阿三简历包装和相关技术令人发指,所有网上材料都是包装
举一个今天我发觉的阿三的包装简历为例,它实际经验美国学习9个月美国工作0个月本
国实习3个月,但是简历写得好于是HR发给我看,而且在github上像模像样搞了一个项
目,把别人的很复杂的代码拷贝过来,每隔一两周加一两个无关文件,看起来很厉害,
实际上什么也没做。但是这个很容易糊弄HR和没时间的经理。另外还在阿三国参加假的
高科技公司实际是一个培训公司,然后在美国某些创投网站上发布自己的一个假的公司
,自己作为唯一员工,开发机器人技术,实际上都是骗人的。
简历如下(人名省略):
OBJECTIVE: Summer Internship/ Co-op in Robotics Engineering with focus on
perception, learning and planning.
EDUCATION: Worcester Polytechnic Institute (WPI), Worcester, MA
... 阅读全帖 |
|
c*********l 发帖数: 3438 | 4 【 以下文字转载自 JobHunting 讨论区 】
发信人: octane (octane), 信区: JobHunting
标 题: 同学们,学习一下阿三如何包装申请intern
发信站: BBS 未名空间站 (Wed Apr 19 02:05:58 2017, 美东)
阿三简历包装和相关技术令人发指,所有网上材料都是包装
举一个今天我发觉的阿三的包装简历为例,它实际经验美国学习9个月美国工作0个月本
国实习3个月,但是简历写得好于是HR发给我看,而且在github上像模像样搞了一个项
目,把别人的很复杂的代码拷贝过来,每隔一两周加一两个无关文件,看起来很厉害,
实际上什么也没做。但是这个很容易糊弄HR和没时间的经理。另外还在阿三国参加假的
高科技公司实际是一个培训公司,然后在美国某些创投网站上发布自己的一个假的公司
,自己作为唯一员工,开发机器人技术,实际上都是骗人的。
简历如下(人名省略):
OBJECTIVE: Summer Internship/ Co-op in Robotics Engineering with focus on
perception, learnin... 阅读全帖 |
|
c*********l 发帖数: 3438 | 5 【 以下文字转载自 JobHunting 讨论区 】
发信人: octane (octane), 信区: JobHunting
标 题: 同学们,学习一下阿三如何包装申请intern
发信站: BBS 未名空间站 (Wed Apr 19 02:05:58 2017, 美东)
阿三简历包装和相关技术令人发指,所有网上材料都是包装
举一个今天我发觉的阿三的包装简历为例,它实际经验美国学习9个月美国工作0个月本
国实习3个月,但是简历写得好于是HR发给我看,而且在github上像模像样搞了一个项
目,把别人的很复杂的代码拷贝过来,每隔一两周加一两个无关文件,看起来很厉害,
实际上什么也没做。但是这个很容易糊弄HR和没时间的经理。另外还在阿三国参加假的
高科技公司实际是一个培训公司,然后在美国某些创投网站上发布自己的一个假的公司
,自己作为唯一员工,开发机器人技术,实际上都是骗人的。
简历如下(人名省略):
OBJECTIVE: Summer Internship/ Co-op in Robotics Engineering with focus on
perception, learnin... 阅读全帖 |
|
c*********l 发帖数: 3438 | 6 【 以下文字转载自 JobHunting 讨论区 】
发信人: octane (octane), 信区: JobHunting
标 题: 同学们,学习一下阿三如何包装申请intern
发信站: BBS 未名空间站 (Wed Apr 19 02:05:58 2017, 美东)
阿三简历包装和相关技术令人发指,所有网上材料都是包装
举一个今天我发觉的阿三的包装简历为例,它实际经验美国学习9个月美国工作0个月本
国实习3个月,但是简历写得好于是HR发给我看,而且在github上像模像样搞了一个项
目,把别人的很复杂的代码拷贝过来,每隔一两周加一两个无关文件,看起来很厉害,
实际上什么也没做。但是这个很容易糊弄HR和没时间的经理。另外还在阿三国参加假的
高科技公司实际是一个培训公司,然后在美国某些创投网站上发布自己的一个假的公司
,自己作为唯一员工,开发机器人技术,实际上都是骗人的。
简历如下(人名省略):
OBJECTIVE: Summer Internship/ Co-op in Robotics Engineering with focus on
perception, learnin... 阅读全帖 |
|
p**o 发帖数: 3409 | 7 首先,python 核心语法和内置的数据结构要用熟,
确保能尽快写出能运行的代码,不用过于追求 pythonic 风格。
书不用看得太多太细,了解个大概就可以动手写项目了。
具体到你的应用,NLP 可以看看 NLTK 这个第三方库
http://nltk.org/
扒网页可以看看 requests 这个第三方库,API 设计得非常简单干净。
http://www.python-requests.org
另外,用 python 搞科学计算的,scipy toolchain (numpy, scipy,
ipython, scikits, matplotlib, pandas, pytables, ...) 是避不开的,
当然用到的时候再具体学也不迟。
Windows不是问题。 |
|
p**o 发帖数: 3409 | 8 首先,python 核心语法和内置的数据结构要用熟,
确保能尽快写出能运行的代码,不用过于追求 pythonic 风格。
书不用看得太多太细,了解个大概就可以动手写项目了。
具体到你的应用,NLP 可以看看 NLTK 这个第三方库
http://nltk.org/
扒网页可以看看 requests 这个第三方库,API 设计得非常简单干净。
http://www.python-requests.org
另外,用 python 搞科学计算的,scipy toolchain (numpy, scipy,
ipython, scikits, matplotlib, pandas, pytables, ...) 是避不开的,
当然用到的时候再具体学也不迟。
Windows不是问题。 |
|
p*********k 发帖数: 13 | 9 同意这个回帖。
我写过C++,C,Java, C#,感觉java 和C# 的开发效率确实高。c/c++的计算效率高, 内
存小, 速度快。但是用来用去还是python是真爱。没别的,科学计算无人能敌, 兼顾开
发效率和计算效率。我做machine learning 的, computer vision 和nlp 的都要有。
先说library, 很多的vision library 是Matlab 的,改成java 或是C# 太累了。C++
有很好的库,但是要花不少时间调试。要是在device上实现还有需要,在cloud上就
overkill了,毕竟还有io瓶颈。python 就方便太多了,基本直接翻译matlab成numpy
scipy. NLP的库,JAVA 和SCALA是重镇。Python里的有 nltk,相比而言比较慢一些。但
是坦率的说, nltk里的一些实现还是比较简单没有使用numpy scipy. 随着现在的deep
learning 的算法进展, 很多将来的 nlp库会更适合在python 环境下运行。再说
machine learning, 就不说sklea... 阅读全帖 |
|
|
|
|
S******y 发帖数: 1123 | 13 you might want to look into -
nltk.ngrams
if you have installed nltk package in Python.
=============================================
欢迎浏览我的Python/Hadoop实战速成课网页 -
http://plus.google.com/109275868505226513618/about
============================================= |
|
w***u 发帖数: 17713 | 14 NLTK那本书尽讲他们给出的函数,没咋讲原理。 |
|
d**s 发帖数: 920 | 15 我试了nltk.sentiment.vader 中的 SentimentIntensityAnalyzer,
即便把它和spaCy一起用, 结果也比较令人失望。
请问, 现在比较好用做sentiment分析的有哪些 ?
多谢大家。 |
|
r*******3 发帖数: 35 | 16 Ask.com, Oakland, CA
Java Engineer
Responsibilities
Hands-on end-to-end development to create new technical solutions and evolve
our current question and answer site.
Provide architectural, design and engineering leadership to influence Java
and client-side solutions
Work closely with other engineering teams to define and develop solutions to
real-world problems
Perform research and development to evaluate new technologies, ideas and
communicate value for company
Required Experience
Java - 5 ye... 阅读全帖 |
|
m***q 发帖数: 96 | 17 据说今年H1B会有20万人申请,名额还是8万多。我就想,为什么H1B可以把拥有
advanced学历的人牢牢限制住?那1100万估计连本科学历都没有,但依然可以靠自己的
辛勤劳作在这里站住脚跟。。。
有时候真的很想豁出去了,凭什么比你晚来两三百年,找个工作都要排队抽签看脸色。
凭什么起早贪黑辛勤工作的我随时可能被你贴上一个“非法移民”的标签,而你却可以
继续合法的好吃懒做不劳而获?
没有读过美国宪法,但凭感觉我相信制定宪法的美国先先们如果看到今年的美国,他们
也许会加上一条“这片土地上的任何有都有追逐自己的梦想的自由,只要他不侵犯别人
追逐梦想的权利”
我就想问一下,如果真的被他们贴上了非法移民的标签,advanced STEM degree加上2
年big data工作经验,湾区Startup会在意我是非法的吗?
背景:
Python熟练级别(2年工作经验): 1)把Hive SQL写进.py然后在Linux下自动化很多
进程;2)在Hive SQL中调用.py进行streaming; 3)直接用写.py格式的mapper和
reducer; 4)借助NLTK moduler做一些c... 阅读全帖 |
|
z*******y 发帖数: 68 | 18 rt
以前用过python nltk做英文的text mining
不知道中文怎么做?
感觉中文会难很多,象tokenize这些该怎么做呢?
谢谢!! |
|
a**********0 发帖数: 422 | 19 入门算法推荐berkeley的 shewchuck 的 数据结构 还有一个大作业 是一个棋牌游戏的
人工智能 那个课是semester的 用java的
顺便说一下 我个人感觉python实际使用起来兼容性很差 即使都是2.x 比如我使用NLTK
的经历就很痛苦 每一个package弄下来都要debug 不能直接使用 逻辑bug没有 都是不
兼容的bug 有些网上也找不到答案 只能看进去该函数 比如生成wordnet的网络图 我就
是调用了另一个函数
bird书里边的例子我都run不了
而且python非常慢 我用的还是pyDEV 经常不知怎么的就死机了
java大部分好技术都是java的 比如hadoop lucene weka 等等
我觉得python发展很混乱 而且现在都又去学swift和node了
python面试如果你不是行家 很快就可以看出来 语言本身的小技巧挺多的 所以用不好
python而用它面试属于丢人现眼了 |
|
|
V*********r 发帖数: 666 | 21
NLTK
就我的经验,各大厂小厂纯Python面试都没问题,面试官基本都看得懂。
面之前先问面试官熟不熟悉Python,如果不太熟,就尽量避免过于idiomatic的写法。 |
|
s****i 发帖数: 5469 | 22 我最近处理实验室一个用python(据说是2.4版的)写的程序也很头疼这事,换一
台机器马上就不运行了,装上各种scipy,numpy也不行,目前只有一台机器能运行,而
且各种功能在逐渐丢失。我想重新用java写一遍,偏偏还撞上了一个数学难题,问了一
圈没人明白。
NLTK |
|
p*3 发帖数: 197 | 23 请推荐本python的书 或网络课程?符合python行家的规范的
NLTK |
|
|
A****h 发帖数: 504 | 25 我想买个thinkpad笔记本。我是女生,电脑就是用来文字处理、看看网络电视、上网聊
天、简单数据处理(会用到python, nltk)。请行家门給我推荐一个笔记本吧,哪个系
列好。我也非常看重机器的散热。 |
|
l****z 发帖数: 29846 | 26 【 以下文字转载自 JobHunting 讨论区 】
发信人: muqqq (muqq), 信区: JobHunting
标 题: 2014H1B浮想联翩:高技术非法劳工市场怎么样?
发信站: BBS 未名空间站 (Sun Feb 9 22:16:13 2014, 美东)
据说今年H1B会有20万人申请,名额还是8万多。我就想,为什么H1B可以把拥有
advanced学历的人牢牢限制住?那1100万估计连本科学历都没有,但依然可以靠自己的
辛勤劳作在这里站住脚跟。。。
有时候真的很想豁出去了,凭什么比你晚来两三百年,找个工作都要排队抽签看脸色。
凭什么起早贪黑辛勤工作的我随时可能被你贴上一个“非法移民”的标签,而你却可以
继续合法的好吃懒做不劳而获?
没有读过美国宪法,但凭感觉我相信制定宪法的美国先先们如果看到今年的美国,他们
也许会加上一条“这片土地上的任何有都有追逐自己的梦想的自由,只要他不侵犯别人
追逐梦想的权利”
我就想问一下,如果真的被他们贴上了非法移民的标签,advanced STEM degree加上2
年big data工作经验,湾区Startup会在意我是非法的吗... 阅读全帖 |
|
g*w 发帖数: 289 | 27 【 以下文字转载自 JobHunting 讨论区 】
发信人: muqqq (muqq), 信区: JobHunting
标 题: 2014H1B浮想联翩:高技术非法劳工市场怎么样?
发信站: BBS 未名空间站 (Sun Feb 9 22:16:13 2014, 美东)
据说今年H1B会有20万人申请,名额还是8万多。我就想,为什么H1B可以把拥有
advanced学历的人牢牢限制住?那1100万估计连本科学历都没有,但依然可以靠自己的
辛勤劳作在这里站住脚跟。。。
有时候真的很想豁出去了,凭什么比你晚来两三百年,找个工作都要排队抽签看脸色。
凭什么起早贪黑辛勤工作的我随时可能被你贴上一个“非法移民”的标签,而你却可以
继续合法的好吃懒做不劳而获?
没有读过美国宪法,但凭感觉我相信制定宪法的美国先先们如果看到今年的美国,他们
也许会加上一条“这片土地上的任何有都有追逐自己的梦想的自由,只要他不侵犯别人
追逐梦想的权利”
我就想问一下,如果真的被他们贴上了非法移民的标签,advanced STEM degree加上2
年big data工作经验,湾区Startup会在意我是非法的吗... 阅读全帖 |
|
w****k 发帖数: 6244 | 28 做梦呢。ruby也就一些喜欢搞怪的geek玩玩。
python的生态系统已经很强大了,
学术界用它的人无比多,numpy,scipy这些package,让科学计算速度和开发时间有一
个很好的平衡。
cs方面,NLTK这些东西,ruby没有匹配的。
web方面也很流行,django社区越来越大。rails还是要稍差。
大公司有google这种撑着python。
ruby后面有大公司么? twitter开始用它,现在也摒弃它了。 |
|
l*******s 发帖数: 1258 | 29 我还是觉得 决定regex的不是某种编程语言 而是用regex的人
你需要的所有功能 我相信通过python都可以实现 而且好多包都可以用
有时候 没必要写一个老长老长一看就恶心的regex解决问题 分开做 更敏捷 更好维护
另外 python里面的nltk包 相信perl里没有对应的。这玩意可是集rule based、
machine learning、corpus于一体的NB包啊。你要是整天搞text处理,以后肯定用的上。
美国我知道的几个搞NLP的系,都用python做教学语言了
。谢 |
|
F****3 发帖数: 1504 | 30 真是学了很多,太谢谢你们了!
现在正在看NLTK的书。封面是鲸鱼的那个,写的很通俗易懂:) |
|
E*****m 发帖数: 25615 | 31
可以用 Stanford parser, 也可以不用, NLTK 自己有傳統的 grammar, 沒有
Stanford 那樣的 statistical parser 那麼強大就是了。 |
|
|
l*******s 发帖数: 1258 | 33 那就有点麻烦,很多NLP的包都是java的
那就试试nltk吧,是python的。
不过话又说回来了,为什么你非要搞这个东西呢?是不是老板让干的?跟老板谈谈,就
说自己是文科生,确实不擅长这个,能不能找个人合作?然后自己负责其他部分,毕竟
完整任务是最终目的,没必要所有事情都自己干,尤其是自己不擅长的。
文科生,就应该有点文科生解决问题的思路吗。
哈哈 虽然我也是文科生。。。
--Dishes Map,基于餐馆Review的美食发现引擎
https://play.google.com/store/apps/details?id=dishesmap.mobile
and
be |
|
s******o 发帖数: 656 | 34 求各路大神给小弟指条明路,这几个语言哪个更适用于我的情况
我是学文科的,编程经验很少,之前用过matlab做些简单的运算,转文科后主要用SAS
和stata做统计。没接触过C之类的复杂的语言。最近经常帮RA的老板手工收集数据,例
如从上市公司财务报表中找出需要的信息,手工收集到excel之类的软件以方便SAS读取
。手工收集数据太费时间,以后还可能经常用到,所以想学个语言看能不能编程代替手
工收集。
现在主要的困惑一是心里没啥概念到底编程能不能完全代替手工收集或者省掉大部分手
工时间,因为收集某些数据的时候需要先读一遍报表里的话然后才能决定这段话里提到
的数据是不是我需要的。我网上搜到python里有个natural language tool kit http://nltk.org/ 貌似能分析自然语言,但是不知道这个工具能不能强大到分析报表摘出有用信息。
另外一个搞不清的地方是如果编程能代替手工收集,哪一种语言解决我的问题最有效?
我刚看到FAS133同学发在本版的帖子,他遇到的问题貌似跟我的有点像,帖子里各位有
的说Java适用有的说Perl最好。有点糊涂。http://www.... 阅读全帖 |
|
p**o 发帖数: 3409 | 35 NLTK 对你有没有用,要结合你具体的需求来说。耐心读一读它的API文档以及示例,看
看有没有你需要的。毕竟它不是拿鼠标点点就能完成操作的图形软件,是个类库,是一
堆砖头。你要造房子,当然需要你自己和水泥、一块砖一块砖地砌。
就语言本身来说,python比perl易学易读不少,都是0基础的话还是建议python。
话说看你本版发文,两年前就开始用python写程序了,怎么现在还在纠结这个问题?
SAS |
|
s******o 发帖数: 656 | 36 呵呵,你还记得啊!
我当时也是碰到类似的手工收集的问题,想现学现卖,后来发现时间紧自己搞不定,就
找了一个CS的朋友帮忙搞定的。当时我那朋友好像都没有用到编程或者用了一点perl,
大部分直接用shell script就弄好了。那之后我一直没有再做类似的手工收集,就扔下
了。最近又被assign给这个老板做RA,干的事比以前还麻烦。另外就是我们这一行最近
也开始有人在搞类似的东西了,比如说编程模拟大规模手工收集数据,谁有别人没有的
数据谁就能发paper,还有人编程或者用软件分析财务报表的语气发paper的,也算是个
研究的趋势吧,这些东西SAS或者Stata实现起来很难,所以打算认真弄一弄编程语言。
上次学的那点python连皮毛都不是,学了半天也稀里糊涂的,而且我问了一下发现我认
识的人学perl的比较多大部分没用过python没法比较。多谢大神指教!另外还想请教一
下如果nltk不适用,我应该去哪里找我需要的工具呢?光google有点大海捞针的感觉,
我是编程门门外汉也不知道该去哪找。 |
|
d******e 发帖数: 2265 | 37 好多包要会把。
numpy, pandas, scipy, nltk, pillow, django/torando/flask, celery, twisted/
gvent/tornado
不会这写很难找到工作吧。 |
|
|
d******e 发帖数: 2265 | 39 python 可维护性非常差。因为cpython,有了很好用的numpy, scipy, pandas, nltk,
sci-learn 所以在学界和华尔街比较流行。但是其他方面一般般。
另外,python的设计比较土但是歪打正着,非常容易学习,这是一大好处。 |
|
d******e 发帖数: 2265 | 40 在python3上用gevent多年requests一直没有问题最后一个短板是nltk现在也解决了
如果拒绝自动的处理Unicode,asyncio yield from enum那么可以停在Python 2上没问题 |
|
|
e****t 发帖数: 17914 | 42 没错
这两个语言的分水岭就是 这两年火起来的大数据。Python 有几个库太牛逼。包括
numpy scipy nltk pandas 等 |
|
s********k 发帖数: 6180 | 43 分词好像都不用DL做吧,NLTK的那些基本包就够了,DL应该主要做后续的 |
|
s*****w 发帖数: 1527 | 44 NLTK好像不怎样,
对于商业公司,用google不是长久之计。 |
|
w***g 发帖数: 5958 | 45 NLTK是上一代技术. 有了deep learning后应该已经洗牌了.
虽然算法和代码有不少公开的, 但是没有训练数据没法弄啊.
这里面水很深. 如果楼主是要做生意, 强烈不建议折腾开源
系统. 如果你的business model依赖NLP作为IP, 或者用了
收费API就没有盈利了, 那么我觉得很值得担心. 用API根本
没问题. 就是我的客户, 有API的我也建议他们去用API.
API处理一张图片收几分钱. 让我开发一个模型, 算成本得
成千上万.
如果是自己做着玩, 现在倒是碰上好时代了.
https://github.com/opennmt/opennmt
https://github.com/tensorflow/nmt
能玩各种NLP的花样.就是中英文翻译的训练数据不好找啊.
应该是你给我发的微信吧, 电脑上敲字容易就多敲一点. |
|
S******y 发帖数: 1123 | 46 Maybe you can start with NLTK first. .
谢~ |
|
S******y 发帖数: 1123 | 47 I have seen their demo at a SAS conference.
Not very impressive...
Just another blackbox off-shelf thing ...
I have been using Python for my text mining work. It has been working
extremely well. (If you don't want to do a lot coding in Python, you can
just call functions in NLTK package.)
=========================================================== |
|
S******y 发帖数: 1123 | 48 Thanks for your comments/feedback! lingandcs!
I really appreciate it!
At this preliminary stage, I am just measuring usage of certain single
auxiliary words across chapters, and then run some statistical
testings. I am going to update my website over the weekend with my
new findings (such as word usage charts across chapters)! Please come
back to visit my website often for updates!
The next step, I am going to do collocation analysis(bigrams and
trigrams etc.). NLTK can do that. But I will def... 阅读全帖 |
|
|
z*******h 发帖数: 346 | 50 I can do that using Python NLTK. But who is 韩寒 anyway? |
|