d**s 发帖数: 920 | 1 多谢, 我搜了一下, 又看了看wiki关于Jaro-Winkler distance method的介绍。
好像 Jaro-Winkler distance不是直接用Word2Vec产生的vector.
能給一个Jaro-Winkler distance直接用Word2Vec的reference 吗 ?
多谢。 |
|
d**s 发帖数: 920 | 2 请教, 用word2vec, 怎么判断两个句子的相似度 ?
把每个句子中的每个词的vector 加起来, 再做dot product,
好像不make sense.
多谢大家。 |
|
|
d*****u 发帖数: 17243 | 4 word2vec只是把词map到向量而已,是句子的input。
至于句子的处理有很多方法。现在最常用的是用Transformer。
前两年最常用的是LSTM。
更简单的方法就是把词向量取平均值之类的。 |
|
j****n 发帖数: 464 | 5 这种 word2vec 弄句子相似性的东西, 实际效果都很糟糕。
当然发文章没问题 |
|
d**s 发帖数: 920 | 6 请教,word2vec中, 如何知道每个维度代表什么意思 ?
比如说, 怎么知道哪个维度是代表:
- 大小
- 味道
- 或 sentiment ?
有什么办法能发现代表某个特性的维度呢 ?
多谢 |
|
|
m***r 发帖数: 359 | 8 机器学习日报 2015-01-30
@好东西传送门 出品, 过刊见
http://ml.memect.com
订阅:给 [email protected]
/* */ 发封空信, 标题: 订阅机器学习日报
更好看的HTML版
http://ml.memect.com/archive/2015-01-30/short.html
1) 【全新ArnetMiner上线】 by @ArnetMiner
关键词:学术搜索
全新ArnetMiner上线,最新代号AMiner,从学术网络中挖掘深度知识、面向科技大数据
的挖掘。收集近4000万作者信息、8000万论文信息、1亿多引用关系、链接近8百万知识
点;支持专家搜索、机构排名、科研成果评价、会议排名。期待您的关注和建议【系统
持续改进中】。 @唐杰THU @好东西传送门
2) 【MinHash】 by @赵印_Eason
关键词:算法, 聚类
《MinHash》 MinHash是一种概率意义的聚类算法,快速实现,有随机因素。 在推荐场
景: It assigns a pair of users to the same cluster... 阅读全帖 |
|
|
|
m***r 发帖数: 359 | 11 机器学习日报 2015-03-12
@好东西传送门 出品, 过刊见
http://ml.memect.com
订阅:给 [email protected]
/* */ 发封空信, 标题: 订阅机器学习日报
更好看的HTML版
http://ml.memect.com/archive/2015-03-12/short.html
1) 【中英文维基百科语料上的Word2Vec实验】 by @52nlp
关键词:自然语言处理, 主题模型
中英文维基百科语料上的Word2Vec实验: 最近利用gensim word2vec模块在中英文维基
百科语料上分别测试了一下word2vec,记录一下实验的过程,欢迎观摩 [1]
[1] http://www.52nlp.cn/?p=8198
2) 【extreme learning machines】 by @黄广斌-ELM
关键词:算法, 资源, PDF, 教育网站, 神经网络
ELM的主要目的是使机器学习同时达到高准确度,较少的人工干预和实时学习。和过去
几十年传统的神经网络算法和理论信条相反,ELM理论显示隐层节点很重要但许多种神
经网... 阅读全帖 |
|
m***r 发帖数: 359 | 12 机器学习日报 2015-03-12
@好东西传送门 出品, 过刊见
http://ml.memect.com
订阅:给 [email protected]
/* */ 发封空信, 标题: 订阅机器学习日报
更好看的HTML版
http://ml.memect.com/archive/2015-03-12/short.html
1) 【中英文维基百科语料上的Word2Vec实验】 by @52nlp
关键词:自然语言处理, 主题模型
中英文维基百科语料上的Word2Vec实验: 最近利用gensim word2vec模块在中英文维基
百科语料上分别测试了一下word2vec,记录一下实验的过程,欢迎观摩 [1]
[1] http://www.52nlp.cn/?p=8198
2) 【extreme learning machines】 by @黄广斌-ELM
关键词:算法, 资源, PDF, 教育网站, 神经网络
ELM的主要目的是使机器学习同时达到高准确度,较少的人工干预和实时学习。和过去
几十年传统的神经网络算法和理论信条相反,ELM理论显示隐层节点很重要但许多种神
经网... 阅读全帖 |
|
|
|
|
|
g*******u 发帖数: 3948 | 17 binary 应该不适合tree 类型的分类器吧 。素以首先排除
flamewalker 说的后面几个可能可以把?我想的就是根据分布 用直方图。这样就转化
为numerical的了。 吧所有很小的 都轨到一类
因为 5000多种 很多 直方图数值很小 直接用 我担心都接近0 可能会有问题 所以想
小于某个值的都归到 一个数值。
wudong说的word2vec貌似比较高级? 听过没用过。 我可以看看 。 问一下,
word2vec适合这种tree类型的 分类器吗?
thx |
|
B*******c 发帖数: 5056 | 18 看到微博上有人贴了关于汪峰老师歌词的统计数据,里面显示汪峰老师作词有一定常用
词。我想用一些NLP的技术,看看能不能写出来一个“汪峰自动作词机”之类的。
这里是第一步尝试和准备工作。我得到汪峰所有歌曲的歌词,做一些统计分析。
在汪峰老师歌词里,一些词语的搭配很常见,体现了他明显的语言风格。附录是纯粹的
高频词语组合(非NLP分析)得到的高频组合列表。从列表里可以看出,汪峰老师的风
格是朴素直白的语言,最高级的词也就是“彷徨”之类,这样的歌词容易接近大众,俗
称接地气。
根据这个列表,已经可以初步写出一段汪峰老师风格的歌词了,比如从高频50词里随便
挑选组合:
我们没有我的感觉
知道在这就像生命自己
希望这是我哭泣
不知像一生已经孤独的人
无法再见
还是现在因为那么爱你
我擦,这配歌曲拎把吉他就能直接去表白了,有力的击中啊,难怪子怡喜欢呢,你果然
是我的Music King!
与此同时我还做了一些准备工作:按照年份对专辑排序,用时间当作衰变的参数可能更
好的获得汪峰老师近期作词风格;在虾米上找到汪峰老师100首热门歌曲点击排行当作
下一步建立语言模型时候的备用;下一步也可以用word2v... 阅读全帖 |
|
d*****u 发帖数: 17243 | 19 码公自然秒懂
In [1]: import gensim
In [2]: model = gensim.models.Word2Vec.load_word2vec_format('GoogleNews-
vectors-negative300.bin', binary=True)
In [3]: model.similarity('ape', 'African')
Out[3]: 0.25142862328465004
In [4]: model.similarity('ape', 'Asian')
Out[4]: 0.18625269574220088
In [5]: model.similarity('ape', 'European')
Out[5]: 0.034847314905568472
In [6]: model.similarity('ape', 'monkey')
Out[6]: 0.61702215284369433 |
|
d**s 发帖数: 920 | 20 向大家请教一下, AI方面, 有实际用处的, 最应该学习的基本方法, 算法, 和技
术有哪些 ?
我自己学了back propagation, word2vec, 我觉得这两个是应该
掌握的基本方法。
大家还有什么别的推荐 ?
多谢。 |
|
发帖数: 1 | 21 Jaro-Winkler distance method |
|
s*****l 发帖数: 7106 | 22 把stopword拿走
然后取所有词的平均值就好了 |
|
发帖数: 1 | 23 如果要判断语意上的相似度 那就用LSTM
如果是词上的相似度 就用我说的办法 |
|
d**s 发帖数: 920 | 24 >> 然后取所有词的平均值就好了
你是说,取平均值 of the vectors of 所有词 ?
这样就是两个vector 比相似 ? |
|
发帖数: 1 | 25 随便google一下similarity comparison of two sentences
你们这群码农 还不如我这物理千老 |
|
|
|
|
d*****u 发帖数: 17243 | 29 一般的词向量没有这种对应。这正是词向量的特点,distributed representation。
但是你可以训练出那种结果。
比如你构造一个output vector,第一个维度是大小,第二个维度是气味。。。然后去
train
最后得出的模型就可以把输入的词向量map到你需要的向量 |
|
|
d*k 发帖数: 207 | 31 这个不同公司的风格和要求差别太大了。
从你的理解看,还是把machine learning想的太简单了。
选feature是一个需要持续迭代的过程 ,解决一个问题,我的经验是domain knowledge
和feature engineering占到70%以上的工作量。
SVM是一个很强大的分类器,但如果是linear kernel,训练成本并不比logistic
regression高。不用SVM的原因是过于复杂,至少对我来说,弄清所有数学细节太难了
。SVM和神经网络都是如此,work了没问题,不work的话不好调。
“连”SVM都没用?这么说是不合适的,因为logistic regression也是很强大的分类器
,虽然理论简单。用SGD,线性的模型训练成本差别不大。
现在一个崛起的潮流是用简单的线性模型并发训练超大数据集,例如google的word2vec
。复杂模型处理不了这么大的数据量,所以效果秒杀任何复杂算法。我认为搞model是
没多大前途的,因为那么多前人不比你傻多少,都是很常见的问题,能搞出来的早就有
人做了。现在从数学上能做的只可能是边际提升。
另外,如何选择合... 阅读全帖 |
|
v***n 发帖数: 5085 | 32 现在一个崛起的潮流是用简单的线性模型并发训练超大数据集
= Hadoop?
knowledge
word2vec |
|
s****h 发帖数: 3979 | 33 说实在的,DL在Text Analysis / NLP方面的科研成果有,但是感觉并不多。
自己试也容易,装个tensorflow就行。
主要进展是:
生成语义树比非DL的方法好很多,和人工平手
机器翻译接近人的水平
知识图谱中的应用
其它的什么word2vec,document summary, sentiment analysis其实应用场景虽然多,
但是没有质的突破
DL目前的主要方向,1是reinforcement learning, 2是unsupervised learning,
最近最火的对抗网络GAN就是
这个前景是100个以上的NLP |
|
M********c 发帖数: 11672 | 34 没看过这个贴吗?
像汪峰老师一样作词,第一步
看到微博上有人贴了关于汪峰老师歌词的统计数据,里面显示汪峰老师作词有一定常用
词。我想用一些NLP的技术,看看能不能写出来一个“汪峰自动作词机”之类的。这里
是第一步尝试和准备工作。我得到汪峰所有歌曲的歌词,做一些统计分析。
在汪峰老师歌词里,一些词语的搭配很常见,体现了他明显的语言风格。附录是纯粹的
高频词语组合(非NLP分析)得到的高频组合列表。从列表里可以看出,汪峰老师的风
格是朴素直白的语言,最高级的词也就是“彷徨”之类,这样的歌词容易接近大众,俗
称接地气。
根据这个列表,已经可以初步写出一段汪峰老师风格的歌词了,比如从高频词里随便挑
选组合:
我们没有我的感觉
知道在这就像生命自己
希望这是我哭泣
不知像一生已经孤独的人
无法再见
还是现在因为那么爱你
我擦,这配歌曲拎把吉他就能直接去表白了,有力的击中啊,难怪子怡喜欢呢,你果然
是我的Music King!
与此同时我还做了一些准备工作:按照年份对专辑排序,用时间当作衰变的参数可能更
好的获得汪峰老师近期作词风格;在虾米上找到汪峰... 阅读全帖 |
|
w*p 发帖数: 16484 | 35 【 以下文字转载自 Military 讨论区 】
发信人: Bluemusic (Bluemusic), 信区: Military
标 题: Re: 汪峰和窦唯谁的音乐造诣高?
发信站: BBS 未名空间站 (Sun Feb 16 02:28:34 2014, 美东)
看到微博上有人贴了关于汪峰老师歌词的统计数据,里面显示汪峰老师作词有一定常用
词。我想用一些NLP的技术,看看能不能写出来一个“汪峰自动作词机”之类的。
这里是第一步尝试和准备工作。我得到汪峰所有歌曲的歌词,做一些统计分析。
在汪峰老师歌词里,一些词语的搭配很常见,体现了他明显的语言风格。附录是纯粹的
高频词语组合(非NLP分析)得到的高频组合列表。从列表里可以看出,汪峰老师的风
格是朴素直白的语言,最高级的词也就是“彷徨”之类,这样的歌词容易接近大众,俗
称接地气。
根据这个列表,已经可以初步写出一段汪峰老师风格的歌词了,比如从高频50词里随便
挑选组合:
我们没有我的感觉
知道在这就像生命自己
希望这是我哭泣
不知像一生已经孤独的人
无法再见
还是现在因为那么爱你
我擦,这配歌曲拎把吉他就能直接去表白了,有力的击中... 阅读全帖 |
|
m***r 发帖数: 359 | 36 机器学习周报 2015-03-08
http://ml.memect.com/weekly/2015-03-08/
2015-03-08 星期日,完整版 24 条
机器学习中距离和相似性度量方法 @陈晓鸣在硅谷
机器学习ML简史 @数盟社区
Peter Norvig解决编程问题的机器学习 @网路冷眼
欧洲人脑计划改变其治理结构 @金连文
Hopfield Neural Networks为什么没有人提了呢? @西瓜大丸子汤
2015-03-07 星期六,完整版 31 条
52nlp上HMM相关文章索引 @52nlp
TKDE: Tweet分割和在NER上的应用 @AixinSG
音乐文件聚类和可视化 @爱可可-爱生活
Jürgen Schmidhuber在Reddit上的AMA @爱可可-爱生活
学术种子网站AcademicTorrents @阳志平1949
2015-03-06 星期五,完整版 38 条
踹不倒的谷歌大狗是怎样炼成的 @杨静Lillian
DeepDive Open Datasets @爱可可-爱生活
NICAR15上的报告,总结文本可视化 @爱可可-爱生活
张雨石的《... 阅读全帖 |
|
l*******m 发帖数: 1096 | 37 深度学习的定义本身就很模糊。word2vec从层数上讲不够,但是被列为DL在NLP的重要
应用 |
|
s********k 发帖数: 6180 | 38 假设我有一个10000 words的输入,输入是一个10000维的vectpr。那么输出
输出是C个multinominal的vector,其中每个vector是一个10000维的multinominal?C
的个数就是和输入相近的context words的个数? |
|
s********k 发帖数: 6180 | 39 看negative sampling不是太懂,哪位大侠解释下。 |
|
s********k 发帖数: 6180 | 40 你意思是不分词直接用word2vec?那也要看应用场景啊,我看看NLP很多研究在训练测
试集上做,感觉落后时代发展,每天这么多新词新语态,还不像图片就是图片,不会有
啥变化 |
|
s********k 发帖数: 6180 | 41 time series理解成序列,word2vec这种embedding就是把句子当成词的序列来做,你的
问题可能也能这样做,求每个entity的embedding |
|
s********k 发帖数: 6180 | 42 比方说我有一个sentence 20个words,然后做Word2vec 每个word到300 dimension空间
,如果做NN得训练输入时候,是concatenate成一个1*6000的vector,还是输入20*300的
matrix合适 |
|
s********k 发帖数: 6180 | 43 按照你的有限信息,要是我来做,会把关键字和文件都在做处理(比如简单的word2vec
之后,或者文件的metadata feature提取),投影到一个embedding空间,然后算相似
度。 |
|
w*****h 发帖数: 423 | 44 在公司做sentiment analysis,
现在的做法是这样
首先在大概几万句sentences中训练出word2vec model
然后将大概4000个labels的sentences转成vector, 80%作为training, 20%作为testing
, 用neural net作为classifier
类别三类,positive, neutral, negative
之前是公司的一个印度人在负责,达到63% accuracy
我接手之后调参 + 做一些ensemble提高到68% leader似乎不满足,觉得可以到70%甚
至80%
现在我想到思路有几个
1. 做semi-supervise, 没有label的数据有的是
2. unsupervise learning, 比如用autoencoder来initialize neural net
3. GBM or Random forest? 觉得这几个不可能超过我现在这个了
来这里希望得到一些启发,谢啦! |
|
w***g 发帖数: 5958 | 45 你想到的思路都没有问题。但是都太incremental不够糙快猛。
我自己觉得,你的bottleneck是在word2vec和sentence to vector
这个大框架上。不知道你具体sentence to vector是怎么做的,
但是如果是变成固定维数的vector,那就比较肯定是一个可以
有所突破的bottleneck。你可以试下基于CNN或者RNN的model。
你在这里找找看有没有能用的代码:
https://nlp.stanford.edu/sentiment/
不过在这之前,我建议试下xgboost。固定维度的数据分类,标准
做法就是xgboost。注意树的深度不要太高,2,3,4试一下就差不多了。
我觉得这个能帮你从68%提高到70%。
semisupervised learning实战非常risky,轻易不要浪费时间在上面。
上CNN/RNN,我估计做好了能到75%以上。80%很可能超过了数据
本身的难度。
还有,你让business重新tag,如果差异可以量化,这个是一个非常
好的指标。如果让人做都有多少多少差异,就别指望机器能做的更好了。
testing |
|
T*******x 发帖数: 8565 | 46 请教xgboost和neural network比有没有任何优势?
:你想到的思路都没有问题。但是都太incremental不够糙快猛。
:我自己觉得,你的bottleneck是在word2vec和sentence to vector |
|
s********k 发帖数: 6180 | 47 训练量看起来可能有点少,除非很专业领域,直接试一下glove或者Word2vec的库看看
行不行
testing |
|
m*****e 发帖数: 47 | 48 "首先在大概几万句sentences中训练出word2vec model"
"然后将大概4000个labels的sentences转成vector"
1) My guess is the size of the data not large enough. What's the training
error? If training error < test error and training error is closer to human
error, it is a high variance problem. You can add regularization. But it
probably means the amount of data is not big enough. You can try transfer
learning by using GloVe for example.
2) I would also check the quality of the embeddings. Use a few examples and
see how ma... 阅读全帖 |
|