由买买提看人间百态

topics

全部话题 - 话题: word2vec
1 (共1页)
d**s
发帖数: 920
1
多谢, 我搜了一下, 又看了看wiki关于Jaro-Winkler distance method的介绍。
好像 Jaro-Winkler distance不是直接用Word2Vec产生的vector.
能給一个Jaro-Winkler distance直接用Word2Vec的reference 吗 ?
多谢。
d**s
发帖数: 920
2
请教, 用word2vec, 怎么判断两个句子的相似度 ?
把每个句子中的每个词的vector 加起来, 再做dot product,
好像不make sense.
多谢大家。
d**s
发帖数: 920
3
LSTM 可以和Word2Vec 一起用吧 ?
d*****u
发帖数: 17243
4
word2vec只是把词map到向量而已,是句子的input。
至于句子的处理有很多方法。现在最常用的是用Transformer。
前两年最常用的是LSTM。
更简单的方法就是把词向量取平均值之类的。
j****n
发帖数: 464
5
这种 word2vec 弄句子相似性的东西, 实际效果都很糟糕。
当然发文章没问题
d**s
发帖数: 920
6
请教,word2vec中, 如何知道每个维度代表什么意思 ?
比如说, 怎么知道哪个维度是代表:
- 大小
- 味道
- 或 sentiment ?
有什么办法能发现代表某个特性的维度呢 ?
多谢
m***r
发帖数: 359
7
来自主题: DataSciences版 - 大数据日报 2015年2月楼
机器学习日报 2015-02-20
@好东西传送门 出品, 过刊见
http://ml.memect.com
订阅:给 [email protected]
/* */ 发封空信, 标题: 订阅机器学习日报
更好看的HTML版
http://ml.memect.com/archive/2015-02-20/short.html
1) 【Wiki2Vec从维基百科Dumps生成Word2Vec向量】 by @爱可可-爱生活
关键词:自然语言处理
[开源] Wiki2Vec —— 从维基百科Dumps生成Word2Vec向量的工具,包括词向量和主题
向量
长微博图:http://ww2.sinaimg.cn/large/5396ee05jw1epfedr29wsj20l42p21h4.jpg
2) 【Netflix开源大数据异常检测模块RAD】 by @爱可可-爱生活
关键词:算法, Java, PCA, 代码, 可视化, 异常检测
[开源]《RAD - Outlier Detection on Big Data》 [1] Netflix开源大数据异常检测
模块RAD(Robus... 阅读全帖
m***r
发帖数: 359
8
来自主题: DataSciences版 - 机器学习日报
机器学习日报 2015-01-30
@好东西传送门 出品, 过刊见
http://ml.memect.com
订阅:给 [email protected]
/* */ 发封空信, 标题: 订阅机器学习日报
更好看的HTML版
http://ml.memect.com/archive/2015-01-30/short.html
1) 【全新ArnetMiner上线】 by @ArnetMiner
关键词:学术搜索
全新ArnetMiner上线,最新代号AMiner,从学术网络中挖掘深度知识、面向科技大数据
的挖掘。收集近4000万作者信息、8000万论文信息、1亿多引用关系、链接近8百万知识
点;支持专家搜索、机构排名、科研成果评价、会议排名。期待您的关注和建议【系统
持续改进中】。 @唐杰THU @好东西传送门
2) 【MinHash】 by @赵印_Eason
关键词:算法, 聚类
《MinHash》 MinHash是一种概率意义的聚类算法,快速实现,有随机因素。 在推荐场
景: It assigns a pair of users to the same cluster... 阅读全帖
m***r
发帖数: 359
9
来自主题: DataSciences版 - 机器学习日报 2015年3月楼
机器学习日报 2015-03-02
@好东西传送门 出品, 过刊见
http://ml.memect.com
订阅:给 [email protected]
/* */ 发封空信, 标题: 订阅机器学习日报
更好看的HTML版
http://ml.memect.com/archive/2015-03-02/short.html
1) 【VALSE视觉与学习青年学者研讨会视频】 by @视觉机器人
关键词:会议活动, 视觉, 活动, 教育网站, 李学龙, 潘纲, 山世光, 颜水成
VALSE是山世光教授(博士、研究员、博导)等发起的一项研讨会,主要目的是为计算
机视觉、图像处理、模式识别与机器学习研究领域内的中国青年学者(以70后和80后为
主)提供一个深层次学术交流的舞台 [1] ,历次QQ群活动信息: [2] ,技术分享视频
列表: [3]
[1] http://vipl.ict.ac.cn/valse/
[2] http://valse.mmcheng.net
[3] http://vision.ouc.edu.cn/valse/
2) 【Why word2vec wor... 阅读全帖
m***r
发帖数: 359
10
来自主题: DataSciences版 - 机器学习日报 2015年3月楼
机器学习日报 2015-03-02
@好东西传送门 出品, 过刊见
http://ml.memect.com
订阅:给 [email protected]
/* */ 发封空信, 标题: 订阅机器学习日报
更好看的HTML版
http://ml.memect.com/archive/2015-03-02/short.html
1) 【VALSE视觉与学习青年学者研讨会视频】 by @视觉机器人
关键词:会议活动, 视觉, 活动, 教育网站, 李学龙, 潘纲, 山世光, 颜水成
VALSE是山世光教授(博士、研究员、博导)等发起的一项研讨会,主要目的是为计算
机视觉、图像处理、模式识别与机器学习研究领域内的中国青年学者(以70后和80后为
主)提供一个深层次学术交流的舞台 [1] ,历次QQ群活动信息: [2] ,技术分享视频
列表: [3]
[1] http://vipl.ict.ac.cn/valse/
[2] http://valse.mmcheng.net
[3] http://vision.ouc.edu.cn/valse/
2) 【Why word2vec wor... 阅读全帖
m***r
发帖数: 359
11
来自主题: DataSciences版 - 机器学习日报 2015年3月楼
机器学习日报 2015-03-12
@好东西传送门 出品, 过刊见
http://ml.memect.com
订阅:给 [email protected]
/* */ 发封空信, 标题: 订阅机器学习日报
更好看的HTML版
http://ml.memect.com/archive/2015-03-12/short.html
1) 【中英文维基百科语料上的Word2Vec实验】 by @52nlp
关键词:自然语言处理, 主题模型
中英文维基百科语料上的Word2Vec实验: 最近利用gensim word2vec模块在中英文维基
百科语料上分别测试了一下word2vec,记录一下实验的过程,欢迎观摩 [1]
[1] http://www.52nlp.cn/?p=8198
2) 【extreme learning machines】 by @黄广斌-ELM
关键词:算法, 资源, PDF, 教育网站, 神经网络
ELM的主要目的是使机器学习同时达到高准确度,较少的人工干预和实时学习。和过去
几十年传统的神经网络算法和理论信条相反,ELM理论显示隐层节点很重要但许多种神
经网... 阅读全帖
m***r
发帖数: 359
12
来自主题: DataSciences版 - 机器学习日报 2015年3月楼
机器学习日报 2015-03-12
@好东西传送门 出品, 过刊见
http://ml.memect.com
订阅:给 [email protected]
/* */ 发封空信, 标题: 订阅机器学习日报
更好看的HTML版
http://ml.memect.com/archive/2015-03-12/short.html
1) 【中英文维基百科语料上的Word2Vec实验】 by @52nlp
关键词:自然语言处理, 主题模型
中英文维基百科语料上的Word2Vec实验: 最近利用gensim word2vec模块在中英文维基
百科语料上分别测试了一下word2vec,记录一下实验的过程,欢迎观摩 [1]
[1] http://www.52nlp.cn/?p=8198
2) 【extreme learning machines】 by @黄广斌-ELM
关键词:算法, 资源, PDF, 教育网站, 神经网络
ELM的主要目的是使机器学习同时达到高准确度,较少的人工干预和实时学习。和过去
几十年传统的神经网络算法和理论信条相反,ELM理论显示隐层节点很重要但许多种神
经网... 阅读全帖
m***r
发帖数: 359
13
(今天实验一下专为mitbbs排版的机器学习日报,欢迎大家拍砖)
机器学习日报 2015-01-29
@好东西传送门 出品, 过刊见
http://ml.memect.com
订阅:给 [email protected]
/* */ 发封空信, 标题: 订阅机器学习日报
更好看的HTML版
http://ml.memect.com/archive/2015-01-29/short.html
1) 【LDA入门与Java实现】 by @hankcs
关键词:算法, 自然语言处理, Java, 主题模型
【LDA入门与Java实现】 这是一篇面向工程师的LDA入门笔记,并且提供一份开箱即用
Java实现。本文只记录基本概念与原理,并不涉及公式推导。文中的LDA实现核心部分
采用了arbylon的LdaGibbsSampler并力所能及地注解了,在搜狗分类语料库上测试良好
,开源在GitHub上。什么… [1]
[1] http://www.hankcs.com/nlp/lda-java-introduction-and-implementation.html
2) 【Radim... 阅读全帖
m***r
发帖数: 359
14
来自主题: DataSciences版 - 大数据日报 2015年2月楼
机器学习日报 2015-02-19
@好东西传送门 出品, 过刊见
http://ml.memect.com
订阅:给 [email protected]
/* */ 发封空信, 标题: 订阅机器学习日报
更好看的HTML版
http://ml.memect.com/archive/2015-02-19/short.html
1) 【百度Deep Speech讨论会视频】 by @黄浩XJU
关键词:深度学习, Andrew Ng, 行业动态
昨天百度Deep Speech讨论会视频 Andrew Ng ‏ @AndrewYNg Starting right
now! Presentation on Deep Speech breakthrough on deep learning+speech.
Livestream [1]
[1] https://freeflowapp.com/v/2ajfgt
2) 【SearchOnMath:数学搜索引擎】 by @网路冷眼
【SearchOnMath:数学搜索引擎】 [1] SearchOnMath 旨在让学生和研究者... 阅读全帖
D***r
发帖数: 7511
15
你可以看看word2vec的简介https://en.wikipedia.org/wiki/Word2vec
然后在里面找reference
m***r
发帖数: 359
16
来自主题: Programming版 - Python日报 2015年3月楼
Python日报 2015-03-11
@好东西传送门 出品, 过刊见
http://py.memect.com
订阅:给 h*[email protected] 发封空信, 标题: 订阅Python日报
更好看的HTML版
http://py.memect.com/archive/2015-03-11/short.html
1) 【Python下用光线跟踪法画宇宙的黑洞】 by @网路冷眼
关键词:库, 数据科学, SciPy, 代码, 计算
【如何用光线跟踪法画宇宙的黑洞】 [1] 在浩瀚的宇宙里黑洞在狂欢,它们美轮美奂
,充满了无穷魅力。本文讲解了用光线跟踪法绘制黑洞的原理,并用Python的numpy,
scipy库实现了算法。GitHub托管地址: [2] @2gua 难道不想试试用黑洞图做桌面吗?
@伯乐头条 @好东西传送门
[1] http://rantonels.github.io/starless/
[2] https://github.com/rantonels/starless
2) 【6个Python性能优化技巧】 by @SegmentFault
关键词:开发, 博客,... 阅读全帖
g*******u
发帖数: 3948
17
来自主题: Programming版 - encode high cardinality categorical features
binary 应该不适合tree 类型的分类器吧 。素以首先排除
flamewalker 说的后面几个可能可以把?我想的就是根据分布 用直方图。这样就转化
为numerical的了。 吧所有很小的 都轨到一类
因为 5000多种 很多 直方图数值很小 直接用 我担心都接近0 可能会有问题 所以想
小于某个值的都归到 一个数值。
wudong说的word2vec貌似比较高级? 听过没用过。 我可以看看 。 问一下,
word2vec适合这种tree类型的 分类器吗?
thx
B*******c
发帖数: 5056
18
来自主题: Military版 - 汪峰和窦唯谁的音乐造诣高?
看到微博上有人贴了关于汪峰老师歌词的统计数据,里面显示汪峰老师作词有一定常用
词。我想用一些NLP的技术,看看能不能写出来一个“汪峰自动作词机”之类的。
这里是第一步尝试和准备工作。我得到汪峰所有歌曲的歌词,做一些统计分析。
在汪峰老师歌词里,一些词语的搭配很常见,体现了他明显的语言风格。附录是纯粹的
高频词语组合(非NLP分析)得到的高频组合列表。从列表里可以看出,汪峰老师的风
格是朴素直白的语言,最高级的词也就是“彷徨”之类,这样的歌词容易接近大众,俗
称接地气。
根据这个列表,已经可以初步写出一段汪峰老师风格的歌词了,比如从高频50词里随便
挑选组合:
我们没有我的感觉
知道在这就像生命自己
希望这是我哭泣
不知像一生已经孤独的人
无法再见
还是现在因为那么爱你
我擦,这配歌曲拎把吉他就能直接去表白了,有力的击中啊,难怪子怡喜欢呢,你果然
是我的Music King!
与此同时我还做了一些准备工作:按照年份对专辑排序,用时间当作衰变的参数可能更
好的获得汪峰老师近期作词风格;在虾米上找到汪峰老师100首热门歌曲点击排行当作
下一步建立语言模型时候的备用;下一步也可以用word2v... 阅读全帖
d*****u
发帖数: 17243
19
来自主题: Military版 - 人工智能必然racist啊
码公自然秒懂
In [1]: import gensim
In [2]: model = gensim.models.Word2Vec.load_word2vec_format('GoogleNews-
vectors-negative300.bin', binary=True)
In [3]: model.similarity('ape', 'African')
Out[3]: 0.25142862328465004
In [4]: model.similarity('ape', 'Asian')
Out[4]: 0.18625269574220088
In [5]: model.similarity('ape', 'European')
Out[5]: 0.034847314905568472
In [6]: model.similarity('ape', 'monkey')
Out[6]: 0.61702215284369433
d**s
发帖数: 920
20
向大家请教一下, AI方面, 有实际用处的, 最应该学习的基本方法, 算法, 和技
术有哪些 ?
我自己学了back propagation, word2vec, 我觉得这两个是应该
掌握的基本方法。
大家还有什么别的推荐 ?
多谢。

发帖数: 1
21
Jaro-Winkler distance method
s*****l
发帖数: 7106
22
把stopword拿走
然后取所有词的平均值就好了

发帖数: 1
23
如果要判断语意上的相似度 那就用LSTM
如果是词上的相似度 就用我说的办法
d**s
发帖数: 920
24
>> 然后取所有词的平均值就好了
你是说,取平均值 of the vectors of 所有词 ?
这样就是两个vector 比相似 ?

发帖数: 1
25
随便google一下similarity comparison of two sentences
你们这群码农 还不如我这物理千老
s*****l
发帖数: 7106
26
Bag of words 就是这么做的
d**s
发帖数: 920

发帖数: 1
d*****u
发帖数: 17243
29
一般的词向量没有这种对应。这正是词向量的特点,distributed representation。
但是你可以训练出那种结果。
比如你构造一个output vector,第一个维度是大小,第二个维度是气味。。。然后去
train
最后得出的模型就可以把输入的词向量map到你需要的向量
d**s
发帖数: 920
d*k
发帖数: 207
31
来自主题: JobHunting版 - 工业界的机器学习 (转载)
这个不同公司的风格和要求差别太大了。
从你的理解看,还是把machine learning想的太简单了。
选feature是一个需要持续迭代的过程 ,解决一个问题,我的经验是domain knowledge
和feature engineering占到70%以上的工作量。
SVM是一个很强大的分类器,但如果是linear kernel,训练成本并不比logistic
regression高。不用SVM的原因是过于复杂,至少对我来说,弄清所有数学细节太难了
。SVM和神经网络都是如此,work了没问题,不work的话不好调。
“连”SVM都没用?这么说是不合适的,因为logistic regression也是很强大的分类器
,虽然理论简单。用SGD,线性的模型训练成本差别不大。
现在一个崛起的潮流是用简单的线性模型并发训练超大数据集,例如google的word2vec
。复杂模型处理不了这么大的数据量,所以效果秒杀任何复杂算法。我认为搞model是
没多大前途的,因为那么多前人不比你傻多少,都是很常见的问题,能搞出来的早就有
人做了。现在从数学上能做的只可能是边际提升。
另外,如何选择合... 阅读全帖
v***n
发帖数: 5085
32
来自主题: JobHunting版 - 工业界的机器学习 (转载)
现在一个崛起的潮流是用简单的线性模型并发训练超大数据集
= Hadoop?

knowledge
word2vec
s****h
发帖数: 3979
33
说实在的,DL在Text Analysis / NLP方面的科研成果有,但是感觉并不多。
自己试也容易,装个tensorflow就行。
主要进展是:
生成语义树比非DL的方法好很多,和人工平手
机器翻译接近人的水平
知识图谱中的应用
其它的什么word2vec,document summary, sentiment analysis其实应用场景虽然多,
但是没有质的突破
DL目前的主要方向,1是reinforcement learning, 2是unsupervised learning,
最近最火的对抗网络GAN就是
这个前景是100个以上的NLP
M********c
发帖数: 11672
34
来自主题: LeisureTime版 - 妩媚的野兽 (转载)
没看过这个贴吗?
像汪峰老师一样作词,第一步
看到微博上有人贴了关于汪峰老师歌词的统计数据,里面显示汪峰老师作词有一定常用
词。我想用一些NLP的技术,看看能不能写出来一个“汪峰自动作词机”之类的。这里
是第一步尝试和准备工作。我得到汪峰所有歌曲的歌词,做一些统计分析。
在汪峰老师歌词里,一些词语的搭配很常见,体现了他明显的语言风格。附录是纯粹的
高频词语组合(非NLP分析)得到的高频组合列表。从列表里可以看出,汪峰老师的风
格是朴素直白的语言,最高级的词也就是“彷徨”之类,这样的歌词容易接近大众,俗
称接地气。
根据这个列表,已经可以初步写出一段汪峰老师风格的歌词了,比如从高频词里随便挑
选组合:
我们没有我的感觉
知道在这就像生命自己
希望这是我哭泣
不知像一生已经孤独的人
无法再见
还是现在因为那么爱你
我擦,这配歌曲拎把吉他就能直接去表白了,有力的击中啊,难怪子怡喜欢呢,你果然
是我的Music King!
与此同时我还做了一些准备工作:按照年份对专辑排序,用时间当作衰变的参数可能更
好的获得汪峰老师近期作词风格;在虾米上找到汪峰... 阅读全帖
w*p
发帖数: 16484
35
【 以下文字转载自 Military 讨论区 】
发信人: Bluemusic (Bluemusic), 信区: Military
标 题: Re: 汪峰和窦唯谁的音乐造诣高?
发信站: BBS 未名空间站 (Sun Feb 16 02:28:34 2014, 美东)
看到微博上有人贴了关于汪峰老师歌词的统计数据,里面显示汪峰老师作词有一定常用
词。我想用一些NLP的技术,看看能不能写出来一个“汪峰自动作词机”之类的。
这里是第一步尝试和准备工作。我得到汪峰所有歌曲的歌词,做一些统计分析。
在汪峰老师歌词里,一些词语的搭配很常见,体现了他明显的语言风格。附录是纯粹的
高频词语组合(非NLP分析)得到的高频组合列表。从列表里可以看出,汪峰老师的风
格是朴素直白的语言,最高级的词也就是“彷徨”之类,这样的歌词容易接近大众,俗
称接地气。
根据这个列表,已经可以初步写出一段汪峰老师风格的歌词了,比如从高频50词里随便
挑选组合:
我们没有我的感觉
知道在这就像生命自己
希望这是我哭泣
不知像一生已经孤独的人
无法再见
还是现在因为那么爱你
我擦,这配歌曲拎把吉他就能直接去表白了,有力的击中... 阅读全帖
m***r
发帖数: 359
36
来自主题: Programming版 - 好东西传送门周报汇总 2015-03-08
机器学习周报 2015-03-08
http://ml.memect.com/weekly/2015-03-08/
2015-03-08 星期日,完整版 24 条
机器学习中距离和相似性度量方法 @陈晓鸣在硅谷
机器学习ML简史 @数盟社区
Peter Norvig解决编程问题的机器学习 @网路冷眼
欧洲人脑计划改变其治理结构 @金连文
Hopfield Neural Networks为什么没有人提了呢? @西瓜大丸子汤
2015-03-07 星期六,完整版 31 条
52nlp上HMM相关文章索引 @52nlp
TKDE: Tweet分割和在NER上的应用 @AixinSG
音乐文件聚类和可视化 @爱可可-爱生活
Jürgen Schmidhuber在Reddit上的AMA @爱可可-爱生活
学术种子网站AcademicTorrents @阳志平1949
2015-03-06 星期五,完整版 38 条
踹不倒的谷歌大狗是怎样炼成的 @杨静Lillian
DeepDive Open Datasets @爱可可-爱生活
NICAR15上的报告,总结文本可视化 @爱可可-爱生活
张雨石的《... 阅读全帖
l*******m
发帖数: 1096
37
来自主题: Programming版 - 我来科普下深度学习的应用范围吧
深度学习的定义本身就很模糊。word2vec从层数上讲不够,但是被列为DL在NLP的重要
应用
s********k
发帖数: 6180
38
来自主题: Programming版 - word2vec 中skip gram 问题请教
假设我有一个10000 words的输入,输入是一个10000维的vectpr。那么输出
输出是C个multinominal的vector,其中每个vector是一个10000维的multinominal?C
的个数就是和输入相近的context words的个数?
s********k
发帖数: 6180
39
来自主题: Programming版 - word2vec 中skip gram 问题请教
看negative sampling不是太懂,哪位大侠解释下。
s********k
发帖数: 6180
40
来自主题: Programming版 - CNN做NLP工程多吗?
你意思是不分词直接用word2vec?那也要看应用场景啊,我看看NLP很多研究在训练测
试集上做,感觉落后时代发展,每天这么多新词新语态,还不像图片就是图片,不会有
啥变化
s********k
发帖数: 6180
41
time series理解成序列,word2vec这种embedding就是把句子当成词的序列来做,你的
问题可能也能这样做,求每个entity的embedding
s********k
发帖数: 6180
42
来自主题: Programming版 - 问一个NN训练模型输入问题
比方说我有一个sentence 20个words,然后做Word2vec 每个word到300 dimension空间
,如果做NN得训练输入时候,是concatenate成一个1*6000的vector,还是输入20*300的
matrix合适
s********k
发帖数: 6180
43
来自主题: Programming版 - Machine Learning 问题
按照你的有限信息,要是我来做,会把关键字和文件都在做处理(比如简单的word2vec
之后,或者文件的metadata feature提取),投影到一个embedding空间,然后算相似
度。
w*****h
发帖数: 423
44
来自主题: Programming版 - 有没有做sentiment analysis的,求思路
在公司做sentiment analysis,
现在的做法是这样
首先在大概几万句sentences中训练出word2vec model
然后将大概4000个labels的sentences转成vector, 80%作为training, 20%作为testing
, 用neural net作为classifier
类别三类,positive, neutral, negative
之前是公司的一个印度人在负责,达到63% accuracy
我接手之后调参 + 做一些ensemble提高到68% leader似乎不满足,觉得可以到70%甚
至80%
现在我想到思路有几个
1. 做semi-supervise, 没有label的数据有的是
2. unsupervise learning, 比如用autoencoder来initialize neural net
3. GBM or Random forest? 觉得这几个不可能超过我现在这个了
来这里希望得到一些启发,谢啦!
w***g
发帖数: 5958
45
来自主题: Programming版 - 有没有做sentiment analysis的,求思路
你想到的思路都没有问题。但是都太incremental不够糙快猛。
我自己觉得,你的bottleneck是在word2vec和sentence to vector
这个大框架上。不知道你具体sentence to vector是怎么做的,
但是如果是变成固定维数的vector,那就比较肯定是一个可以
有所突破的bottleneck。你可以试下基于CNN或者RNN的model。
你在这里找找看有没有能用的代码:
https://nlp.stanford.edu/sentiment/
不过在这之前,我建议试下xgboost。固定维度的数据分类,标准
做法就是xgboost。注意树的深度不要太高,2,3,4试一下就差不多了。
我觉得这个能帮你从68%提高到70%。
semisupervised learning实战非常risky,轻易不要浪费时间在上面。
上CNN/RNN,我估计做好了能到75%以上。80%很可能超过了数据
本身的难度。
还有,你让business重新tag,如果差异可以量化,这个是一个非常
好的指标。如果让人做都有多少多少差异,就别指望机器能做的更好了。

testing
T*******x
发帖数: 8565
46
来自主题: Programming版 - 有没有做sentiment analysis的,求思路
请教xgboost和neural network比有没有任何优势?

:你想到的思路都没有问题。但是都太incremental不够糙快猛。
:我自己觉得,你的bottleneck是在word2vec和sentence to vector
s********k
发帖数: 6180
47
来自主题: Programming版 - 有没有做sentiment analysis的,求思路
训练量看起来可能有点少,除非很专业领域,直接试一下glove或者Word2vec的库看看
行不行

testing
m*****e
发帖数: 47
48
来自主题: Programming版 - 有没有做sentiment analysis的,求思路
"首先在大概几万句sentences中训练出word2vec model"
"然后将大概4000个labels的sentences转成vector"
1) My guess is the size of the data not large enough. What's the training
error? If training error < test error and training error is closer to human
error, it is a high variance problem. You can add regularization. But it
probably means the amount of data is not big enough. You can try transfer
learning by using GloVe for example.
2) I would also check the quality of the embeddings. Use a few examples and
see how ma... 阅读全帖
1 (共1页)