关于word2vec的讨论汇总 - 话题女王

全部话题 - 话题: word2vec

d**s
发帖数: 920

来自主题: Military版 - 请教，用word2vec，怎么判断两个句子的相似度？

多谢，我搜了一下，又看了看wiki关于Jaro-Winkler distance method的介绍。
好像 Jaro-Winkler distance不是直接用Word2Vec产生的vector.
能給一个Jaro-Winkler distance直接用Word2Vec的reference 吗？
多谢。

d**s
发帖数: 920

来自主题: Military版 - 请教，用word2vec，怎么判断两个句子的相似度？

请教，用word2vec，怎么判断两个句子的相似度？
把每个句子中的每个词的vector 加起来，再做dot product,
好像不make sense.
多谢大家。

d**s
发帖数: 920

来自主题: Military版 - 请教，用word2vec，怎么判断两个句子的相似度？

LSTM 可以和Word2Vec 一起用吧？

d*****u
发帖数: 17243

来自主题: Military版 - 请教，用word2vec，怎么判断两个句子的相似度？

word2vec只是把词map到向量而已，是句子的input。
至于句子的处理有很多方法。现在最常用的是用Transformer。
前两年最常用的是LSTM。
更简单的方法就是把词向量取平均值之类的。

j****n
发帖数: 464

来自主题: Military版 - 请教，用word2vec，怎么判断两个句子的相似度？

这种 word2vec 弄句子相似性的东西，实际效果都很糟糕。
当然发文章没问题

d**s
发帖数: 920

来自主题: Military版 - 请教，word2vec中，如何知道每个维度代表什么意思？

请教，word2vec中，如何知道每个维度代表什么意思？
比如说，怎么知道哪个维度是代表：
- 大小
- 味道
- 或 sentiment ?
有什么办法能发现代表某个特性的维度呢？
多谢

m***r
发帖数: 359

来自主题: DataSciences版 - 大数据日报 2015年2月楼

机器学习日报 2015-02-20
@好东西传送门出品, 过刊见
http://ml.memect.com
订阅：给 [email protected]
/* */ 发封空信，标题: 订阅机器学习日报
更好看的HTML版
http://ml.memect.com/archive/2015-02-20/short.html
1) 【Wiki2Vec从维基百科Dumps生成Word2Vec向量】 by @爱可可-爱生活
关键词：自然语言处理
[开源] Wiki2Vec —— 从维基百科Dumps生成Word2Vec向量的工具，包括词向量和主题
向量
长微博图：http://ww2.sinaimg.cn/large/5396ee05jw1epfedr29wsj20l42p21h4.jpg
2) 【Netflix开源大数据异常检测模块RAD】 by @爱可可-爱生活
关键词：算法, Java, PCA, 代码, 可视化, 异常检测
[开源]《RAD - Outlier Detection on Big Data》 [1] Netflix开源大数据异常检测
模块RAD(Robus... 阅读全帖

m***r
发帖数: 359

来自主题: DataSciences版 - 机器学习日报

机器学习日报 2015-01-30
@好东西传送门出品, 过刊见
http://ml.memect.com
订阅：给 [email protected]
/* */ 发封空信，标题: 订阅机器学习日报
更好看的HTML版
http://ml.memect.com/archive/2015-01-30/short.html
1) 【全新ArnetMiner上线】 by @ArnetMiner
关键词：学术搜索
全新ArnetMiner上线，最新代号AMiner，从学术网络中挖掘深度知识、面向科技大数据
的挖掘。收集近4000万作者信息、8000万论文信息、1亿多引用关系、链接近8百万知识
点；支持专家搜索、机构排名、科研成果评价、会议排名。期待您的关注和建议【系统
持续改进中】。 @唐杰THU @好东西传送门
2) 【MinHash】 by @赵印_Eason
关键词：算法, 聚类
《MinHash》 MinHash是一种概率意义的聚类算法，快速实现，有随机因素。在推荐场
景： It assigns a pair of users to the same cluster... 阅读全帖

m***r
发帖数: 359

来自主题: DataSciences版 - 机器学习日报 2015年3月楼

机器学习日报 2015-03-02
@好东西传送门出品, 过刊见
http://ml.memect.com
订阅：给 [email protected]
/* */ 发封空信，标题: 订阅机器学习日报
更好看的HTML版
http://ml.memect.com/archive/2015-03-02/short.html
1) 【VALSE视觉与学习青年学者研讨会视频】 by @视觉机器人
关键词：会议活动, 视觉, 活动, 教育网站, 李学龙, 潘纲, 山世光, 颜水成
VALSE是山世光教授（博士、研究员、博导）等发起的一项研讨会，主要目的是为计算
机视觉、图像处理、模式识别与机器学习研究领域内的中国青年学者（以70后和80后为
主）提供一个深层次学术交流的舞台 [1] ，历次QQ群活动信息： [2] ，技术分享视频
列表： [3]
[1] http://vipl.ict.ac.cn/valse/
[2] http://valse.mmcheng.net
[3] http://vision.ouc.edu.cn/valse/
2) 【Why word2vec wor... 阅读全帖

m***r
发帖数: 359

来自主题: DataSciences版 - 机器学习日报 2015年3月楼

m***r
发帖数: 359

来自主题: DataSciences版 - 机器学习日报 2015年3月楼

机器学习日报 2015-03-12
@好东西传送门出品, 过刊见
http://ml.memect.com
订阅：给 [email protected]
/* */ 发封空信，标题: 订阅机器学习日报
更好看的HTML版
http://ml.memect.com/archive/2015-03-12/short.html
1) 【中英文维基百科语料上的Word2Vec实验】 by @52nlp
关键词：自然语言处理, 主题模型
中英文维基百科语料上的Word2Vec实验: 最近利用gensim word2vec模块在中英文维基
百科语料上分别测试了一下word2vec，记录一下实验的过程，欢迎观摩 [1]
[1] http://www.52nlp.cn/?p=8198
2) 【extreme learning machines】 by @黄广斌-ELM
关键词：算法, 资源, PDF, 教育网站, 神经网络
ELM的主要目的是使机器学习同时达到高准确度，较少的人工干预和实时学习。和过去
几十年传统的神经网络算法和理论信条相反，ELM理论显示隐层节点很重要但许多种神
经网... 阅读全帖

m***r
发帖数: 359

来自主题: DataSciences版 - 机器学习日报 2015年3月楼

m***r
发帖数: 359

来自主题: DataSciences版 - 机器学习日报 2015-01-29 LDA入门与Java实现

(今天实验一下专为mitbbs排版的机器学习日报，欢迎大家拍砖)
机器学习日报 2015-01-29
@好东西传送门出品, 过刊见
http://ml.memect.com
订阅：给 [email protected]
/* */ 发封空信，标题: 订阅机器学习日报
更好看的HTML版
http://ml.memect.com/archive/2015-01-29/short.html
1) 【LDA入门与Java实现】 by @hankcs
关键词：算法, 自然语言处理, Java, 主题模型
【LDA入门与Java实现】这是一篇面向工程师的LDA入门笔记，并且提供一份开箱即用
Java实现。本文只记录基本概念与原理，并不涉及公式推导。文中的LDA实现核心部分
采用了arbylon的LdaGibbsSampler并力所能及地注解了，在搜狗分类语料库上测试良好
，开源在GitHub上。什么… [1]
[1] http://www.hankcs.com/nlp/lda-java-introduction-and-implementation.html
2) 【Radim... 阅读全帖

m***r
发帖数: 359

来自主题: DataSciences版 - 大数据日报 2015年2月楼

机器学习日报 2015-02-19
@好东西传送门出品, 过刊见
http://ml.memect.com
订阅：给 [email protected]
/* */ 发封空信，标题: 订阅机器学习日报
更好看的HTML版
http://ml.memect.com/archive/2015-02-19/short.html
1) 【百度Deep Speech讨论会视频】 by @黄浩XJU
关键词：深度学习, Andrew Ng, 行业动态
昨天百度Deep Speech讨论会视频 Andrew Ng ‏ @AndrewYNg Starting right
now! Presentation on Deep Speech breakthrough on deep learning+speech.
Livestream [1]
[1] https://freeflowapp.com/v/2ajfgt
2) 【SearchOnMath：数学搜索引擎】 by @网路冷眼
【SearchOnMath：数学搜索引擎】 [1] SearchOnMath 旨在让学生和研究者... 阅读全帖

D***r
发帖数: 7511

来自主题: Military版 - 等赶上10岁小朋友的智商再吹也不迟

你可以看看word2vec的简介https://en.wikipedia.org/wiki/Word2vec
然后在里面找reference

m***r
发帖数: 359

来自主题: Programming版 - Python日报 2015年3月楼

Python日报 2015-03-11
@好东西传送门出品, 过刊见
http://py.memect.com
订阅：给 h*[email protected] 发封空信，标题: 订阅Python日报
更好看的HTML版
http://py.memect.com/archive/2015-03-11/short.html
1) 【Python下用光线跟踪法画宇宙的黑洞】 by @网路冷眼
关键词：库, 数据科学, SciPy, 代码, 计算
【如何用光线跟踪法画宇宙的黑洞】 [1] 在浩瀚的宇宙里黑洞在狂欢，它们美轮美奂
，充满了无穷魅力。本文讲解了用光线跟踪法绘制黑洞的原理，并用Python的numpy,
scipy库实现了算法。GitHub托管地址： [2] @2gua 难道不想试试用黑洞图做桌面吗？
@伯乐头条 @好东西传送门
[1] http://rantonels.github.io/starless/
[2] https://github.com/rantonels/starless
2) 【6个Python性能优化技巧】 by @SegmentFault
关键词：开发, 博客,... 阅读全帖

g*******u
发帖数: 3948

来自主题: Programming版 - encode high cardinality categorical features

binary 应该不适合tree 类型的分类器吧。素以首先排除
flamewalker 说的后面几个可能可以把？我想的就是根据分布用直方图。这样就转化
为numerical的了。吧所有很小的都轨到一类
因为 5000多种很多直方图数值很小直接用我担心都接近0 可能会有问题所以想
小于某个值的都归到一个数值。
wudong说的word2vec貌似比较高级？听过没用过。我可以看看。问一下，
word2vec适合这种tree类型的分类器吗？
thx

B*******c
发帖数: 5056

来自主题: Military版 - 汪峰和窦唯谁的音乐造诣高？

看到微博上有人贴了关于汪峰老师歌词的统计数据，里面显示汪峰老师作词有一定常用
词。我想用一些NLP的技术，看看能不能写出来一个“汪峰自动作词机”之类的。
这里是第一步尝试和准备工作。我得到汪峰所有歌曲的歌词，做一些统计分析。
在汪峰老师歌词里，一些词语的搭配很常见，体现了他明显的语言风格。附录是纯粹的
高频词语组合（非NLP分析）得到的高频组合列表。从列表里可以看出，汪峰老师的风
格是朴素直白的语言，最高级的词也就是“彷徨”之类，这样的歌词容易接近大众，俗
称接地气。
根据这个列表，已经可以初步写出一段汪峰老师风格的歌词了，比如从高频50词里随便
挑选组合：
我们没有我的感觉
知道在这就像生命自己
希望这是我哭泣
不知像一生已经孤独的人
无法再见
还是现在因为那么爱你
我擦，这配歌曲拎把吉他就能直接去表白了，有力的击中啊，难怪子怡喜欢呢，你果然
是我的Music King！
与此同时我还做了一些准备工作：按照年份对专辑排序，用时间当作衰变的参数可能更
好的获得汪峰老师近期作词风格；在虾米上找到汪峰老师100首热门歌曲点击排行当作
下一步建立语言模型时候的备用；下一步也可以用word2v... 阅读全帖

d*****u
发帖数: 17243

来自主题: Military版 - 人工智能必然racist啊

码公自然秒懂
In [1]: import gensim
In [2]: model = gensim.models.Word2Vec.load_word2vec_format('GoogleNews-
vectors-negative300.bin', binary=True)
In [3]: model.similarity('ape', 'African')
Out[3]: 0.25142862328465004
In [4]: model.similarity('ape', 'Asian')
Out[4]: 0.18625269574220088
In [5]: model.similarity('ape', 'European')
Out[5]: 0.034847314905568472
In [6]: model.similarity('ape', 'monkey')
Out[6]: 0.61702215284369433

d**s
发帖数: 920

来自主题: Military版 - 请教， AI方面，最应该学习的基本方法和技术有哪些？

向大家请教一下， AI方面，有实际用处的，最应该学习的基本方法，算法，和技
术有哪些？
我自己学了back propagation, word2vec, 我觉得这两个是应该
掌握的基本方法。
大家还有什么别的推荐？
多谢。

发帖数: 1

来自主题: Military版 - 请教，用word2vec，怎么判断两个句子的相似度？

Jaro-Winkler distance method

s*****l
发帖数: 7106

来自主题: Military版 - 请教，用word2vec，怎么判断两个句子的相似度？

把stopword拿走
然后取所有词的平均值就好了

发帖数: 1

来自主题: Military版 - 请教，用word2vec，怎么判断两个句子的相似度？

如果要判断语意上的相似度那就用LSTM
如果是词上的相似度就用我说的办法

d**s
发帖数: 920

来自主题: Military版 - 请教，用word2vec，怎么判断两个句子的相似度？

>> 然后取所有词的平均值就好了
你是说，取平均值 of the vectors of 所有词 ?
这样就是两个vector 比相似？

发帖数: 1

来自主题: Military版 - 请教，用word2vec，怎么判断两个句子的相似度？

随便google一下similarity comparison of two sentences
你们这群码农还不如我这物理千老

s*****l
发帖数: 7106

来自主题: Military版 - 请教，用word2vec，怎么判断两个句子的相似度？

Bag of words 就是这么做的

d**s
发帖数: 920

来自主题: Military版 - 请教，用word2vec，怎么判断两个句子的相似度？

多谢。

发帖数: 1

来自主题: Military版 - 请教，word2vec中，如何知道每个维度代表什么意思？

多少钱？

d*****u
发帖数: 17243

来自主题: Military版 - 请教，word2vec中，如何知道每个维度代表什么意思？

一般的词向量没有这种对应。这正是词向量的特点，distributed representation。
但是你可以训练出那种结果。
比如你构造一个output vector，第一个维度是大小，第二个维度是气味。。。然后去
train
最后得出的模型就可以把输入的词向量map到你需要的向量

d**s
发帖数: 920

来自主题: Military版 - 请教，word2vec中，如何知道每个维度代表什么意思？

多谢。

d*k
发帖数: 207

来自主题: JobHunting版 - 工业界的机器学习 (转载)

这个不同公司的风格和要求差别太大了。
从你的理解看，还是把machine learning想的太简单了。
选feature是一个需要持续迭代的过程，解决一个问题，我的经验是domain knowledge
和feature engineering占到70%以上的工作量。
SVM是一个很强大的分类器，但如果是linear kernel，训练成本并不比logistic
regression高。不用SVM的原因是过于复杂，至少对我来说，弄清所有数学细节太难了
。SVM和神经网络都是如此，work了没问题，不work的话不好调。
“连”SVM都没用？这么说是不合适的，因为logistic regression也是很强大的分类器
，虽然理论简单。用SGD，线性的模型训练成本差别不大。
现在一个崛起的潮流是用简单的线性模型并发训练超大数据集，例如google的word2vec
。复杂模型处理不了这么大的数据量，所以效果秒杀任何复杂算法。我认为搞model是
没多大前途的，因为那么多前人不比你傻多少，都是很常见的问题，能搞出来的早就有
人做了。现在从数学上能做的只可能是边际提升。
另外，如何选择合... 阅读全帖

v***n
发帖数: 5085

来自主题: JobHunting版 - 工业界的机器学习 (转载)

现在一个崛起的潮流是用简单的线性模型并发训练超大数据集
= Hadoop?

knowledge
word2vec

s****h
发帖数: 3979

来自主题: Stock版 - 深度学习的前景很宽阔，门外汉看不懂也很正常

说实在的，DL在Text Analysis / NLP方面的科研成果有，但是感觉并不多。
自己试也容易，装个tensorflow就行。
主要进展是：
生成语义树比非DL的方法好很多，和人工平手
机器翻译接近人的水平
知识图谱中的应用
其它的什么word2vec，document summary, sentiment analysis其实应用场景虽然多，
但是没有质的突破
DL目前的主要方向，1是reinforcement learning, 2是unsupervised learning,
最近最火的对抗网络GAN就是
这个前景是100个以上的NLP

M********c
发帖数: 11672

来自主题: LeisureTime版 - 妩媚的野兽 (转载)

没看过这个贴吗？
像汪峰老师一样作词，第一步
看到微博上有人贴了关于汪峰老师歌词的统计数据，里面显示汪峰老师作词有一定常用
词。我想用一些NLP的技术，看看能不能写出来一个“汪峰自动作词机”之类的。这里
是第一步尝试和准备工作。我得到汪峰所有歌曲的歌词，做一些统计分析。
在汪峰老师歌词里，一些词语的搭配很常见，体现了他明显的语言风格。附录是纯粹的
高频词语组合（非NLP分析）得到的高频组合列表。从列表里可以看出，汪峰老师的风
格是朴素直白的语言，最高级的词也就是“彷徨”之类，这样的歌词容易接近大众，俗
称接地气。
根据这个列表，已经可以初步写出一段汪峰老师风格的歌词了，比如从高频词里随便挑
选组合：
我们没有我的感觉
知道在这就像生命自己
希望这是我哭泣
不知像一生已经孤独的人
无法再见
还是现在因为那么爱你
我擦，这配歌曲拎把吉他就能直接去表白了，有力的击中啊，难怪子怡喜欢呢，你果然
是我的Music King！
与此同时我还做了一些准备工作：按照年份对专辑排序，用时间当作衰变的参数可能更
好的获得汪峰老师近期作词风格；在虾米上找到汪峰... 阅读全帖

w*p
发帖数: 16484

来自主题: Joke版 - Re: 汪峰和窦唯谁的音乐造诣高？ (转载)

【以下文字转载自 Military 讨论区】
发信人: Bluemusic (Bluemusic), 信区: Military
标题: Re: 汪峰和窦唯谁的音乐造诣高？
发信站: BBS 未名空间站 (Sun Feb 16 02:28:34 2014, 美东)
看到微博上有人贴了关于汪峰老师歌词的统计数据，里面显示汪峰老师作词有一定常用
词。我想用一些NLP的技术，看看能不能写出来一个“汪峰自动作词机”之类的。
这里是第一步尝试和准备工作。我得到汪峰所有歌曲的歌词，做一些统计分析。
在汪峰老师歌词里，一些词语的搭配很常见，体现了他明显的语言风格。附录是纯粹的
高频词语组合（非NLP分析）得到的高频组合列表。从列表里可以看出，汪峰老师的风
格是朴素直白的语言，最高级的词也就是“彷徨”之类，这样的歌词容易接近大众，俗
称接地气。
根据这个列表，已经可以初步写出一段汪峰老师风格的歌词了，比如从高频50词里随便
挑选组合：
我们没有我的感觉
知道在这就像生命自己
希望这是我哭泣
不知像一生已经孤独的人
无法再见
还是现在因为那么爱你
我擦，这配歌曲拎把吉他就能直接去表白了，有力的击中... 阅读全帖

m***r
发帖数: 359

来自主题: Programming版 - 好东西传送门周报汇总 2015-03-08

机器学习周报 2015-03-08
http://ml.memect.com/weekly/2015-03-08/
2015-03-08 星期日，完整版 24 条
机器学习中距离和相似性度量方法 @陈晓鸣在硅谷
机器学习ML简史 @数盟社区
Peter Norvig解决编程问题的机器学习 @网路冷眼
欧洲人脑计划改变其治理结构 @金连文
Hopfield Neural Networks为什么没有人提了呢？ @西瓜大丸子汤
2015-03-07 星期六，完整版 31 条
52nlp上HMM相关文章索引 @52nlp
TKDE： Tweet分割和在NER上的应用 @AixinSG
音乐文件聚类和可视化 @爱可可-爱生活
Jürgen Schmidhuber在Reddit上的AMA @爱可可-爱生活
学术种子网站AcademicTorrents @阳志平1949
2015-03-06 星期五，完整版 38 条
踹不倒的谷歌大狗是怎样炼成的 @杨静Lillian
DeepDive Open Datasets @爱可可-爱生活
NICAR15上的报告，总结文本可视化 @爱可可-爱生活
张雨石的《... 阅读全帖

l*******m
发帖数: 1096

来自主题: Programming版 - 我来科普下深度学习的应用范围吧

深度学习的定义本身就很模糊。word2vec从层数上讲不够，但是被列为DL在NLP的重要
应用

s********k
发帖数: 6180

来自主题: Programming版 - word2vec 中skip gram 问题请教

假设我有一个10000 words的输入，输入是一个10000维的vectpr。那么输出
输出是C个multinominal的vector，其中每个vector是一个10000维的multinominal？C
的个数就是和输入相近的context words的个数？

s********k
发帖数: 6180

来自主题: Programming版 - word2vec 中skip gram 问题请教

看negative sampling不是太懂，哪位大侠解释下。

s********k
发帖数: 6180

来自主题: Programming版 - CNN做NLP工程多吗？

你意思是不分词直接用word2vec？那也要看应用场景啊，我看看NLP很多研究在训练测
试集上做，感觉落后时代发展，每天这么多新词新语态，还不像图片就是图片，不会有
啥变化

s********k
发帖数: 6180

来自主题: Programming版 - ｃｎｎ大牛们，这种特征如何提取呢？

time series理解成序列，word2vec这种embedding就是把句子当成词的序列来做，你的
问题可能也能这样做，求每个entity的embedding

s********k
发帖数: 6180

来自主题: Programming版 - 问一个NN训练模型输入问题

比方说我有一个sentence 20个words，然后做Word2vec 每个word到300 dimension空间
,如果做NN得训练输入时候，是concatenate成一个1*6000的vector，还是输入20*300的
matrix合适

s********k
发帖数: 6180

来自主题: Programming版 - Machine Learning 问题

按照你的有限信息，要是我来做，会把关键字和文件都在做处理（比如简单的word2vec
之后，或者文件的metadata feature提取），投影到一个embedding空间，然后算相似
度。

w*****h
发帖数: 423

来自主题: Programming版 - 有没有做sentiment analysis的，求思路

在公司做sentiment analysis，
现在的做法是这样
首先在大概几万句sentences中训练出word2vec model
然后将大概4000个labels的sentences转成vector, 80%作为training, 20%作为testing
，用neural net作为classifier
类别三类，positive, neutral, negative
之前是公司的一个印度人在负责，达到63% accuracy
我接手之后调参 + 做一些ensemble提高到68% leader似乎不满足，觉得可以到70%甚
至80%
现在我想到思路有几个
1. 做semi-supervise, 没有label的数据有的是
2. unsupervise learning，比如用autoencoder来initialize neural net
3. GBM or Random forest? 觉得这几个不可能超过我现在这个了
来这里希望得到一些启发，谢啦！

w***g
发帖数: 5958

来自主题: Programming版 - 有没有做sentiment analysis的，求思路

你想到的思路都没有问题。但是都太incremental不够糙快猛。
我自己觉得，你的bottleneck是在word2vec和sentence to vector
这个大框架上。不知道你具体sentence to vector是怎么做的，
但是如果是变成固定维数的vector，那就比较肯定是一个可以
有所突破的bottleneck。你可以试下基于CNN或者RNN的model。
你在这里找找看有没有能用的代码：
https://nlp.stanford.edu/sentiment/
不过在这之前，我建议试下xgboost。固定维度的数据分类，标准
做法就是xgboost。注意树的深度不要太高，2,3,4试一下就差不多了。
我觉得这个能帮你从68%提高到70%。
semisupervised learning实战非常risky，轻易不要浪费时间在上面。
上CNN/RNN，我估计做好了能到75%以上。80%很可能超过了数据
本身的难度。
还有，你让business重新tag，如果差异可以量化，这个是一个非常
好的指标。如果让人做都有多少多少差异，就别指望机器能做的更好了。

testing

T*******x
发帖数: 8565

来自主题: Programming版 - 有没有做sentiment analysis的，求思路

请教xgboost和neural network比有没有任何优势？

：你想到的思路都没有问题。但是都太incremental不够糙快猛。
：我自己觉得，你的bottleneck是在word2vec和sentence to vector

s********k
发帖数: 6180

来自主题: Programming版 - 有没有做sentiment analysis的，求思路

训练量看起来可能有点少，除非很专业领域，直接试一下glove或者Word2vec的库看看
行不行

testing

m*****e
发帖数: 47

来自主题: Programming版 - 有没有做sentiment analysis的，求思路

"首先在大概几万句sentences中训练出word2vec model"
"然后将大概4000个labels的sentences转成vector"
1) My guess is the size of the data not large enough. What's the training
error? If training error < test error and training error is closer to human
error, it is a high variance problem. You can add regularization. But it
probably means the amount of data is not big enough. You can try transfer
learning by using GloVe for example.
2) I would also check the quality of the embeddings. Use a few examples and
see how ma... 阅读全帖

#	版面	帖数(主题数)
-	全站	4871 (796)
1	Military	3777 (569)
2	Stock	341 (51)
3	Joke	117 (17)
4	History	116 (3)
5	Automobile	100 (9)
6	USANews	55 (9)
7	Midlife	45 (1)
8	Headline	41 (41)
9	Dreamer	33 (13)
10	FleaMarket	32 (20)
11	Living	30 (7)

topics

未名新帖统计// 7月16日

历史上的今天