s******g 发帖数: 3841 | |
s******g 发帖数: 3841 | |
p********o 发帖数: 8012 | 3 引入神马郭敬明自然会导致韩寒父子的区分不高。另外俩个人对pc贡献很大。
这个工作效果不行,应该改进
【在 s******g 的大作中提到】 : PCA=主成分分析,基本的统计学工具 : http://www.newsmth.net/att.php?n.582.18303466.310.jpg
|
W*******3 发帖数: 1204 | 4 这个pattern 方向是对的。他人作品还要多一点更有说服力。 |
s******g 发帖数: 3841 | 5 那个人其实还偷偷打了郭敬明一棒
说他自己写的文章差距都很大 |
p********o 发帖数: 8012 | 6 如果最后都无法分离韩寒父子,那就很有可能这俩人中某一个是代笔。
【在 W*******3 的大作中提到】 : 这个pattern 方向是对的。他人作品还要多一点更有说服力。
|
y***i 发帖数: 11639 | 7 还以为这个郭敬明是那个“做鬼也幸福”,结果一搜搜出让我汗毛直树的照片。真是
out了。
【在 s******g 的大作中提到】 : PCA=主成分分析,基本的统计学工具 : http://www.newsmth.net/att.php?n.582.18303466.310.jpg
|
x******a 发帖数: 6336 | 8 没有把常用字去掉?
前两天一个朋友被ebay面试问到了这个问题. |
T**********e 发帖数: 29576 | 9 地域是否有关?应该找几个上海作家,最好出身于城乡接合部的来当reference。 |
w*********e 发帖数: 6093 | 10 统计工具要用得有意义,采样和对照很讲究。
比如把方的文字分成在美国时候的,回国博客上的,发报章上的比较一下,会很有趣 |
|
|
s*****l 发帖数: 7106 | 11 谁有闲 test mining 一下
这个太小儿科了 |
f*********n 发帖数: 1293 | |
w****e 发帖数: 1883 | 13 这个不好说,如果韩寒的写作是老爸教的,也说的过去。 |
s*******n 发帖数: 10426 | 14 这个缺对照组,应该引入父子组合做control,比如建安七子里的曹操、曹植、曹丕,
还有三苏:苏轼、苏辙、苏洵。
如果这两个父子组合里,父子之间也区分不开,那说明韩寒爸可能没有代笔。
如果这个两个父子组合里,父子之间区分的很好,而韩寒父子区分不开,那说明韩寒爸
很可能代笔了。
【在 s******g 的大作中提到】 : PCA=主成分分析,基本的统计学工具 : http://www.newsmth.net/att.php?n.582.18303466.310.jpg
|
f*********g 发帖数: 1637 | 15 这正是专业的分析方向。事情到这个地步,应当启用专业分析,姑且称“文谱分析“。 |