n*********2 发帖数: 357 | 1 写了一个小的基于TensowFlow的程序, 用于处理文本文件。用于训练的文本文件有720
个, 这些文本文件有大有小, 每个平均大概有32K字节,4800个词(words; 这个是去
除了stop words 后的数字)。
然后训练和测试了一下, 发现accuracy 很低, 只有1%。 试了一下模型的各种参数也
不能提高 accuracy。这个一般是什么问题? 数据量不够?
多谢。 |
l*******m 发帖数: 1096 | 2 试试bert transform learning
:写了一个小的基于TensowFlow的程序, 用于处理文本文件。用于训练的文本文件有
720个, 这些文本文件有大有小, 每个平均大概有32K字节,4800个词(words; 这个
是去除了stop words 后的数字)。
: |
o*******p 发帖数: 27 | 3 Target distribution怎么样?建议先来个baseline:WC + Logistical Regression,
看看accuracy如何。
720
【在 n*********2 的大作中提到】 : 写了一个小的基于TensowFlow的程序, 用于处理文本文件。用于训练的文本文件有720 : 个, 这些文本文件有大有小, 每个平均大概有32K字节,4800个词(words; 这个是去 : 除了stop words 后的数字)。 : 然后训练和测试了一下, 发现accuracy 很低, 只有1%。 试了一下模型的各种参数也 : 不能提高 accuracy。这个一般是什么问题? 数据量不够? : 多谢。
|
h*i 发帖数: 3446 | 4 什么文本?自然语言的话,先做embedding再训练,保证训练效果有大幅度的提高。
当然了,你这个几百个数据量是小了点,怎么得整个几千个吧。试试embedding再说吧。
不用谢,这些都是常识。
720
【在 n*********2 的大作中提到】 : 写了一个小的基于TensowFlow的程序, 用于处理文本文件。用于训练的文本文件有720 : 个, 这些文本文件有大有小, 每个平均大概有32K字节,4800个词(words; 这个是去 : 除了stop words 后的数字)。 : 然后训练和测试了一下, 发现accuracy 很低, 只有1%。 试了一下模型的各种参数也 : 不能提高 accuracy。这个一般是什么问题? 数据量不够? : 多谢。
|