m**********g 发帖数: 146 | 1 在外面点了外卖,饭后比较无聊,码点字娱乐一下
粗略直观naive地看,但凡每个帖子基本上有三个属性:回帖数A,浏览书B,和页数C(
这个椰树有点搞,因为你可以设置每页的铁树,所以有点人为操作的因素)。
粗略直观naive地看,最起码有两种帖子,一个是“围观帖”,另一个是“学术帖”。
前者大家捧着胳膊笑而不语看热闹,后者“学术性“太强,没什么人围观,倒是几个人
形成了一个精英圈子在哪儿积极外外,争个没休很过瘾。
上面是定性地来讲。在咱这硅谷高科技,怎么也得上升到定量啊。所以,这里给一个
naive得帖子类型定义。拿回铁树A/浏览书B/页数C, 得到的结果值很大则为“围观帖”
,否则是“学术帖”。不大不小的大家看着办。之所以考虑页数,大家想想啊,这个有
影响地。如果页数太多,可能会吸引大家奠基,但是影响大家看帖子的认真程度。太少
呢blah blah blah。应该有更好的方法来model这种影响。既然这个是naive得公式,能
用就行了。
当然了,下一步大家有兴趣地可以考虑更多地属性,譬如性别啊,区域啊,或者给出参
数啊什么地来给属性权值,或者给出经验值来界定帖子类型,或者让帖子鉴定专家来标
识给出几类帖子,机器学习专家们拿来train一个复杂但是很精确同时适用性又很广的
模型,等等等等。更甚者,也可以给个temporal模型,帖子性质随着时间会变得嘛,在
考虑帖子被删除,修改,作者被取消发铁权利什么的,shit,江湖太复杂了。
扯远了,下面是两个例子,随便抓得,与作者和本人对帖子讨论的观点无关。
1)也谈加州法案和鲨鱼(1.1k)
http://www.mitbbs.com/article_t/SanFrancisco/33612767.html
6282/130/7=6
类型:“学术帖”
2)大家的火气都很大,看来湾区生活真的很艰辛(1.8k)
http://www.mitbbs.com/article_t/SanFrancisco/33614199.html
16644/26/2=320
类型:“围观帖”
preliminary study, 等拿到种子funding后,做深入研究,可以推广到social media上
具有广泛的应用前景 ... | a*t 发帖数: 1309 | 2 学术铁,鉴定完毕
【在 m**********g 的大作中提到】 : 在外面点了外卖,饭后比较无聊,码点字娱乐一下 : 粗略直观naive地看,但凡每个帖子基本上有三个属性:回帖数A,浏览书B,和页数C( : 这个椰树有点搞,因为你可以设置每页的铁树,所以有点人为操作的因素)。 : 粗略直观naive地看,最起码有两种帖子,一个是“围观帖”,另一个是“学术帖”。 : 前者大家捧着胳膊笑而不语看热闹,后者“学术性“太强,没什么人围观,倒是几个人 : 形成了一个精英圈子在哪儿积极外外,争个没休很过瘾。 : 上面是定性地来讲。在咱这硅谷高科技,怎么也得上升到定量啊。所以,这里给一个 : naive得帖子类型定义。拿回铁树A/浏览书B/页数C, 得到的结果值很大则为“围观帖” : ,否则是“学术帖”。不大不小的大家看着办。之所以考虑页数,大家想想啊,这个有 : 影响地。如果页数太多,可能会吸引大家奠基,但是影响大家看帖子的认真程度。太少
|
|