由买买提看人间百态

topics

全部话题 - 话题: features
首页 上页 1 2 3 4 5 6 7 8 9 10 (共10页)
n******7
发帖数: 12463
1
平时主要用R或者python+numpy+scipy+pandas+sk-learn
处理一些老鼠data,做些统计分析,ML
前段时间用java做了一个project,感觉静态语言写东西还是挺爽的
debug容易,row speed也不错
而且生成个jar文件就可以到处用了
但是java做这些事情感觉不是很擅长 (没有operator overload,没有REPL,啰嗦, etc)
觉得还是C++/Scala更合适
用C++的话,可能是先用python这一套东西测试方法
等差不多了全改成C++
或者一开始就用C++来搞
用Scala的话,感觉可以只用一种语言全部搞定
这两个语言大家都说坑多
问题是,如果只用基本的一些feature,比如把C++当作更方便一点C (string, etc),
是不是基本就无所谓了?
我感觉我们这一行的代码一般都没那么nb
看过一些source code,代码重用经常就是靠复制黏贴解决
反正都是一些小工具
n******7
发帖数: 12463
2
R用的一般,比周围CS背景的人用的好点,统计背景的不如
我就是做个方法,所以基本就是这个算法了
研究过一下R的性能优化,基本结论是先天不足
官方的R实现是稳定优先,性能是次要考虑
也不是面向一般programmer的语言,所以很多考虑都是为了写代码容易,比如pass by
value
优化的低级技巧无非是矢量化,有时候无法避免loop,有时候还是然并卵
高级技巧就是直接用各种低级函数,但是这样高级feature也没有了
还要上C/C++的话,就更费时间了
最后花了几天时间改成java 多线程,爽多了,算是随便学了java
现在全面转向python,通用编程语言比DSL爽多了,基本要啥有啥,raw speed 比R快一
个数量级,再也不用担心一个for loop 搞垮整个code了
所以如果你不是搞统计的,什么data scientist之类,R真没啥意思
画图倒是特nb,我画图都用R来搞
n*****t
发帖数: 22014
3
如果你写一个编译器,动态类型一定更难写,为什么要有这个 feature?至于说 int
让人改成 float 更无聊了,就算都是 int,一样会被人从 1 改成 2。

发帖数: 1
4
来自主题: Programming版 - encode high cardinality categorical features
binary encoding是一个值得一试的办法。类似的还有hashing trick。
除此之外,google "supervised ratio" 和 "weight of evidence",把categorical变
成numerical。
还有就是看level distribution,如果是几个major level和一大堆minor level,
minor level数量小过某个阈值,比如总feature数乘十这种,也可以考虑合并minor
level。

发帖数: 1
5
来自主题: Programming版 - encode high cardinality categorical features
你理解的没错,看起来不喝啦,但是就像dummy code一样,只保留部分原始
categorical feature的特性,但是在实际中能work就行。
机器学习就是这样,很多trick没有理论支持甚至违反理论假设,但是用起来可能效果
不错,比如naive bayes
S***s
发帖数: 104
6
来自主题: Programming版 - encode high cardinality categorical features
一般不是都会做个fe把high cardinal的category转成numerical的feature么?
m****o
发帖数: 182
7
来自主题: Programming版 - encode high cardinality categorical features
word2vec除非你的inputs是有context的概念,一个 input前后跟着其它input,有
temporal dependency,才可能用上。binary encoding效果肯定不如1hot,但是是一个
好的starting point。feature engineering从来都是一个反复有反复的过程。但是一
切反复都要有个起点。
H********9
发帖数: 525
s********8
发帖数: 619
9
真郁闷,PNAS原来有6页的page limit.快要投了才发现文章太长了,关键是图多,有七个
图,而且都很大.
到底是换个journal还是试试featured article或者plus呢?这两个都可以有十页.但不
知道是不是很难中?还有plus是online only的,有人投过这个吗,感觉怪怪的.
s********8
发帖数: 619
10
真郁闷,PNAS原来有6页的page limit.快要投了才发现文章太长了,关键是图多,有七个
图,而且都很大.
到底是换个journal还是试试featured article或者plus呢?这两个都可以有十页.但不
知道是不是很难中?还有plus是online only的,有人投过这个吗,感觉怪怪的.
on
发帖数: 199
11
来自主题: Economics版 - SAS: does it have this feature? (转载)
【 以下文字转载自 Statistics 讨论区 】
发信人: on (一瞬), 信区: Statistics
标 题: SAS: does it have this feature?
发信站: BBS 未名空间站 (Fri Feb 26 00:08:22 2010, 美东)
Want to estimate a model by Generalized Least Square, i.e., assuming the
error term has heteroscedsticity. The covariance matrix of the error is
known. I thought this is fairly standard method, but couldn't find anything
from SAS users' guide.
Does anyone know SAS has a procedure to do this? thanks.
d******s
发帖数: 180
12
来自主题: Mathematics版 - 怎么看MathSci的feature review?
早取消了,只实行了十年左右。检索时在anywhere里选featured review便可。
g****t
发帖数: 31659
13
来自主题: Mathematics版 - 怎么看MathSci的feature review?
我记得大前年还有的吧?我毕业前一直有看到。

早取消了,只实行了十年左右。检索时在anywhere里选featured review便可。
E**********e
发帖数: 1736
14
【 以下文字转载自 DataSciences 讨论区 】
发信人: ExpressoLove (MoneyForNothing), 信区: DataSciences
标 题: 几个星期前看到一个3000 feature 的选重要variable的面试帖子,
发信站: BBS 未名空间站 (Mon May 18 00:04:32 2015, 美东)
有人可以帮忙找出来吗? 谢谢。
l******0
发帖数: 244
15
来自主题: Statistics版 - Representation of Categorical Features
For example,
If a feature is gender(male, female), and John(male) is an instance, why is
it represented as (1,0), not just (1)?
Is it ok to just use '1' to represent male, and '0' to represent female,
instead of (1,0), and (0,1)?
b**********u
发帖数: 59
16
remove this feature: ● [通知] ... 成为本俱乐部正式成员
纯粹视觉污染,然后还要一个个地删
最好再把已经发的全部自动删除
● [通知] .... 成为本俱乐部正式成员(87b)
● [通知] .... 成为本俱乐部正式成员(87b)
● [通知] .... 成为本俱乐部正式成员(87b)
● [通知] .... 成为本俱乐部正式成员(87b)
● [通知] .... 成为本俱乐部正式成员(87b)
● [通知] .... 成为本俱乐部正式成员(87b)
o*******n
发帖数: 6500
17
来自主题: sysop版 - [BUG/Feature Request]
这是new feature
不是bug
D***e
发帖数: 400
18
来自主题: sysop版 - 建议一个feature
我刚刚按你说的做了,输入关键字“feature”,看到41,是说你这个回复是41楼吗?
好像不对呀。疑惑中。。。
a******d
发帖数: 191
19
please. i think this would be a nice feature, very helpful.
x*********n
发帖数: 28013
20
来自主题: sysop版 - 买买提的feature
有没有一个feature
可以自己把自己在某个版block掉?
谢谢。
z*****2
发帖数: 498
21
来自主题: Medicalpractice版 - CMG 医生数据库 - New Feature
http://physician.cmgforum.net
另外的New Features 就是在About page, 我们加上了 residency and fellowship的信
息, 如果您发现您的缺少这个信息,请通知我们 a***[email protected] .
我们鼓励physician自己提供about page信息, 以能更好地介绍您自己。 目前许多医生尚没有
about page, 我们随时恭候医生本人的update.
T*****u
发帖数: 7103
22
来自主题: DataSciences版 - feature selection的方法求教
feature selection和variable selection有啥区别啊?
T*****u
发帖数: 7103
23
来自主题: DataSciences版 - feature selection的方法求教
feature selection和variable selection有啥区别啊?
T*****u
发帖数: 7103
24
来自主题: DataSciences版 - 问个feature selection的问题
如果都是weak feature怎么办
s*w
发帖数: 729
25
来自主题: DataSciences版 - 问个feature selection的问题
请展开讲下 filtering based methods like correlation, mutual info, etc?
难道是算 feature pairwise computation of correlation/mmi, 然后
thresholding 扔掉 其中一些?
f*****y
发帖数: 822
26
来自主题: DataSciences版 - 问个feature selection的问题
大牛能不能展开讲讲?hashing用在feature selection还是第一次听说。
T*****u
发帖数: 7103
27
来自主题: DataSciences版 - 问个feature selection的问题
希望大牛能指点一下,feature selection都是在training的时候进行,除非JIT的
sensor,都是选一次的,和性能比起来,速度应该不是决定性因素,所以不太明白出题
人问的是什么。另外把filter和wrapper结合起来也许能折中。
t*****e
发帖数: 364
28
来自主题: DataSciences版 - 问个feature selection的问题
大牛不敢当。For high dimensional data, most likely people needs to do
performance estimation by cross validation. If feature selection is honest
and nested in cross validation, wrapper 要算死的 (当然看什么样的wrapper)。
当然如果你认为算几天到一个星期都不是事,那另当别论。另外,对high dimensional
data, 就直接上filter 吧,速度是一方面,另外wrapper 很容易overfit (当然你如
果是专家,知道怎么regularize/control/penalize, 另当别论)
T*****u
发帖数: 7103
29
来自主题: DataSciences版 - 问个feature selection的问题
明白,多谢。再问一下,feature selection一般多长时间算是可以容忍的?

dimensional
w**2
发帖数: 147
30
来自主题: DataSciences版 - 问个feature selection的问题
lasso速度可能比较慢,而且可能stuck at local optima。
可以考虑一下用random forest classifier的feature importance帮你选。
p*********g
发帖数: 116
31
来自主题: DataSciences版 - 问一个 feature 相关性问题
在regression 中
如果两个 categorical feature 对 target value 影响不是独立的,
怎么test, 用什么方法test
多谢!
s********0
发帖数: 51
32
来自主题: DataSciences版 - 请教大家一个做feature的问题
现在有一个survey,上面要填写一些个人信息比如姓名等,还要填写当前工作title,
公司类型等等,然后根据这个表格做feature,再做machine learning预测这个人会不
会买某产品。一个办法是做很多的dummy variable,比如把title 变成is_manager, is
_ceo等,可问题是这个title很可能有上千种,而且还有很多人填写错误等问题,所以
会有很多的dummy variable做出来,并且大多数都出现得非常少 (比如manager写错成
manger可能只有一个人写错)。dummy variable做出来之后,用glmnet来预测的效果其
实很差,比直接用logistic regression做的还差。请问大家遇到这个问题是怎么做的
呢?
还有一个想法是把title的一些level给合并成一个,比如把manager 和 manger合并成
一个。可是这样的问题如何通过算法来实现呢?
x*****6
发帖数: 13
33
转换成binary vector?
这样的话多几个这种feature岂不是就很高维了?
d**m
发帖数: 536
34
feature hashing减少维度
R*****n
发帖数: 355
b********e
发帖数: 151
36
来自主题: DataSciences版 - 【技术讲座】SSRS2016 New features
Next Thursday(Apr 20), we will discuss the topic focusing on SSRS. It is
mostly a discussion and demo style, mainly on how to do certain things with
SSRS. This is a list we can cover,
SSRS2016 New features
SSRS on Windows Azure
Lookup functions
注册,
https://attendee.gotowebinar.com/register/2102563482370840321
m******n
发帖数: 453
37
来自主题: DataSciences版 - random forest/xgbclassifier的feature importance
feature importance就是tree里面的entropy
你去掉了一个,排第二的只不过取而代之而已。
z*******n
发帖数: 1034
38
Visual Studio Community 2013 A full-Featured IDE - Free.
http://www.visualstudio.com/en-us/products/visual-studio-commun
j******m
发帖数: 612
p*******m
发帖数: 20761
40
Apple iPhone 9 Models to Feature Support for 5G Connectivity
g******g
发帖数: 1664
41
来自主题: CellularPlan版 - feature phone 用在cellnuvo
有人在他们网络调整以后弄work过没?
在他们调整以前是work的
然后就不行了
发了来回十几轮email还是没解决
就是要一个ph#和MSID#
客服就象完全不懂的样子
一个劲的就让去update PRL
可是feature phone哪里来的这个东西
无语。。。
i*********5
发帖数: 19210
42
Wow! Check this out: my former colleague & friend, Frank Ferrari is featured on Simon Whitfield's blog.
http://simonwhitfield.blogspot.com/
F.Y.I. Simon Whitfield won the Gold medal in 2000 Sydney Olympics & Silver in 2008 Beijing.
http://en.wikipedia.org/wiki/Simon_Whitfield
Now I feel so much closer to the elites! ;-)
C******g
发帖数: 2930
43
来自主题: _Playstation3版 - PS3 Castle Crashers New Features
First of all, we are happy to report that we have finished our internal
testing, and have sent the title off to a third-party agent for some final
testing before we submit it to the PlayStation Store. While we still don’t
want to guess at a release date, we are definitely in the final stages of
this adventure. Meanwhile, we wanted to tell you about another neat new
feature.
We have always had more ideas for Castle Crashers than we’ve had time to
implement. So since we’ve had to rewrite the code
t*******y
发帖数: 11968
44
【 以下文字转载自 NewYork 讨论区 】
发信人: talkdirty (做爱不成仁义在), 信区: NewYork
标 题: Coolio Featuring L.V. - Gangsta's Paradise
发信站: BBS 未名空间站 (Fri Jul 23 23:17:10 2010, 美东)
r*****g
发帖数: 9999
45
以前总注意到每次熄火之后雨刷会往上移动一点点,而发动以后雨刷又会往下移动一点
点,但并非每次发动/熄火都这样,我开始还以为vag软件有bug,不同部件之间相互干
扰造成的,直到昨天收到了一张vw寄来的dvd,里面专门提到了这个小feature,它的作
用是防止雨刷blade总被压得朝一个方向倒,所以时不时把雨刷挪一点让blade翻倒另外
一边以确保blade两侧均匀受力从而延长寿命:)
w*******y
发帖数: 60932
46
Garmin NuVi 255W - 4.3" GPS w/Text to Speech and Where am I Feature -
Refurbished
Original Price $149.99, Knocked to $100.00 today then combine this coupon -
Link:
http://www.buy.com/specialty_stor...adid=18082
To make it $75.00, and free shipping if you pick standard shipping. Next
cheapest for a refurb unit is $92.00 on Amazon.
w*******y
发帖数: 60932
47
Link:
http://www.cowboom.com/deal-of-the-day.cfm
This GPS receiver provides you with turn-by-turn voice directions to your
destination as well as a JPEG picture viewer.
Features:Preloaded with City Navigator North America NT provides detailed
maps for easy navigation
Backlit 3.5" color QVGA TFT-LCD antiglare touch screen with 320 x 240
resolution for easy navigation of your settings and functions
Secure Digital media card slot insert a removable media card (not included)
containing additional ma
w*******y
发帖数: 60932
48
Link:
http://www.frys.com/product/6280330?site=sr:SEARCH:MAIN_RSLT_PG
Fujitsu Life Book AH530 notebook
The latest Intel Core processor provides all the power needed for your
favorite app s. When coupled with its multimedia features and sleek design
the Fujitsu AH530 notebook is an excellent choice.
OVERVIEW:
*
Powered by the latest Intel Core i3 Processor
*
Offered with Genuine Windows 7 Home Premium operating system
*
Fast and long range 802.11 B/G/N wireless con
w*******y
发帖数: 60932
49
msi A6200 15.6" notebook featuring Intel Core i3 Processor with 4GB memory
and 500GB Hard drive
$50.00 Rebate
msi:
FRYS.com #: 6341731
Specificatio ns:
Operating System: Windows 7 Home Premium
Processor: Intel Core i3-350M Processor (2.26 GHz, 3 MB L3 cache, 1066 MHz
FSB)
Display: 15.6" 16:9 widescreen display, LED backlight technology
Video: Intel GMA HD
Memory: 4GB DDR3 Memory
Audio: HD Audio, stereo speakers
Hard Drive: 500GB SATA Hard Drive
Optical Drive: DVD-Supe
w*******y
发帖数: 60932
50
http://kmart.shoplo cal.com/kmar... 407632977
K-Mart $20 gaming coupon w/ purchase of these games:
Fallout New Vegas
Vanquish
EA Sports MMA
============ ============ ============ ============ ============ =====
Get a $15 gaming coupon when you buy Cars Toon: Maters Tall Tales game for
Wii
Cars Toon: Maters Tall Tales - Wii
http://kmart.shoplo cal.com/kmar...-101017FPO
============ ============ ============ ============ ============ =====
Get $10 gaming coupon when you buy ANY game ca... 阅读全帖
首页 上页 1 2 3 4 5 6 7 8 9 10 (共10页)