请ML大神给点启发 - Programming版

本页内容为未名空间相应帖子的节选和存档，一周内的贴子最多显示50字，超过一周显示500字访问原贴

Programming版 - 请ML大神给点启发

相关主题
● 学习DEEP LEARNING	● deep learning做embeded system，业界动态或者公司
● ML 需不需要搞懂那些数学	● 这个IP在哪里
● wdong的网站在我公司的黑名单上，LoL	● 二爷看过来。
● Pytorch靠谱吗？	● oracle coherence
● [bssd]wdong,lightroom....来猜个东西	● goodbug和coltzhao大牛能不能给一个backend的定义？
● 马工能转数据分析师吗？	● 10M persistent TCP connections
● 不想和阿三合作怎么办？	● AngularJS vs Dojo
● auto encoder 出来之后是不是没人再用PCA了	● 感觉Scala要火

相关话题的讨论汇总
话题: 异常话题: pca话题: ml话题: security

进入Programming版参与讨论

(共1页)

l***p
发帖数: 358

最近要立一个关于安全方面的项目，想靠人工智能(本人机器学习这方面的知识基本为0)
用例：当检测并发现某个应用服务被异常访问时，提示安全隐患，建议或者自主apply
appropriate security policy
各位大神给个建议，有什么框架，近似的解决思路？

b****u
发帖数: 1130

收集足够多的“异常”数据才是最难的部分。Payment公司有做类似的工作，但人家的
数据量很大很大。

为0)
apply

【在 l***p 的大作中提到】

: 最近要立一个关于安全方面的项目，想靠人工智能(本人机器学习这方面的知识基本为0)
: 用例：当检测并发现某个应用服务被异常访问时，提示安全隐患，建议或者自主apply
: appropriate security policy
: 各位大神给个建议，有什么框架，近似的解决思路？

g****t
发帖数: 31659

知识为0就找人做吧。自己琢磨没大用，不划算。不如你外包给wdong的星宿演算公司。
绝对靠谱啊。

l***p
发帖数: 358

@guvest
已经发信加他为好友，工程（外包还是自己的团队实现）是后面的事情；现在需要讲个
故事，如果能POC些最好，否则PPT也是要的
所以需要思路

g****t
发帖数: 31659

既然是真是项目。正经项目。
既然素不相识，
我多句嘴。
你要故事。
可能最好的办法是看他的简历和公司介绍。
先给钱。
不然不合适。起码给个一小时若干刀的咨询费。几十刀也是个诚意。
交易关系要先有，不然后面的事容易没有逻辑。
另外我不认识wdong,所以不是托。

: @guvest

: 已经发信加他为好友，工程（外包还是自己的团队实现）是后面的事情；
现在需
要讲个

: 故事，如果能POC些最好，否则PPT也是要的

: 所以需要思路

【在 l***p 的大作中提到】

: @guvest
: 已经发信加他为好友，工程（外包还是自己的团队实现）是后面的事情；现在需要讲个
: 故事，如果能POC些最好，否则PPT也是要的
: 所以需要思路

w******k
发帖数: 299

哪里可以看到wdong简历和介绍？

w******k
发帖数: 299

我觉得难点是发现异常（ anomaly detection）。一旦能正确判断是否异常，什么样的
异常，相应的security policy 选择就比较容易了。

w******k
发帖数: 299

另外还得看看手头有什么样的policy 可用。

w***g
发帖数: 5958

咱都是星宿派的，技术主张相似，你不是托也胜似托了。
我在这里谢过了。
咱还是别公然在这版上拉生意啦。
楼主这个事情对我说来也不是很好办。技术路线是比较清楚的。
1. API前面加proxy，负责异常检测以及记录日志。日志里记哪些项需要好好engineer
下。比如同一个客户端来的前后请求最好也能串起来。输入输出如果不大的话最好也记
下来。
2. 采集大量的日志数据做训练。
3. 正样本（异常）肯定会少。这时候可以发挥人脑的力量，编造一些正样本出来。
4. 机器学习/异常检测的paper太太太多了。随便搜几篇近几年的看看就行。
我随便想想，大致就是某种embedding算法。比如PCA。常规的点，去PCA里转一圈
再出来，loss应该不大。如果发现去PCA里转一圈出来完全不一样了，那就是
outlier了。PCA可以换成各种类似的更"先进"的方法。比如autoencoder。
(paper里应该比较常见的k-NN算法也可以作此理解.)
之所以说难办，是因为这一行水已经很深了。现成的solution已经不少了。
人家积累的也有年头了。好的模型必须经过实战沉淀的。
现在从头开始做讨不了好了。比如老邢这个BBS的前端（不知道现在还是不是）
cloudflare就是做这个的。

【在 g****t 的大作中提到】

: 既然是真是项目。正经项目。
: 既然素不相识，
: 我多句嘴。
: 你要故事。
: 可能最好的办法是看他的简历和公司介绍。
: 先给钱。
: 不然不合适。起码给个一小时若干刀的咨询费。几十刀也是个诚意。
: 交易关系要先有，不然后面的事容易没有逻辑。
: 另外我不认识wdong,所以不是托。
:

h**********c
发帖数: 4120

我也就多句嘴，
生产环境的异常，通常是一个二三百行的exception stack,最气人的是最下面一行，告
诉你，stack too long,改个什么参数to show 毛

相关主题
● 马工能转数据分析师吗？	● deep learning做embeded system，业界动态或者公司
● 不想和阿三合作怎么办？	● 这个IP在哪里
● auto encoder 出来之后是不是没人再用PCA了	● 二爷看过来。
进入Programming版参与讨论

w***g
发帖数: 5958

楼主那个是security，怕有人黑进来，或者crawl数据啥的，应该不是程序抛出的异常。
我见过一些生产环境，log都打印得老勤了。core dump啥的也都有。
不过分布式下都没啥用吧，主要还是靠老司机猜吧。

【在 h**********c 的大作中提到】

: 我也就多句嘴，
: 生产环境的异常，通常是一个二三百行的exception stack,最气人的是最下面一行，告
: 诉你，stack too long,改个什么参数to show 毛

h**********c
发帖数: 4120

太复杂，我老没有那么高function,测几个半自动的小八哥，然后给个爬丝，
混口饭吃，明年希望还有。

常。

【在 w***g 的大作中提到】

: 楼主那个是security，怕有人黑进来，或者crawl数据啥的，应该不是程序抛出的异常。
: 我见过一些生产环境，log都打印得老勤了。core dump啥的也都有。
: 不过分布式下都没啥用吧，主要还是靠老司机猜吧。

c********1
发帖数: 5269

有个认识的
在credit union, 做这个的 --防[有人黑进来]
domain knowledge 是关键

常。

【在 w***g 的大作中提到】

h**********c
发帖数: 4120

说白了就是需求很明确，business model清晰
反面就是一些破把把公司，还要搞NSA level 的code review

【在 c********1 的大作中提到】

: 有个认识的
: 在credit union, 做这个的 --防[有人黑进来]
: domain knowledge 是关键
:
: 常。

y******2
发帖数: 326

anomaly detection是正路。用autoencoder. stacked autoencoder 需要进一步调试。
美国homeland security就是用这个做的。按说这个也得是专业人能调好，你是啥预算
啊？

为0)
apply

【在 l***p 的大作中提到】

l***p
发帖数: 358

第4点很给力，虽然不是很懂，先学习消化一下

engineer

【在 w***g 的大作中提到】

: 咱都是星宿派的，技术主张相似，你不是托也胜似托了。
: 我在这里谢过了。
: 咱还是别公然在这版上拉生意啦。
: 楼主这个事情对我说来也不是很好办。技术路线是比较清楚的。
: 1. API前面加proxy，负责异常检测以及记录日志。日志里记哪些项需要好好engineer
: 下。比如同一个客户端来的前后请求最好也能串起来。输入输出如果不大的话最好也记
: 下来。
: 2. 采集大量的日志数据做训练。
: 3. 正样本（异常）肯定会少。这时候可以发挥人脑的力量，编造一些正样本出来。
: 4. 机器学习/异常检测的paper太太太多了。随便搜几篇近几年的看看就行。

(共1页)

进入Programming版参与讨论

相关主题
● 感觉Scala要火	● [bssd]wdong,lightroom....来猜个东西
● 作为一个合格的后端码农，是不是的会三种语言	● 马工能转数据分析师吗？
● 代码开源了	● 不想和阿三合作怎么办？
● 技术揭秘12306改造：尖峰日PV值297亿下可每秒出票1032张	● auto encoder 出来之后是不是没人再用PCA了
● 学习DEEP LEARNING	● deep learning做embeded system，业界动态或者公司
● ML 需不需要搞懂那些数学	● 这个IP在哪里
● wdong的网站在我公司的黑名单上，LoL	● 二爷看过来。
● Pytorch靠谱吗？	● oracle coherence

相关话题的讨论汇总
话题: 异常话题: pca话题: ml话题: security

#	版面	帖数(主题数)
-	全站	4871 (796)
1	Military	3777 (569)
2	Stock	341 (51)
3	Joke	117 (17)
4	History	116 (3)
5	Automobile	100 (9)
6	USANews	55 (9)
7	Midlife	45 (1)
8	Headline	41 (41)
9	Dreamer	33 (13)
10	FleaMarket	32 (20)
11	Living	30 (7)

boards

未名新帖统计// 7月16日

历史上的今天