w***g 发帖数: 5958 | 1 讨论了半天AI的可行性,接下来就是怎么操作了。
所谓名不正则言不顺,又所谓顺天者昌逆天者亡。
我们做这个AI,必须师出有名,也就是有一个
优化目标,而且这个优化目标必须符合宇宙运行
的原理。在这个目标的指导下我们具体操作起来
才能事倍功半。这里先给个摘要。
我多年思考的结论就是,最适合作为一个generic
strong AI的优化目标就是:max(I), I=信息。
这个目标基于下面三个原理:
1. 宇宙的趋势是熵增,谁让熵增快谁就更高级。
例1. 狼vs羊。羊吃草,熵增慢,狼吃羊,熵增快,
狼比羊更高级。
例2. 中国vs美国。随便查了个耗电量。
https://en.wikipedia.org/wiki/List_of_countries_by_electricity_consumption
从总体耗电量看,中国比美国更高级。
从per capita看,美国比中国更高级。
所以我们设计一个AI,熵增未必是直接目标,但是
一个好的目标在优化过程中必然导致很快很大的熵增。
2. Passive AI 等价于信息压缩
或者说是降低信息存储的成本。这个可以参考我之前的文章。
http://www.wdong.org/ji-qi-xue-xi-nei-gong-zong-gang.html
以及这个
https://en.wikipedia.org/wiki/Hutter_Prize
可以说,压缩做到了极致,就是AI。
比如对一堆质点进行机械运动的数据进行压缩,压缩到极致就是
牛顿定律+初始状态,intelligence就出来了。
这里说的是passive AI。至于active AI,也就是装备了AI的
agent,那还要考虑信息获取的成本和策略等等。这方面目前还没有研究。
前面有人讨论人的happiness。其实抛开生殖相关的那套东西,
人的很多happiness也是来源于信息的获取。比如人脑乍看到一个新鲜
东西会很干兴趣,因为信息增加了。同一个东西看多了会变得boring,
是因为没有新增的信息了。有时候看到一个笑话,两个不相关的东西
因为某种出乎意料的原因联系起来了,这种意外的神经连接很可能导致
大脑存储成本的急剧降低,刺激是如此强烈以至于人会笑出声来。
这一套reward系统我觉得对active AI同样适用。
3. 信息=负熵
极大的信息获取必然导致AI系统外部极大的熵增。这一点目前小规模的
passive AI系统体现不出来。但是这个保证了AI发展到一定程度后
可以“顺天者昌”。
目前用GPU训练的神经网络,我觉得其实真的是非常小儿科。
按照我的预测,下一步的AI很可能需要涉及大规模存储。
在算法上,这个需要人们开发出一个可以拼接的神经网络。
目前的多层神经网络是没法拼接的,中间任意一层结构改了,
整个网络,至少后续部分都得重新训练。这就决定了一个神经网络
的capacity不可能太大。一旦拼接的问题解决了,再配以早就
已经研究成熟的大规模信息索引技术,AI的能力将获得极大的扩展。
神经网络的fragment也就是知识点,将被以graph的形式存储在
磁盘/内存里并且以social network的方式被索引。
我预期创造性AI(写文章)很可能依赖这种拼接技术。
我在股版吹过,NVDA的硬件很可能会被取代也是基于这种思考。
干掉NVDA的,我觉得不太可能是Google的TPU。而是神经网络
从稠密化向稀疏化,从紧耦合到松耦合的转化导致的软硬件架构
的根本性改变。
再具体一些。
我统计过,目前的CNN的神经元状态其实是非常稀疏的,其中绝大
部分都是0。换句话说,GPU进行的大量运算都是在做无用功。
实际有用的计算量,GPU其实比CPU高不了太多。未来几年内,
GPU vs CPU+大内存 势必还有一战。最后很可能是Intel在CPU内
引入某种GPU的计算能力后,以大内存优势胜出。而且一般来说,
计算速度上的劣势可以通过大内存来弥补,只是算法要具体研究。
Update:
dracodoc在这里提到了block chain
http://mitbbs.com/article1/Programming/31505627_3_0.html
我觉得block chain对大规模社会化计算的组织能力是无可匹敌的,
但是目前的block chain缺乏一个意义,就是为算而算。如果以合
适的方法把max(I)和block chain结合起来,并且把storage和算
法纳入计价系统,那很有可能会演化出天网。 |
g****t 发帖数: 31659 | 2 (1)
无损压缩和有损压缩是本质不同的啊。
你看过 Kolmogorov complexity 吧?
我觉得物理本质上是聪明的有损压缩。
例如你说的牛顿定律是压缩质点运动的轨迹。
严格的说,应该是牛顿定律近似的压缩了
实际物体运动的轨迹。
(2)
你说的那个拼接问题。方向最后应该是universal neural machine?
就是神经网络在一个特殊的神经网络上获得表达。然后才能composable
【在 w***g 的大作中提到】 : 讨论了半天AI的可行性,接下来就是怎么操作了。 : 所谓名不正则言不顺,又所谓顺天者昌逆天者亡。 : 我们做这个AI,必须师出有名,也就是有一个 : 优化目标,而且这个优化目标必须符合宇宙运行 : 的原理。在这个目标的指导下我们具体操作起来 : 才能事倍功半。这里先给个摘要。 : 我多年思考的结论就是,最适合作为一个generic : strong AI的优化目标就是:max(I), I=信息。 : 这个目标基于下面三个原理: : 1. 宇宙的趋势是熵增,谁让熵增快谁就更高级。
|
C*****5 发帖数: 8812 | |
d*******r 发帖数: 3299 | 4 """
我在股版吹过,NVDA的硬件很可能会被取代也是基于这种思考。
干掉NVDA的,我觉得不太可能是Google的TPU。而是神经网络
从稠密化向稀疏化,从紧耦合到松耦合的转化导致的软硬件架构
的根本性改变。
"""
那你想象那种硬件系统, 更类似现在AWS这种linux based cluster的改进版?
GPU, TPU 之类只是现在单个算力强, 结构还是太死板了?
那比如 GPU/TPU based cluster, 然后每个 cluster node 上配置storage,
node 之间的 networking 做得更高速更可编程? |
w***g 发帖数: 5958 | 5 对。我觉得linux cluster的计算和存储能力更强。
单个node的算力可以用GPU增强。但是如果算法变了,
GPU的SIMD架构可能拼不过CPU。一般来说,计算速度上
的劣势可以通过大内存来弥补,只是算法要具体研究。
算法铁三角:时间,空间,准确度三者不可得兼。
很多算法都在研究怎么用其中两者去换第三者。
【在 d*******r 的大作中提到】 : """ : 我在股版吹过,NVDA的硬件很可能会被取代也是基于这种思考。 : 干掉NVDA的,我觉得不太可能是Google的TPU。而是神经网络 : 从稠密化向稀疏化,从紧耦合到松耦合的转化导致的软硬件架构 : 的根本性改变。 : """ : 那你想象那种硬件系统, 更类似现在AWS这种linux based cluster的改进版? : GPU, TPU 之类只是现在单个算力强, 结构还是太死板了? : 那比如 GPU/TPU based cluster, 然后每个 cluster node 上配置storage, : node 之间的 networking 做得更高速更可编程?
|
d*******r 发帖数: 3299 | 6 那长期修炼做分布式系统的能力, 一直有搞头
【在 w***g 的大作中提到】 : 对。我觉得linux cluster的计算和存储能力更强。 : 单个node的算力可以用GPU增强。但是如果算法变了, : GPU的SIMD架构可能拼不过CPU。一般来说,计算速度上 : 的劣势可以通过大内存来弥补,只是算法要具体研究。 : 算法铁三角:时间,空间,准确度三者不可得兼。 : 很多算法都在研究怎么用其中两者去换第三者。
|
g****t 发帖数: 31659 | 7 现在需求还只是在界面,还早
【在 d*******r 的大作中提到】 : """ : 我在股版吹过,NVDA的硬件很可能会被取代也是基于这种思考。 : 干掉NVDA的,我觉得不太可能是Google的TPU。而是神经网络 : 从稠密化向稀疏化,从紧耦合到松耦合的转化导致的软硬件架构 : 的根本性改变。 : """ : 那你想象那种硬件系统, 更类似现在AWS这种linux based cluster的改进版? : GPU, TPU 之类只是现在单个算力强, 结构还是太死板了? : 那比如 GPU/TPU based cluster, 然后每个 cluster node 上配置storage, : node 之间的 networking 做得更高速更可编程?
|
w***g 发帖数: 5958 | 8 不是的。是有人想做,但是做不出来/还没做出来。
这东西做出来是能直接预测大盘的啊,经济利益在那里呢。
【在 g****t 的大作中提到】 : 现在需求还只是在界面,还早
|
l*******m 发帖数: 1096 | 9 看来你没写过gemm, conv kenels,main memory太慢了。dl主要拼memory in chip.
【在 d*******r 的大作中提到】 : """ : 我在股版吹过,NVDA的硬件很可能会被取代也是基于这种思考。 : 干掉NVDA的,我觉得不太可能是Google的TPU。而是神经网络 : 从稠密化向稀疏化,从紧耦合到松耦合的转化导致的软硬件架构 : 的根本性改变。 : """ : 那你想象那种硬件系统, 更类似现在AWS这种linux based cluster的改进版? : GPU, TPU 之类只是现在单个算力强, 结构还是太死板了? : 那比如 GPU/TPU based cluster, 然后每个 cluster node 上配置storage, : node 之间的 networking 做得更高速更可编程?
|
C*****5 发帖数: 8812 | 10 Jeff Dean不正在弄嘛
【在 d*******r 的大作中提到】 : 那长期修炼做分布式系统的能力, 一直有搞头
|
|
|
l*******m 发帖数: 1096 | 11 GPU是simt, 有些simd不具备的功能,比如:单指令多地址,单指令多路径(flow paths)
【在 w***g 的大作中提到】 : 对。我觉得linux cluster的计算和存储能力更强。 : 单个node的算力可以用GPU增强。但是如果算法变了, : GPU的SIMD架构可能拼不过CPU。一般来说,计算速度上 : 的劣势可以通过大内存来弥补,只是算法要具体研究。 : 算法铁三角:时间,空间,准确度三者不可得兼。 : 很多算法都在研究怎么用其中两者去换第三者。
|
d*******r 发帖数: 3299 | 12 哪个项目?
【在 C*****5 的大作中提到】 : Jeff Dean不正在弄嘛
|
d******c 发帖数: 2407 | 13 补充几点:
熵增:
------------
单纯说熵增快就更高级简化了一点,自然过程本身是熵增的,自组织,信息过程,生物
,智能有组织化,熵减的倾向,但这以消耗能量,造成外界熵增为代价。
能熵减最大化的个体是最高级的,这建立在消耗能量,消耗其他生物的贡献基础上(很
多时候效率很低,大量浪费)。
对于人来说,不仅是个体,更是群体的熵减,也就是社会的组织程度。文化和知识也成
为系统一部分。
压缩
-------------
所谓压缩最后都是一个索引加上查表,信息量是无法压缩的,但你可以减少重复,减少
冗余,用越来越复杂的一个生成系统 + 数据来重新生成原始数据。
这个推到极限就是大预言术重现历史:我们不需要记录历史,想查什么数据重演一下宇
宙就行。
人眼中的压缩有时似乎体现了事物本质,那只是人习惯这种表现方式而已。最本质的对
一件事的描述只有一种:时间空间坐标,一个指针。
GPU计算
--------------
AMD能把GPU和CPU做在一起,这方向有前景,看它做的怎么样。我发现AMD现在在软件上
发展的不错,Ryzen的性能提高实际上很多来自软件优化,还有ML, ANN,动态高精度
调整 -- 把CPU分成上千块,在毫秒级进行调整
Ryzen的核多,因为是多个die拼起来,而不是需要一个超级大的die,die越大生产良品
率越低,所以这样成本低。die之间用infinite fabric连接,这个同样适用于CPU和GPU
连接,以后做CPU GPU in a system是自然发展。
blockchain
---------------
其实我说的重点不在计算,在于信任,用开放的,计算的东西作为信任基础,这比基于
黄金的货币信用,政府信用是一大进步。
黄金的稀缺性是它的等价物保证。blockchain系统里稀缺性来自计算能力的浪费,就是
为算而算,这样的稀缺性容易控制。 |
s********k 发帖数: 6180 | 14 WDONG大牛把AI按照信息熵概念来看,是不是准备做AI领域的香浓定理出来?
【在 w***g 的大作中提到】 : 讨论了半天AI的可行性,接下来就是怎么操作了。 : 所谓名不正则言不顺,又所谓顺天者昌逆天者亡。 : 我们做这个AI,必须师出有名,也就是有一个 : 优化目标,而且这个优化目标必须符合宇宙运行 : 的原理。在这个目标的指导下我们具体操作起来 : 才能事倍功半。这里先给个摘要。 : 我多年思考的结论就是,最适合作为一个generic : strong AI的优化目标就是:max(I), I=信息。 : 这个目标基于下面三个原理: : 1. 宇宙的趋势是熵增,谁让熵增快谁就更高级。
|
d*******r 发帖数: 3299 | 15 这个对learning很必要么, 在CPU上软模拟的话, 最终会慢得不行么
paths)
【在 l*******m 的大作中提到】 : GPU是simt, 有些simd不具备的功能,比如:单指令多地址,单指令多路径(flow paths)
|
c*******v 发帖数: 2599 | 16 my two cents:
gemm就是矩阵乘法。
可能只有手工改GPU的汇编?
没有别的办法取巧。
如果有软办法,物理学家早几十年就搞进去了。
【在 d*******r 的大作中提到】 : 这个对learning很必要么, 在CPU上软模拟的话, 最终会慢得不行么 : : paths)
|
l*******m 发帖数: 1096 | 17 CPU:
An L1 cache can be accessed by one core only.
GPU:
An L1 cache can be shared by a block of threads (64 or more)
Besides L1 caches, GPU has shared memory, which can be regarded as an
explicitly managed (in your code) cache. Shared memory can be shared by a
block of threads as well.
Therefore, GPUs are able to provide more efficient memory IO given specific
operations at least.
【在 d*******r 的大作中提到】 : 这个对learning很必要么, 在CPU上软模拟的话, 最终会慢得不行么 : : paths)
|
I***a 发帖数: 13467 | |
h**********c 发帖数: 4120 | |
k****i 发帖数: 101 | 20 软工竟然规划硬件发展,要么用力过猛,要么不务正业,殊不知失之毫厘差以千里。 |