思绪最专注的时刻是什么时候?大概是漫无目的地在楼下踱步。一般是在晚饭前,或是刚吃完饭的时候。我向来是没有吃晚饭之后出门溜圈压马路的习惯的,所以一楼客厅就是我最好的思考辅助装置。​

来说说最近在做什么吧。

CNN 的 filter 像是一个神奇的透镜,原本杂乱的图像在透过 filter 之后就变得有规律起来,不过最开始的 filter 应该是没这么强的能力?而经过一定的训练之后的 filter 已经变成了对应标签的模样。例如,使用猫猫的图片训练,那么 filter 的特征图就是猫的刻印,如果是小狗的话就是狗的刻印。但是,倘若小猫的背景总是蓝天白云,那么经过千百次训练的神经网络可能会觉得蓝天白云才是这张图片被标记为小猫的理由,这样,伟大而万能的神经网络就犯了一个连三岁小孩都不会犯的错误。

然而我们应该怎样才能知道,神经网络把小猫图片认定为是小猫图片的理由呢?猫的头为最终的结论的概率提供了多少支撑,而猫爪又提供了多少支撑呢?

当下对神经网络的解释性研究大多停留在解释层面,没有太多的实际应用。例如,用热点图来可视化 CNN 中某个隐藏层的特征图,以此来可视化究竟是哪些特征激活了这个卷积层的神经元。

这段时间文献的阅读让我从不同的角度看待当下的人工智能与神经网络,把握本质,才能走得更远一些吧。

同时,对毕业设计也有了一些想法,大体上是两块:​

  1. 可解释性算法的实现

  2. 可视化页面的搭建

不过可解释性算法有很多不同的方向,一种我感觉比较简单的是类似 LIME 的思路,直接将模型看作是一个黑盒,在局部用简单的,易于解释的函数来近似模型的效果,最终找到模型的关注点是什么。不过这样的缺点是我们不能很细致地对模型进行细粒度的分析,例如我们想知道每一层都做了什么提取工作, LIME 就很难做到。

而另一种做法是侵入模型内部,在每个隐藏层之后立刻记录分析变化,得到一个特征图,让我们能更细致地了解每一层都在关注什么,是否有不符合人的逻辑的地方。

不过,这里也会引出一个问题,可解释性究竟有没有意义?对于手写识别,模型的关注点偏一点又有什么关系呢,主要准确度够高不就好了吗,但对于医学影像分析,就不能这么草率,因为每一次错误识别都有可能造成误诊,引发不可估量的后果。而且,还有一个问题,难道神经网络学习到的知识一定要符合人的思维逻辑吗?围棋圣手Alpha Go的知识早就超越了人类,其理解知识的方式也极有可能与人类不同,所以,人的思维逻辑不一定就是最有效的、最合理的,相反,机器学习到的知识可能对人类更有价值。

因此,我觉得方向应该是让神经网络说人话,构建一个框架,让推断过程可以让使用者快速理解,使用的过程最好能像打桩。

Continue Reading
All Articles
2022年9月7日
© 2025 TankNee