通过折纸视角理解神经网络:ReLU网络的几何直观与实验探索
虽然我一直对在安全对抗场景中使用机器学习持怀疑态度,但AI/ML的重要性确实让我感到数学硕士(以及未完成的数学博士)学位并非徒劳。面对"无法理解神经网络"和"发现识别狗的神经元"这两种极端观点,我都难以认同。今年初,我终于开始用纸笔研究ReLU神经网络的数据处理过程——选择ReLU是因为它们既实用又易于理解,是理想的入门案例。构建包含10个ReLU单元的单层网络时,每个神经元都有独立的(a,b,c
从折纸视角理解神经网络
虽然我一直对在安全对抗场景中使用机器学习持怀疑态度,但AI/ML的重要性确实让我感到数学硕士(以及未完成的数学博士)学位并非徒劳。我推崇"自下而上"的数学方法:通过大量实例实验形成猜想。由于我在纯形式化推理方面存在严重缺陷,且数学思维主要基于几何直觉,因此常通过实验来建立认知。
多年来,我一直想更好地理解深度神经网络的实际运作机制。面对"无法理解神经网络"和"发现识别狗的神经元"这两种极端观点,我都难以认同。今年初,我终于开始用纸笔研究ReLU神经网络的数据处理过程——选择ReLU是因为它们既实用又易于理解,是理想的入门案例。
ReLU神经元的几何表现
我们首先研究二维ReLU神经元:函数f(x, y) = max(ax + by + c, 0)。其图像如同带有折痕的纸张:
- 参数a控制x轴方向的倾斜度
- 参数b控制y轴方向的倾斜度
- 参数c决定平面抬升高度
这些参数共同决定了平面的折叠方式,将空间划分为两个半平面:一侧输出为零,另一侧呈线性变化。
单层网络的学习过程
构建包含10个ReLU单元的单层网络时,每个神经元都有独立的(a,b,c)参数。训练过程就是调整这些"折痕"的位置,使各区域的仿射函数组合逼近目标输出。我们以圆形图像拟合为例,观察网络如何逐步调整折痕:
(原始图像链接)
当增加到500个神经元时,拟合效果显著提升,但出现有趣现象:
- 优化过程中出现明显"脉冲"模式(可能与Adam优化器有关)
- 大量折痕会自发形成簇群(尽管圆形具有旋转对称性)
- 学习锐利边缘比预期困难(可能是正则化限制了权重)
人脸图像的拟合实验
用相同网络拟合涂满防晒霜的人脸照片时,重建效果呈现出明显的"折纸"质感。这验证了神经网络通过分段线性组合逼近复杂函数的本质。
待探索方向
- 网络深度增加会产生什么影响?
- 分类任务与连续值预测有何本质差异?
- 如何通过这些实验理解泛化、过拟合等问题?
(后续内容将持续更新实验发现)
更多精彩内容 请关注我的个人公众号 公众号(办公AI智能小助手)
公众号二维码

魔乐社区(Modelers.cn) 是一个中立、公益的人工智能社区,提供人工智能工具、模型、数据的托管、展示与应用协同服务,为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作,由全产业链共同建设、共同运营、共同享有,推动国产AI生态繁荣发展。
更多推荐
所有评论(0)