第9章 徒儿已经全部忘记了
“这到底是怎么个扑朔迷离的剧情?”</p>
早先见电气学院的导员气势汹汹的找来,还以为这小子是个问题学生。</p>
怎么就峰回路转,变成如此高深专业的讨论了?</p>
我是谁?我在哪?他们到底在说什么?</p>
为什么每个字我都认识,连在一起我就完全听不明白了?</p>
时间缓缓地流逝,不知不觉间,付院长的草稿和推演已经写满了六七页A4纸。</p>
“如果单纯用y=f(x)+b的方式去理解一层的行为,那么对于任意正整数k,都存在一个k^3量级深,常数量级宽的神经网络,无法被一个k层的神经网络拟合,除非其宽度为原本的2^k倍。”</p>
付院长越计算,越觉得这小子的直觉不错。</p>
“倘若依你所说,用批次归一化的方式去避免协变量偏移的问题,再加上非线性的函数为层提供额外的表达能力,那么甚至在极端的情况下,需要2^k^3倍的宽度。这样看来你首先专注于解决深度问题,然后考虑去处理训练难度问题的思路是相当聪明的选择。”</p>
付院长,沉吟了一番,回顾了一下自己的计算过程,问道“懂了吗?”</p>
孟繁岐非常严肃认真地摇了摇头,说“没太懂。”</p>
付院长笑了笑,不急不恼,又将整個流程按顺序梳理了一遍。</p>
即便孟繁岐前世已经精读过好几次这三篇论文,但始终没能从根本上理清其中的数学关系。AI界与数学界看待这个问题的视角截然不同,付院长带给了孟繁岐新的认识和理解。</p>
有一位资深的数学教授为他梳理了背后的数学原理和关系,孟繁岐顿觉豁然开朗,但却又始终迷迷蒙蒙,隔着一层纱布。</p>
仔细再看良久,好像有些明了了,“现在好像有些懂了。”</p>
“再多看几遍巩固一下吧。”付院长闻言站起身来拍了拍孟繁岐的背,说道,“我的办公室就在数院大楼503,如果有这方面的问题,欢迎你来找我讨论交流。”</p>
说罢,便转身离去,也不问孟繁岐究竟叫什么名字,只做纯粹的学术交流。</p>
临走前,还对旁边伸着脖子围观的两个数院研究生使了一个眼神,大概意思是“你看看人家,才本科,文章都快写出来了。看看人家看看你。”</p>
两位数院研究生连忙低下头来移开视线。</p>
只留下孟繁岐一人对着复杂的论证过程反复品味,又过了一会儿,孟繁岐感觉自己好像理解了,但又好像全都忘记了,进入了一种玄而又玄的状态。</p>
想必当年张无忌学张三丰的太极剑就是这个感觉吧。</p>
-----------------------------</p>
来自数理学院付院长的友情指导,弥补了孟繁岐当下论文大业中最薄弱的一环,足够扎实的数理分析和公式推论。</p>
在AI学科的中后期时代,由于始终没有发现真正可以令人信服的理论,来解释深度神经网络强大的威力。因而许多注重性能和实用方向的文章,越来越像实验报告,而非论文。这点一直被很多人诟病。</p>
投稿人数又每年暴增,大约在17年左右,AI相关的领域变成了不少科研人眼里的洪泛区,滚滚长江都是水,浪花里也淘不出几个英雄。</p>try{ggauto();} catch(ex){}
不过在目前的时间点,不少大会和期刊的审稿人还是相当注重理论部分的,如果这部分的论证和推理不够清晰流畅,即便你的结果再好看,即便你是AI三巨头之一的Lecun,也会被无情拒稿。</p>
孟繁岐机缘巧合,获此殊荣,倒也没有扭捏客气。他早期需要尽快成型的论文有十数篇之多,其中困扰他,让他不知如何下笔的不在少数。</p>
如今有这等良师,自然要频频请教。</p>
他也并不需要付院长抽出大把时间看具体的文章,只是在几个关键公式的起承转合上,自己前世阅读时从未曾在意的细小甚微之处,为自己拨开那一层若有似无的面纱,得以窥探其中真正的奥妙。</p>
几周之后,某一个周五下午的五点左右,孟繁岐刚刚从数院大楼的院长办公室走出来。</p>
里面的付院长却没有按照惯例起身去食堂吃饭,而是将这几次孟繁岐所提问题的纸张又都全部拿了出来,细细端详了一番。</p>
虽然付院长对于深度学习和图像算法这里来说,专业并不对口。</p>
但图片内容如果想在显示器上展示,在电脑中存储,终究还是要以矩阵的形式。其实说白了就是一堆矩形数字,就如同魔方的一个面,上面是九宫格可以存放九个数字,那就是一个3乘3的正方形矩阵。每一个数字就是一个像素,也就是图像的最小组成单元。</p>
要论矩阵之间的运算和变换,付院长可就是这方面的宗师人物了。</p>
虽然孟繁岐从未拿着整篇的论文过来,但从这些零散的问题,以付院长的水平已经能够管中窥豹。</p>
“我们第一次讨论的是极深的深度网络优化问题,他提出的残差和批归一化,应该属于模型结构的范畴。”</p>
“但他之后又找我讨论一阶和二阶的梯度计算,以及几种变体,这应该是参数优化器的内容。”</p>
“再往后,他又询问了一些误差的分析和传递,这是数值分析的内容。”付院长眉头紧皱,仔细思忖道,“这应该涉及的是计算机内对同一数字的不同方式的存储,存储的方式不同,占用的计算机资源自然也不同。但其中也势必会引入一些误差。”</p>
“而今天,他问的东西越发具有想象力了。”付院长回想了一下今天孟繁岐问题的前提条件和背景,惊叹于他的大胆想象。“以两个深度网络,一个负责生成,一个负责判断。”</p>
“生成器持续地创造自己认为真实的图像,而鉴别器则负责区分输入究竟是真实的还是生成器生成的。”</p>
“这种相互对抗的方式,就可以摆脱模型的训练始终依赖人类先去为这些数据一一提供正确答案的人为监督模式了。”</p>
付院长喃喃自语道,鄂院士积极推动大数据相关事宜,他作为排行前几的大弟子自然十分了解如今的数据量级,以及为它们一一提供答案、标签的难度和工作量到底有多大。</p>
“已经是年轻人的天下了。”付院长长出了一口气,此刻,门外突然响起了敲门声。</p></div>
早先见电气学院的导员气势汹汹的找来,还以为这小子是个问题学生。</p>
怎么就峰回路转,变成如此高深专业的讨论了?</p>
我是谁?我在哪?他们到底在说什么?</p>
为什么每个字我都认识,连在一起我就完全听不明白了?</p>
时间缓缓地流逝,不知不觉间,付院长的草稿和推演已经写满了六七页A4纸。</p>
“如果单纯用y=f(x)+b的方式去理解一层的行为,那么对于任意正整数k,都存在一个k^3量级深,常数量级宽的神经网络,无法被一个k层的神经网络拟合,除非其宽度为原本的2^k倍。”</p>
付院长越计算,越觉得这小子的直觉不错。</p>
“倘若依你所说,用批次归一化的方式去避免协变量偏移的问题,再加上非线性的函数为层提供额外的表达能力,那么甚至在极端的情况下,需要2^k^3倍的宽度。这样看来你首先专注于解决深度问题,然后考虑去处理训练难度问题的思路是相当聪明的选择。”</p>
付院长,沉吟了一番,回顾了一下自己的计算过程,问道“懂了吗?”</p>
孟繁岐非常严肃认真地摇了摇头,说“没太懂。”</p>
付院长笑了笑,不急不恼,又将整個流程按顺序梳理了一遍。</p>
即便孟繁岐前世已经精读过好几次这三篇论文,但始终没能从根本上理清其中的数学关系。AI界与数学界看待这个问题的视角截然不同,付院长带给了孟繁岐新的认识和理解。</p>
有一位资深的数学教授为他梳理了背后的数学原理和关系,孟繁岐顿觉豁然开朗,但却又始终迷迷蒙蒙,隔着一层纱布。</p>
仔细再看良久,好像有些明了了,“现在好像有些懂了。”</p>
“再多看几遍巩固一下吧。”付院长闻言站起身来拍了拍孟繁岐的背,说道,“我的办公室就在数院大楼503,如果有这方面的问题,欢迎你来找我讨论交流。”</p>
说罢,便转身离去,也不问孟繁岐究竟叫什么名字,只做纯粹的学术交流。</p>
临走前,还对旁边伸着脖子围观的两个数院研究生使了一个眼神,大概意思是“你看看人家,才本科,文章都快写出来了。看看人家看看你。”</p>
两位数院研究生连忙低下头来移开视线。</p>
只留下孟繁岐一人对着复杂的论证过程反复品味,又过了一会儿,孟繁岐感觉自己好像理解了,但又好像全都忘记了,进入了一种玄而又玄的状态。</p>
想必当年张无忌学张三丰的太极剑就是这个感觉吧。</p>
-----------------------------</p>
来自数理学院付院长的友情指导,弥补了孟繁岐当下论文大业中最薄弱的一环,足够扎实的数理分析和公式推论。</p>
在AI学科的中后期时代,由于始终没有发现真正可以令人信服的理论,来解释深度神经网络强大的威力。因而许多注重性能和实用方向的文章,越来越像实验报告,而非论文。这点一直被很多人诟病。</p>
投稿人数又每年暴增,大约在17年左右,AI相关的领域变成了不少科研人眼里的洪泛区,滚滚长江都是水,浪花里也淘不出几个英雄。</p>try{ggauto();} catch(ex){}
不过在目前的时间点,不少大会和期刊的审稿人还是相当注重理论部分的,如果这部分的论证和推理不够清晰流畅,即便你的结果再好看,即便你是AI三巨头之一的Lecun,也会被无情拒稿。</p>
孟繁岐机缘巧合,获此殊荣,倒也没有扭捏客气。他早期需要尽快成型的论文有十数篇之多,其中困扰他,让他不知如何下笔的不在少数。</p>
如今有这等良师,自然要频频请教。</p>
他也并不需要付院长抽出大把时间看具体的文章,只是在几个关键公式的起承转合上,自己前世阅读时从未曾在意的细小甚微之处,为自己拨开那一层若有似无的面纱,得以窥探其中真正的奥妙。</p>
几周之后,某一个周五下午的五点左右,孟繁岐刚刚从数院大楼的院长办公室走出来。</p>
里面的付院长却没有按照惯例起身去食堂吃饭,而是将这几次孟繁岐所提问题的纸张又都全部拿了出来,细细端详了一番。</p>
虽然付院长对于深度学习和图像算法这里来说,专业并不对口。</p>
但图片内容如果想在显示器上展示,在电脑中存储,终究还是要以矩阵的形式。其实说白了就是一堆矩形数字,就如同魔方的一个面,上面是九宫格可以存放九个数字,那就是一个3乘3的正方形矩阵。每一个数字就是一个像素,也就是图像的最小组成单元。</p>
要论矩阵之间的运算和变换,付院长可就是这方面的宗师人物了。</p>
虽然孟繁岐从未拿着整篇的论文过来,但从这些零散的问题,以付院长的水平已经能够管中窥豹。</p>
“我们第一次讨论的是极深的深度网络优化问题,他提出的残差和批归一化,应该属于模型结构的范畴。”</p>
“但他之后又找我讨论一阶和二阶的梯度计算,以及几种变体,这应该是参数优化器的内容。”</p>
“再往后,他又询问了一些误差的分析和传递,这是数值分析的内容。”付院长眉头紧皱,仔细思忖道,“这应该涉及的是计算机内对同一数字的不同方式的存储,存储的方式不同,占用的计算机资源自然也不同。但其中也势必会引入一些误差。”</p>
“而今天,他问的东西越发具有想象力了。”付院长回想了一下今天孟繁岐问题的前提条件和背景,惊叹于他的大胆想象。“以两个深度网络,一个负责生成,一个负责判断。”</p>
“生成器持续地创造自己认为真实的图像,而鉴别器则负责区分输入究竟是真实的还是生成器生成的。”</p>
“这种相互对抗的方式,就可以摆脱模型的训练始终依赖人类先去为这些数据一一提供正确答案的人为监督模式了。”</p>
付院长喃喃自语道,鄂院士积极推动大数据相关事宜,他作为排行前几的大弟子自然十分了解如今的数据量级,以及为它们一一提供答案、标签的难度和工作量到底有多大。</p>
“已经是年轻人的天下了。”付院长长出了一口气,此刻,门外突然响起了敲门声。</p></div>