第50章 You Only Look Once: YOLO
李彦弘回想了一下,在当时交流面谈的过程中,自己其实是主动权基本丧失的。</p>
因为起初他的核心计划其实是招募人才和打探DreamNet的技术细节。</p>
而孟繁岐一上车,就很痛快地把DreamNet论文给了自己一版。</p>
这件事情直接打乱了他的节奏,之后的每一步,又都在加剧这个过程。</p>
搬出和阿里克斯以及辛顿的交流细节婉拒招聘,聊到AI模型的路线问题,引诱自己提出技术合作。</p>
然后突然猛地就掏出一个如此惊世骇俗的算法,仿佛此行本来根本没打算提一样。</p>
“仔细回想一下,怎么感觉有点像是魔术的手法。先转移你的注意力,隐藏自己的真实意图。然后再趁其不备,出击骗到你。”</p>
在余恺为首的几位技术人员强烈的质疑声之下,李彦弘不由得不产生这样的想法。</p>
毕竟当时孟繁岐给出的只有一些实验结果,没有任何其他的情报。</p>
如果情况真的如余恺所说,性能的提升来自于DreamNet技术的下游应用,而检测速度实际上未能提升的话,其实也算是很大的突破了。</p>
只能没有到值得他这个公司CEO直接介入的地步罢了。</p>
不过“仿佛此行本来根本没打算提一样”这种感觉确实算不上冤枉孟繁岐,他原本的确打算用这个算法直接和谷歌交涉。</p>
但在李彦弘提出技术合作之后,孟繁岐略一思索,还是认为和白度先合作一次对自己来说非常有利。</p>
首先,白度远比谷歌缺AI技术,更有危机感。李彦弘也是亲自出马来和自己谈,相同的技术,在白度能要到的价格更高。</p>
其次,距离谷歌给自己意向书,才小几个月的时间,自己就能够和白度有这样的创举和技术合作的话。能够极大地提升自己的议价权和谈判空间。</p>
要知道,大点的公司内部也是派系林立,资源这种东西都是要靠抢的。</p>
自己没点历史成绩,没点外部的关系,人生地不熟的到了硅谷,真要是计算资源上紧缺,那多耽误事。</p>
当然了,最最重要的还是看上了华国政府资源这一块。</p>
检测技术是现阶段政府机构潜在用途最广的AI技术,不仅数以亿记的摄像头可以用检测算法智能标注监控的重点时段,还是安全性更上几层楼的高精度实时人脸检测,都是非常庞大的市场。</p>
自己计划明年初去硅谷,想搭上华国官方的线,还是需要借力白度这样的大型互联网公司。</p>
此时的白度不像十年后已经显出很大的颓势,目前白度和企鹅阿狸位列三甲,还是具有很大价值的。</p>
李彦弘所考虑的同样是这点,他对华国官方的了解也远比孟繁岐更深,对其中潜在的机会十分渴望。</p>
既然想要拿下这個方向,疑人不用,用人不疑,李彦弘这点魄力还是有的。</p>
当然了,最主要的还是现在合同都没签呢。</p>
“说白了,你们也没什么可担忧的,我们验收结果通过才会签订合同呢,到时候也是你们自己去审阅代码,复现结果。信不过别人你们还信不过自己吗?”</p>
李彦弘很快调整好了自己的心态,“我们直接持有这样质疑的态度,是非常不可取的。一会人来了之后,我们还是要调整一下,注意方式方法。”</p>
另一边,对这边内幕一无所知的孟繁岐,正准备前往白度的燕京总部。</p>try{ggauto();} catch(ex){}
作为重生人士的他,终究还是高估了现有的检测技术。</p>
第一个真正意义上将深度学习技术应用到目标检测上的,应当是这个月刚刚提出来的R-CNN,也就是区域检测神经网络。</p>
在传统算法mAP值止步于30-40,不再继续提升的情况下,R-CNN基于神经网络,一举突破了60的mAP值。</p>
它的R指得便是区域,检测任务说白了,就是指出物体在图片中的位置/区域。</p>
而即便在14-15年,R-CNN系列作为领先的高性能算法,他的推理时间也是奇慢无比的。</p>
采用14年牛津大学的VGG网络作为结构的骨干,需要整整几十秒才能处理一张图像。也就没有了任何实时的可能,只做学术研究之用,难以投入业界。</p>
即便是一两年后,屡次更新,升级迭代的快速版本FastR-CNN系列,也只有0.5和个位数的FPS。</p>
而孟繁岐给出的算法:YOLO。即便在448x448大小的图像上,速度也超过了80FPS。</p>
如果采用最小的模型版本进行推理,速度甚至可以达到惊人的200帧。</p>
多少人直到十年后,玩游戏的时候显示器都显示不了100帧?</p>
原本的初版YOLO技术其实在精确程度上还有所不足,毕竟,作为专注于速度的检测技术,在性能上有所牺牲也是在所难免。</p>
但孟繁岐开始接触YOLO技术的时候,都已经出到V4了,等到2023年的时候,甚至都已经到了V7,V8。</p>
很多细节上的问题,孟繁岐就是想犯错都不知道该怎么犯。</p>
最开始记得的就是优化之后的技术。</p>
此时此刻,比较常用的检测技术是DPM,30FPS性能26.1mAP,100FPS性能仅为16.0mAP。</p>
而这个月刚刚出来的R-CNN技术,性能虽然有一个质的突破,来到了50-60,但FPS已经到小数点后几位去了,根本用不了。</p>
孟繁岐交出的结果则是,69.5mAP,82FPS,58.3mAP,200FPS。</p>
这已经不能说是普通的超越了,简直是完爆中的完爆。</p>
不过除了在这方面有所疏忽之外,孟繁岐实际上还是在有意识地想要做高这个性能。</p>
纵观自己掌握的所有AI技术,唯有检测是现在阶段变现最快的。</p>
这个功能直接粗暴好理解,易于展示。</p>
只需要接上摄像头,给观众们实时地演示,这项AI技术可以流畅丝滑地检测出屏幕中的桌椅,人物,动植物等常见物体,就能够给观众最为直接的震撼。</p>
像图像生成,语言对话等技术,还需要一定的时间,海量的数据和计算资源来支撑,自己才能够实现这些技术。</p>
而在实际的应用前景上,检测技术不仅是现阶段最容易落地的技术,它的未来前景也非常辽阔。</p>
两三年后搞自动驾驶的企业那是不计其数,如过江之鲫,数不胜数。</p>
在检测上尽力做出夸张的突破,很有助于此后自己在这个方向上的历史地位,说白了其实就是更容易忽悠到钱。</p>
只是他第一次把握刀法,经验不足,没有切好。不慎导致比较专业的人士对此有所误会。</p></div>
因为起初他的核心计划其实是招募人才和打探DreamNet的技术细节。</p>
而孟繁岐一上车,就很痛快地把DreamNet论文给了自己一版。</p>
这件事情直接打乱了他的节奏,之后的每一步,又都在加剧这个过程。</p>
搬出和阿里克斯以及辛顿的交流细节婉拒招聘,聊到AI模型的路线问题,引诱自己提出技术合作。</p>
然后突然猛地就掏出一个如此惊世骇俗的算法,仿佛此行本来根本没打算提一样。</p>
“仔细回想一下,怎么感觉有点像是魔术的手法。先转移你的注意力,隐藏自己的真实意图。然后再趁其不备,出击骗到你。”</p>
在余恺为首的几位技术人员强烈的质疑声之下,李彦弘不由得不产生这样的想法。</p>
毕竟当时孟繁岐给出的只有一些实验结果,没有任何其他的情报。</p>
如果情况真的如余恺所说,性能的提升来自于DreamNet技术的下游应用,而检测速度实际上未能提升的话,其实也算是很大的突破了。</p>
只能没有到值得他这个公司CEO直接介入的地步罢了。</p>
不过“仿佛此行本来根本没打算提一样”这种感觉确实算不上冤枉孟繁岐,他原本的确打算用这个算法直接和谷歌交涉。</p>
但在李彦弘提出技术合作之后,孟繁岐略一思索,还是认为和白度先合作一次对自己来说非常有利。</p>
首先,白度远比谷歌缺AI技术,更有危机感。李彦弘也是亲自出马来和自己谈,相同的技术,在白度能要到的价格更高。</p>
其次,距离谷歌给自己意向书,才小几个月的时间,自己就能够和白度有这样的创举和技术合作的话。能够极大地提升自己的议价权和谈判空间。</p>
要知道,大点的公司内部也是派系林立,资源这种东西都是要靠抢的。</p>
自己没点历史成绩,没点外部的关系,人生地不熟的到了硅谷,真要是计算资源上紧缺,那多耽误事。</p>
当然了,最最重要的还是看上了华国政府资源这一块。</p>
检测技术是现阶段政府机构潜在用途最广的AI技术,不仅数以亿记的摄像头可以用检测算法智能标注监控的重点时段,还是安全性更上几层楼的高精度实时人脸检测,都是非常庞大的市场。</p>
自己计划明年初去硅谷,想搭上华国官方的线,还是需要借力白度这样的大型互联网公司。</p>
此时的白度不像十年后已经显出很大的颓势,目前白度和企鹅阿狸位列三甲,还是具有很大价值的。</p>
李彦弘所考虑的同样是这点,他对华国官方的了解也远比孟繁岐更深,对其中潜在的机会十分渴望。</p>
既然想要拿下这個方向,疑人不用,用人不疑,李彦弘这点魄力还是有的。</p>
当然了,最主要的还是现在合同都没签呢。</p>
“说白了,你们也没什么可担忧的,我们验收结果通过才会签订合同呢,到时候也是你们自己去审阅代码,复现结果。信不过别人你们还信不过自己吗?”</p>
李彦弘很快调整好了自己的心态,“我们直接持有这样质疑的态度,是非常不可取的。一会人来了之后,我们还是要调整一下,注意方式方法。”</p>
另一边,对这边内幕一无所知的孟繁岐,正准备前往白度的燕京总部。</p>try{ggauto();} catch(ex){}
作为重生人士的他,终究还是高估了现有的检测技术。</p>
第一个真正意义上将深度学习技术应用到目标检测上的,应当是这个月刚刚提出来的R-CNN,也就是区域检测神经网络。</p>
在传统算法mAP值止步于30-40,不再继续提升的情况下,R-CNN基于神经网络,一举突破了60的mAP值。</p>
它的R指得便是区域,检测任务说白了,就是指出物体在图片中的位置/区域。</p>
而即便在14-15年,R-CNN系列作为领先的高性能算法,他的推理时间也是奇慢无比的。</p>
采用14年牛津大学的VGG网络作为结构的骨干,需要整整几十秒才能处理一张图像。也就没有了任何实时的可能,只做学术研究之用,难以投入业界。</p>
即便是一两年后,屡次更新,升级迭代的快速版本FastR-CNN系列,也只有0.5和个位数的FPS。</p>
而孟繁岐给出的算法:YOLO。即便在448x448大小的图像上,速度也超过了80FPS。</p>
如果采用最小的模型版本进行推理,速度甚至可以达到惊人的200帧。</p>
多少人直到十年后,玩游戏的时候显示器都显示不了100帧?</p>
原本的初版YOLO技术其实在精确程度上还有所不足,毕竟,作为专注于速度的检测技术,在性能上有所牺牲也是在所难免。</p>
但孟繁岐开始接触YOLO技术的时候,都已经出到V4了,等到2023年的时候,甚至都已经到了V7,V8。</p>
很多细节上的问题,孟繁岐就是想犯错都不知道该怎么犯。</p>
最开始记得的就是优化之后的技术。</p>
此时此刻,比较常用的检测技术是DPM,30FPS性能26.1mAP,100FPS性能仅为16.0mAP。</p>
而这个月刚刚出来的R-CNN技术,性能虽然有一个质的突破,来到了50-60,但FPS已经到小数点后几位去了,根本用不了。</p>
孟繁岐交出的结果则是,69.5mAP,82FPS,58.3mAP,200FPS。</p>
这已经不能说是普通的超越了,简直是完爆中的完爆。</p>
不过除了在这方面有所疏忽之外,孟繁岐实际上还是在有意识地想要做高这个性能。</p>
纵观自己掌握的所有AI技术,唯有检测是现在阶段变现最快的。</p>
这个功能直接粗暴好理解,易于展示。</p>
只需要接上摄像头,给观众们实时地演示,这项AI技术可以流畅丝滑地检测出屏幕中的桌椅,人物,动植物等常见物体,就能够给观众最为直接的震撼。</p>
像图像生成,语言对话等技术,还需要一定的时间,海量的数据和计算资源来支撑,自己才能够实现这些技术。</p>
而在实际的应用前景上,检测技术不仅是现阶段最容易落地的技术,它的未来前景也非常辽阔。</p>
两三年后搞自动驾驶的企业那是不计其数,如过江之鲫,数不胜数。</p>
在检测上尽力做出夸张的突破,很有助于此后自己在这个方向上的历史地位,说白了其实就是更容易忽悠到钱。</p>
只是他第一次把握刀法,经验不足,没有切好。不慎导致比较专业的人士对此有所误会。</p></div>