大数据带来的信息风暴正在变革我们的生活、工作和思维方式,而优化研究是解密数据问题的强大工具之一。2018年11月1日上午,天津大学北洋园校区行政楼一层报告厅掌声不断。一场主题为“大数据与优化”的“数学揭秘”正在上演。本次北洋数学讲堂由中国科学院院士袁亚湘讲授,由数学学院院长孙笑涛主持。袁亚湘现同时担任发展中国家科学院院士、中国数学会理事长、中国科协副主席、中国科学院数学与系统科学研究院研究员。
袁亚湘首先分析了大数据中实际问题的产生和涉及的数学领域。数据科学是当今热点,数据科学中心不断涌现。数据的积累以指数式飞速增长,医疗、教育、交通……,我们生活的方方面面每时每刻都在产生大量数据,但是大多数还没有被有效利用。数据科学就是要研究这些数据的规律、分类和预测等问题。
袁亚湘认为数据问题本身是一个逼近问题,对于数学家来说也就是建立一个对应关系,寻找一个函数,是一个数据拟合问题。所谓优化,就是要找到一个函数,让它和实际对应关系误差尽可能的小。
袁亚湘用通俗易懂的语言介绍了正则化、压缩感知、矩阵完整化、距离几何问题、分类问题、梯度法、随机梯度法、交替方向法等当前国际上备受关注的优化问题和主要优化算法,深入浅出地解释了这些方法的本质和关键,为在场的师生们揭开了数据科学与优化研究的神秘面纱。
在解释压缩感知时,袁亚湘现场挖坑。解线性方程组,有这样一种情况,变量有很多——几千万乃至几百亿,方程也有很多——几十万几百万。这个方程组就存在很多解,而压缩感知就是希望在其中找尽量多的向量为零的解,也就是最稀疏的解。
这个问题上升到理论研究的高度,就是著名数学家陶哲轩的重要工作之一。他证明了一范数极小在一定条件下与零范数极小等价,相当于证明了非凸问题在一定意义下等价于凸问题。这样将一个困难问题转化为一个容易问题,我们就可以用多项式算法来解了。
数据科学的优化研究中蕴藏着学习和生活的若干启示。袁亚湘最后总结,往往一些老的经典数学方法在解决新时代的新问题中仍然好用;复杂问题往往有特殊结构,需要将问题化繁为简,分而治之;基础数学理论威力强大,数据科学等学科发展离不开基础数学。
本科二年级学生提问,多项式函数的拟合在数据科学有什么应用。袁亚湘回应,实际的数据问题往往比较复杂,在高维空间上,常用的拟合函数本质是线性函数再加上分段函数,是用多层的简单函数的复合来构造。只用多项式函数逼近在高维计算上是繁杂且不可行的。
经济背景的观众提问,在研究天气、化肥、种子甚至生产管理方式等各种农业因素对产出的影响时会用到函数拟合,这种情况是否可以用函数准确的拟合。袁亚湘肯定,从数学工作者的角度看,任何客观事物一定存在对应关系,也就是存在函数关系。只是因为客观世界是复杂系统,囿于人类认知的限制,现在可能还无法准确的写出这个函数,所以我们研究数据,要去插值,去拟合,去不断逼近真实。
袁亚湘身材挺拔,头发微卷,讲起话来总是笑眯眯的,不时和观众做现场采访、互动交流。他的魅力远不止于此。他擅长从复杂的数学问题或数学思维中提取关键因素,进行简单化、常识化的类比和演绎,让听者潜移默化理解了数学理论。
原来我们可以在如此轻松的氛围中理解深奥的数学理论。如何启发、引导学生?这种“化繁为简、化难为易”的讲授方式可能是最好的答案。
热烈的掌声再次响起,讲座圆满结束,而由此给师生带来的启迪还久久回荡在每一个人心中。
文字|张人元
图片|刘丽丽、张子儒
天津大学数学学院