• 首页
  • 中国
  • 机器学习及应用研讨会—— 个人随性总结

机器学习及应用研讨会—— 个人随性总结

2024-07-02 67浏览

Review of MAL 2015

XienLiu

Tsinghua-iflytekjoint Lab

Beijing,China

2015.11.11

Abstract: 本文就参加MAL 2015会议体会做一个基本的总结,对重点的内容进行简单介绍,认为重要的内容进行适当剖析,以及一些个人的观点分析。

1. Introduction

MAL 2015 是2015年在南京南大仙林校区召开的第十三届中国机器学习及应用研讨会,由南大的周志华老师主持,会议的报告者主要由国内在**会议比较活跃的团队组成。MAL 2015 主要由regular session, poster session和top conference review 三个部分组成[1]。其中,regular session占据了2天中的约**半时间,由各个专家就自己的研究进展进行报告;poster session 主要是筛选了国内去年发表到**会议上的一些学生过来做2分钟简介和poster展示;而Topconference review 主要是邀请国内一些**会议的常客(chair,area chair,或者参与者)就各个**会议的情况进行总结汇报。

下面将分别就这三个sessions进行简单的介绍,总结,以及点评。对里面印象深刻的研究,有用的研究进行一些讨论和分析。

2. Regular session

Regular session部分一共有12 个报告,由于邀请到的报告者主要是顶会的参与者,并不是集中到某一个主题,因此涉及到的内容相对比较宽泛,如优化求解Optimization,低秩,半监督学习,看图说话(image caption),张量分解,多标签学习等等。下面将就这些报告进行尽可能的归纳总结,并对映像深刻的报告进行分析点评。

2.1.Optimization: stochastic optimization driven by big data

涉及到优化求解问题的主要有南京大学的张利军,北京大学的林宙辰,香港中文大学的苏文藻三个人的报告。林宙辰老师是北大机器感知教育部重点实验室的,做过NIPS, CVPR, AAAI等顶会的area chair; 但由于是数学博士出生,研究的问题偏理论些,这次汇报也是一如既往的讲些稍微理论的东西。主要是探讨Low-Rank Subspace Recovery的求解问题,即从理论分析的角度去探讨如何获得完整的解析解(closed-form solutions)。低秩和稀疏是从实际应用中提炼出的一个典型先验约束模型(实际信号如声音,图像等一般都是稀疏和低秩),有较好的应用价值。不过林老师讨论得过于理论,主要是从优化的角度去探讨如何快速的获得全局*优解。苏文藻老师的报告则更加生涩难懂,讨论如何利用Lojasiewicz不等式去理解非凸优化问题(Non-convexOptimization) 解的结构。

相对而言,张利军老师的报告(Stochastic Optimization for Large-scale Learning)则要主观易懂些(不过报告不够严谨,讲起来有忽悠的嫌疑),同时也反映了近两年优化问题的一个研究趋势:随机优化。相对于常规优化求解策略(如牛顿迭代,梯度下降等), 随机优化的*大区别在于每次迭代时不是把所有样本一起优化,而是随机选择部分样本进行优化。因此,相对传统优化策略而言随机优化每次迭代的计算量非常小,计算复杂度不会随着样本量的增加而急剧增加,如果每次迭代选取的样本量设为常数,则可以做到计算复杂度与样本数量无关。但随机优化需要使用非常多的迭代次数才能达到传统优化算法的效果,因此总体时间复杂度并不低。张利军老师主要研究思路是:随机优化需要那么多迭代次数是因为采取了递减(衰退)的优化步长,而采用递减优化步长的根本原因是随机优化梯度方向无法正确估计有偏差,在迭代过程中有回调的现象,因此需要采用递减的步长来保证收敛。张利军老师的主要工作是想办法控制偏差,在控制好偏差的前提下就可以采用固定步长进行迭代,因此*大提高收敛速度,只需要和传统优化相当的迭代次数就可以收敛到*优解。

Re-thinking: 1) why using stochasticoptimization: 随机优化*近两年又开始慢慢被关注起来,这个主要是由于近年来大数据的应用所驱动的,典型的driven by big data. 近年来逐渐意识到当使用大量的样本数据时,可防止过拟合,因此可以训练复杂的模型得到对问题更好的描述。但是当使用的样本量巨大的时候,优化就成了一个问题,每一步迭代优化的计算量都是与样本量N成正比的。因此,很自然就需要讨论大数据背景下的快速优化算法。而随机优化,是一个*直观的选择; 2) the crucial issues in stochastic optimization: 采用随机优化的一个根本思想就是,迭代时随机选择部分样本进行优化,期望每次迭代的计算量尽可能与样本量无关。所以个人感觉随机优化要获得突破,一个核心要解决的问题是样本选择,将随机优化变成半随机优化。即,如何从整体样本里面选取少量的样本尽可能的代表总体,使得随机选取的少量样本获得的优化方向与总体样本相当。而要解决样本选择问题,个人感觉需要与稀疏思想想结合。只有当在问题空间中总体样本是稀疏的,我们才可能有效的选取部分样本来代表整体。好在实际应用问题,样本往往都是稀疏的。因此随机优化是一个很好的研究点,是有望获得突破的。同时在大数据背景下他也是一个具有很强的应用价值的研究。

2.2.Meta-Interpretive Learning

**个报告是帝国理工学院的Stephen Muggleton教授做的,此人据周志华老师介绍是逻辑学泰斗的嫡系传人,在逻辑学方面做了很多贡献。后面查看周志华老师跟Muggleton教授合作在ILP上新发了一篇关于Meta-Interpretive Learning的论文,个人猜测这报告应该是周志华老师邀请过来的。Muggleton教授的报告只有很简单的12张slides,主要是强调人学习与机器学习的差异(human vs machine learning),统计学习与规则学习的不同。人可以从很少的样本(甚至是单个样本)中通过大量的背景知识主动学习到有用的信息(规则) ,而机器学习往往是基于大量的样本统计分析。同时规则学习也具有很强的可解释性。

Re-thinking: 1) Rule-based vs Statistic-based:以规则为中心和以统计为中心是两个不同的流派,有学术之争。不过从实际应用的角度,尤其是从企业里面出来的研发人员,可以很强烈的感觉到规则和统计都十分重要。对数据的结构的认识,各种统计分析是必不可少的,尤其近年来依靠大数据的研究期望从大量的数据中依靠统计学习自动获取有用的信息(如特征表示等)。 虽然在学术上近年来统计学习占了上风,也取得了不错的效果。但是,实际应用中规则依然很重要,要做出一个简洁高效的系统,往往还是需要依赖许多的规则设计,如IBM的Watson系统。 主要原因是规则简单有效;而且很多时候都缺乏大量的样本去学习出一个有效的模式;另外规则是将人的先验认识嵌入到系统中,可以有效的利用现有的知识; 2) vision: 一个比较可期待的前景就是将规则与统计combine到一起,两者各自往中间走一步,做出一个更像人的认知学习的机器学习系统。

2.3. ImageCaption

清华的张长水老师做了一个关于看图说话的研究报告,他这算是一个热点研究问题,近两年的国际主流研究团队在这上面的progress 层出不穷。 张长水老师的这个报告是这次会议中我*喜欢的三个报告之一。他们实验室在**会议和期刊出了很多成果,但是以往的研究(例如前两年的稀疏学习) 都是通过一些很繁琐不太具有实际用处的证明来保证发表的质量。而这次做了很大的改变,研究的东西很实用,还是未发表的研究进展;讲解很清晰,通过有效的例子揭示了一些本质问题。本次报告的是Learning Sequences: image caption with region-basedattention and scene factorization, 研究的问题就是看图说话,即给一幅图像,生成一句话来客观的描述这幅图像的内容。他这里强调Learning Sequences是因为一幅图像中有多个对象,用一句话来描述图像内容就类似于序列学习(对象转移)依次生成句子中的各个词组, 他这里采用的方法主要是模仿人看图像的时候视觉注意力的转移。region-based是将图像分割成许多的图像块,将目标图像块生成一个文本描述。对图像块的encoder过程是采用的CNN深度学习模块,而decoder是采用流行的LSTM模块。张老师在讲解的过程中对图像块与对应的文字进行了非常有意思的展示,例如下图-1. 图中非常值得关注和思考的是一些非实体名词所对应的图像块,如 is, standing, in 等。

Re-thinking: 1)非实体名词的表示:非实体名词往往是修饰实体对象,或者是描述他们之间的关系。因此他本身的存在是依赖实体名词的,是通过多个实体对象的共同存在来表示。例如图-1 中is 和in 都对应了两个图像块 grass和cow,这是因为is和in 正是描述 grass和cow两者间的关系的。类似的的当我们要表示一个抽象概念的时候,也往往是需要一堆图像的集合来共同描述,如图-2中对flying的表示。这个在word embedding里面也有类似的情况,当我们需要表示一个抽象概念(e.g. city)时,我们往往需要用一堆词集(词林)的embedding来共同表示;2)NLP的参与:看图说话是一个很有前景的有用研究,但目前主要是做图像的人员在推动和参与,生成的句子还是比较生硬,不太符合人的习惯。因此image caption 要进一步做好可能需要更多的搞NLP的人参与进来。NLP人员可以从多方面提供帮助,例如通过训练大量的文本,提取实体对象词之间的关系等等,如(grass, cow).

图-1 文字与图像块之间的对应

图-2 概念的描述

2.4. LabelDistribution

东南大学耿新老师做了一个关于多标签(multi-label)的报告Label Distribution Learning and its Applications,这是我*喜欢的第二个报告。他们将多标签分类问题发展为标签分布学习。多标签分类就是对给定的一个对象(image, document) 来用多个标签描述,而标签分布学习则不但要考虑多个标签的描述还要考虑对于同一个对象不同标签的重要程度是不一样的,即由定性描述转为更为精确的定量描述,这个与实际情况也是相符的,如下图-3.

Re-thinking: 1) why I like Geng’s style: 耿新老师团队一直是在做多标签,我特别喜欢他的风格是因为他做的东西特别的系统,由single label 到multi-label 到现在的label distribution 在一步步发展自己的研究,对事物的刻画由简单到详实越来越符合实际情况。相比某些团队为了到top conference 上去发文章而跟风做些零零碎碎敲敲打打的工作,耿新老师为了系统的阐述自己看问题的观点和研究思路而在top conference上去发文章所站的层次要高很多。耿老师也在顶会和期刊上发表了几十篇文章,由此可见有系统的工作而发文章是水到渠成的事情。他另外做得非常值得欣赏的一个事情是,他在不断的推动自己的系统研究让别人去关注和参与:在没有现成测试集的情况下主动去收集整理一些可以表示成 label distribution 的库,并公开让大家使用。个人感觉这个是国内学术界*缺乏的品质。 2) disagreement with his opinion: label distribution 严格来说只是一个很简单的概念,做NLP的人对分布表示应该是相当的熟悉。虽然耿新老师在研究的构建和推动方面很值得欣赏,但是我个人并不赞同用概率分布来描述这个东西。因为这里涉及到的是程度问题(如图-3中 some,mostly, much, a bit of等),而不是概率问题,所以用模糊数学一类的工具来描述可能更合情合理些。当然也可能他是基于这样一个考虑:模糊数学是一个不太被人广为接收的小科目,借用现在正火的概率分布表示学习可能更容易推广自己的研究思想。

图-3 不同标签的重要性

2.5.Large-scale Machine Learning

微软亚研刘铁岩博士做的报告Making super large-scale machine learning possible是这次会议中我*喜欢的第三个报告。由于微软亚研带有企业的性质,因此刘铁岩也主要是从工业的角度来思考问题。多个互联网企业通过动用大量的计算资源证明了在大数据上做大规模的机器学习是有效的。刘铁岩博士团队的工作主要是借用map-reduce的思想从算法和系统两个方面*大的降低大规模机器学习的时间复杂度。例如word embedding的学习过程中,没必要一个一个串行的去滑动窗口,可以先并行的去全局统计word 与word之间的coherence概率,作概率估计,然后在学习embedding表示。他们类似的做出了LightLDA等高效实现算法,见如下表-1,并将这个平台开放到了Github上[2]。

Re-thinking: 喜欢刘铁岩博士的报告是因为,他既做了有用的研究,将其开放共享,也触摸到了问题的本质。例如,他们在思考Skip-Gram等word embedding模型的时意识到求embedding表示的根本就是获取词与词之间的coherence概率,因此可以类似的做Map-reduce的工作来有效的降低时间复杂度,而没必要机械的去滑动窗口。能够洞察到模型描述的根本,去掉因顺势思维产生的冗余过程,是很重要的,可以将学术界一些复杂的模型不断简化,便于工业推广应用和思想的传播。

表-1

2.6. Others

其他的报告里,有两个设计到semi-supervised learning范畴,分别是西安交大的孟德宇老师的what’sthe insight of self-paced learning, 和港大的New Advances inTransfer Learning. 孟德宇老师的工作比较系统,是由于他的学生在CMU团队参与MED测试用很直观的self-paced思想(就是半监督学习里常用的由少数的有标签的样本迁移到无标签样本自学习过程)取得非常好成绩,因此孟德宇老师加入这个团队从数学理论上去对这个思想做一些解释性探讨研究。工作做得非常的系统,因此在顶会上也发了一堆的文章来阐述这个思想以及他的应用。另外三个报告分别是,李涛老师的个性化推荐;杨健老师的matrix regression 和在人脸识别上的应用(这个工作主要就是用个结构化的稀疏的约束去刻画不同 结构化噪音,比如人脸中的遮挡,光照变化的;这个方面的研究在前几年稀疏表示比较火的时候做得比较多,现在相对较少.) ;以及电子科大 徐增林老师关于无参张量分析的报告Large ScaleNonparametric Tensor Analysis. 徐增林报告涉及到的Nonparametric,Tensor Analysis也是近年来比较热的研究,但是由于他过于紧张(个人感觉),讲得不是很明白。

3. Poster session

在 poster session 阶段主要是去年国内在**会议上发表过论文的学生(少数老师)过来做poster展示和讲解。 在poster展示里面个人感觉有两个工作对公司企业应用比较重要,一个是周志华老师实验室一个学生做的工作。他是研究改如何让人进行标注才能用*少的标准量获得*大的信息量,*好的效果。这个对应公司应用是很有价值的,因为在实际应用中往往需要大量的标注,公司的标注部门开销是非常大的。另外一个比较重要的工作是有老师研究了从solution path 连接到parameter path, 可以有效的构造完整的参数性能曲线,这个对应实际应用中繁杂的参数调解是非常有用的。在实际工程系统中,参数往往靠人的经验设置,或者网格搜索,都比较麻烦,如果能够巧妙的利用少量的参数值构造出完整的参数性能曲线,那将是非常有用的。

4. Top conference review

这个阶段主要是邀请一些**会议的chair/area chair 或者参与常客对顶会进行总结分析。涉及到的**会议主要又ICML,NIPS, COLT, KDD, ICDM, IJCAI, AAAI, ATSTATS, CVPR, MM, SIGIR,ACL等。基本情况是,顶会的录用率基本都是在20%~25%之间,但oral都非常少,5%左右。在中国召开过的IJCAI,ACL中国投稿和录用的都比较多,跟美国相当(美国录用率更高些),过两年可能就被中国人给“占领了”。但是像NIPS, ICML这种数一数二的**会议,华人声音很少,内地录用率也很低,貌似不超过10篇。

Reference

[1] http://lamda.nju.edu.cn/conf/mla15/program.htm

[2]. https://github.com/Microsoft/multivers