翻译:AI研习社(季一帆)
在本文中,我们将讨论生成模型和判别模型之间的差异、形成原因及相关内容。
判别式机器学习在可能的输出选择中确定输出。该过程根据给定的数据进行训练,从而学习模型参数,以最大化联合概率P(X,Y)。
分类有时被称为判别模型,这有一定道理,毕竟分类模型就是要到输入实例的类别进行判断。
无监督模型一般会对输入变量的分布进行学习,并能够根据输入分布创建或生成新的实例,类似这样的模型称为生成式模型。
对于变量分布已知的情况,如高斯分布。
由于生成模型能够总结数据分布,因此可以根据输入变量分布生成新变量。
在这种情况下,生成模型可能非常适合,而使用判别模型的化则会使问题复杂化,反之亦然。
例如对于条件预测任务,判别模型表现显著优于生成模型,同时具有更好的正则性。
看这样一个例子:有Tony和Mark两个小朋友,他们要在宠物商店中分辨出小猫和小狗。对于宠物,我们假定它们包含颜色、大小、眼睛颜色、毛发长短和叫声等特征。
给Mark两张照片,一张是猫,一张是狗,Mark要做出判断。他想到可以根以下条件进行判断:如果叫声是“喵喵”、眼睛是蓝色或绿色、具有褐色或黑色的条纹,则大概率会是猫。根据这样的简单规则,Mark可以容易的识别出猫或狗。
Tony的任务可没这么简单。不是要他判断图片中是猫还是狗,而是要在两张白纸上画出猫和狗的样子。Tony能够画出猫和狗的样子,那么给他展示图片,他也很容易的区分出图中是猫还是狗。可以看到,相比Mark的方法,Tony的方法更加耗时。
假设只有猫狗两种宠物。如果一张图片上是蓝眼睛、棕色条纹的狗,那么Mark可能会将其标记为猫,但Tony可以判断出图片中一定是狗。
如果Tony对猫和狗的特征了解的更多,他能够绘制出更详细准确的图画。但是,如果提供足够多的猫狗数据集,那么Mark会表现得更好。
Mark的判断方法就是认真的观察,总结能够区分的特征,但过多的复杂特征会导致过拟合,但Tony不会遇到这种情况。
如果在访问宠物商店之前,他们没有任何信息呢?也就是说只提供未标注的数据。这种情况下,Mark完全不知道该怎么做,Tony也判别不出什么(因为他不知道“猫”“狗”这两个类别),但至少Tony可以根据看到的猫和狗去画图,这难道不是巨大的优势吗?半监督就是如此。
在上述例子中,Mark就是判别式方法,而Tony代表生成式方法。
再看另一个例子,将语音分类为语言模型。
判别式方法重点在区别语言模型间的差异。无需学习语言就可实现语音分类。而生成式方法需要学习每种语言,根据学习到的知识进行分类。
数学上的区别
判别式机器学习训练模型在可能的输出选项中选择正确输出,通过训练学习使条件概率P(Y | X)最大化的模型参数。
生成式机器学习则是通过训练学习使联合概率P(X,Y)最大化的模型参数。通常可以由P(Y)和P(X | Y)得到联合概率,当前前提是P(Y)和P(X | Y)条件独立。
判别式模型
逻辑回归
随机森林
支持向量机
经典神经网络
最近邻
生成式模型
隐马尔科夫模型
朴素贝叶斯
贝叶斯网络
混合高斯模型
为更好的理解,试着以下几个问题:(1 判别式;2 生成式)
哪种模型需要较少的训练数据?1
哪种模型能够生成数据?2
什么时候使用某类模型?
哪种模型对异常值更敏感?2
哪种模型容易过拟合?1
哪种模型训练时间短?1
哪种模型直接学习条件概率?1
在不确定情况下,哪种模型更好?2
当特征存在关联时,哪种模型更好?2
哪种模型具有更好的可解释性?2
分类问题中,哪种模型准确率高?1
对于未标注数据使用哪种模型?2
如果是标注数据哪种模型更好?1
哪种模型简单,训练速度更快?1
GAN
生成对抗网络(GAN)同时训练生成器和判别器,具体而言,生成器生成一批样本,这些样本与真实数据集一起提供给判别器进行分类。
判别式分类器的缺陷
它缺乏先验性,结构性和不确定性
黑盒子,变量之间的关系无法观测
结论
机器学习模型一般分为生成式和判别式两类,其中,生成式模型主要涉及建模操作,判别式模型一般用于分类问题。一般而言,生成式模型更具有解释力。
模型并不是越大越好、参数越多越好。更新更多参数意味着更长的训练时间、内存和计算量。一般而言,判别式模型有更好的正则性。
生成式模型所需的数据一般要比判别式模型更少。
参考文献
· Yogatama, D., Dyer, C., Ling, W., and Blunsom, P., 2017. Generative and discriminative text classification with recurrent neural networks. arXiv preprint arXiv:1703.01898.
· Lasserre, J.A., Bishop, C.M. and Minka, T.P., 2006, June. Principled hybrids of generative and discriminative models. In 2006 IEEE Computer Society Conference on Computer Vision and Pattern Recognition (CVPR’06) (Vol. 1, pp. 87–94). IEEE.
· Wang, K., Zong, C., and Su, K.Y., 2012. Integrating generative and discriminative character-based models for Chinese word segmentation. ACM Transactions on Asian Language Information Processing (TALIP), 11(2), pp.1–41.
· Prasad, A., Niculescu-Mizil, A., and Ravikumar, P.K., 2017. On separability of loss functions, and revisiting discriminative vs. generative models. In Advances in Neural Information Processing Systems (pp. 7050–7059).