被全资收购对互联网行业的七个影响

发布时间：2021-02-18 12:11:26 所属栏目：外闻来源：互联网

导读：在介绍完这些方法之后，Hinton 提出了两个问题：1）方差约束在优化非线性或非参数映射时为何表现糟糕？2）典型相关分析或线性判别分析的非线性版本为何不奏效？并做出了解答。最后， Hinton 提出使用对比损失（contrastive loss）来提取空间或时间一致性的

在介绍完这些方法之后，Hinton 提出了两个问题：1）方差约束在优化非线性或非参数映射时为何表现糟糕？2）典型相关分析或线性判别分析的非线性版本为何不奏效？并做出了解答。

最后，Hinton 提出使用对比损失（contrastive loss）来提取空间或时间一致性的向量表示，并介绍了他与 Ruslan Salakhutdinov 在 2004 年尝试使用对比损失的探索，以及 Oord、Li 和 Vinyals 在 2018 年使用对比损失复现这种想法，并用它发现时间一致性的表示。

Hinton 表示，当前无监督学习中使用对比损失一种非常流行的方法。

此外，这种长字符串大多是一维的，并且彼此之间呈现正交。

从线性关系嵌入（LRE）到随机邻域嵌入（SNE）

在这部分中，Hinton 介绍了从线性关系嵌入（Linear Relational Embedding, LRE）到随机邻域嵌入（Stochastic Neighbor Embedding, SNE）方法的转变。他表示，只有「similar-to」关系存在时，LRE 才转变成 SNE。

同时，Hinton 指出，可以将 LRE 目标函数用于降维（dimensionality reduction）。

下图为 SNE 的示意图，其中高维空间的每个点都有选择其他点作为其邻域的条件概率，并且邻域分布基于高维成对距离（pairwise distance）。

经过训练，Hinton 指出唯一的空间一致性特征是「不一致性」（The Only Spatially Coherent Property is Disparity），所以这也是必须要提取出来的。

他表示这种最大化互信息的方法存在一个棘手的问题，并做出以下假设，即如果只学习线性映射，并且对线性函数进行优化，则变量将成为分布式的。不过，这种假设并不会导致太多问题。

以往研究方法回顾

在这部分中，Hinton 先后介绍了 LLE、LRE、SNE、t-SNE 等方法。

局部线性嵌入方法（Locally Linear Embedding, LLE）

Hinton 介绍了 Sam T. Roweis 和 Lawrence K. Saul 在 2000 年 Science 论文《Nonlinear Dimensionality Reduction by Locally Linear Embedding》中提到的局部线性嵌入方法，该方法可以在二维图中显示高维数据点，并且使得非常相似的数据点彼此挨得很近。

但需要注意的是，LLE 方法会导致数据点重叠交融（curdling）和维度崩溃（dimension collapse）问题。

下图为 MNIST 数据集中数字的局部线性嵌入图，其中每种颜色代表不同的数字：

在探讨了以 VAE 和 BERT 为代表的一类无监督学习方法后，Hinton 为我们介绍了另一类无监督学习方法。

Becker 和 Hinton 提出最大化互信息方法

那么自编码器和生成模型有没有什么替代方案呢？Hinton 表示，我们可以尝试不再解释感官输入（sensory input）的每个细节，而专注于提取空间或时序一致性的特征。与自编码器不同，这种方法的好处在于可以忽略噪声。

然后，Hinton 详细介绍了他与 Suzanna Becker 在 1992 年提出的一种提取空间一致性特征的方法。该方法的核心理念是对输入的两个非重叠块（non-overlapping patch）表示之间的显式互信息进行最大化处理。Hinton 给出了提取空间一致性变量的简单示例，如下图所示：

（编辑：鹤壁站长网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!