TCP使用不当引起的Bug
|
图3:学习模型;图4:生成式网络的输出结果 对抗性网络 假设要训练一个神经网络来正确识别0到9之间的数字,我们先要提供大量数字的图像。训练时,当网络预测正确时将会得到奖励,预测错误时则会给出反馈,这样网络就会相应地调整其权值,并且对所有数字的所有图像重复这个过程。 但作为人类的我们在历经这个过程时其实并非如此。如果你是一名教师,正在教一个孩子如何识别0-9。对于数字0,2,3,4,5,6,8,9,他有70%的把握回答出正确答案。但当他得到1和7这两个数字时,他心中只有50%的把握(他可能无法分辨)。因为对于他来讲,数字1和7看起来十分相似。 你注意到了这一点,于是开始重点关注1和7,这是你学生面临的主要问题。但如果你一直问同样的问题,他最终会失去动力并放弃,这种平衡在人类身上是很常见的,但神经网络不是这样,神经网络没有感觉。我们可以就这些错误对网络进行一次又一次的训练,直到出错率降到与分辨其他数字的出错率相同为止。 现实中,有些人可能会遇到这样的情况:老师不停问他们同样的问题,他们不断失败,甚至会觉得是老师想让他们失败。这实际上是一种反向行为。
那么如何在神经网络中重现类似的场景?实际上,我们可以建立一个真正的对抗性网络。如果有程序真正使神经网络尽可能多地犯错,产生上述那种反应,并且它发现了任何弱点,那么这道程序就会针对性地迫使学习者学会根除这种弱点。 如果将这三种类型的数据(图2)输入到生成网络,该网络的学习模型将如图3所示。当试图通过这个训练好的生成式神经网络生成样本时,它将生成图4,因为图4的模型与以上所有三种输入分布模型的平均值相似。
但通过观察,可以清晰地判断出这个样本不属于任何一种已输入的数据分布类型。该如何解决这个问题呢?答案是随机性。也就是说,生成模型通过增加随机性来产生相似度极高的结果。 作为一名数据科学家,仅仅知道另类数据有助于改进分析是无济于事的,你必须了解哪些数据能够帮助你实现商业目标,提供有用的商业智能。虽有如此多的数据可用,但大部分数据只是垃圾,最终毫无用处。 统计学家、FiveThirtyEight(新闻网站)的创始人和总编辑内特·西尔弗说:“每天,每秒三次,我们产生的数据量相当于美国国会图书馆全部纸质馆藏中的数据量。但大部分数据就像YouTube上的猫咪视频,或是13岁孩子们互相发送关于下一部《暮光之城》的短信。” 过滤掉一些正确的另类数据只是试错。选择一个可用于分析的数据源,评估选择该数据的风险,并做出最佳猜测。这些结果可以让你在做了一些测试之后,找到最佳选择。
不过,最终你会提出正确的问题从而选择正确的数据。当你优先考虑真正的业务目标而不仅仅是关键绩效指标时,就可以更容易地找到所需数据来完善不足。我倾向于使用常识性的方法,不过这完全取决于环境。当我和客户工作时,我一定会先找到他们的动机。为什么他们希望提高供应链的效率?答案将有助于我找到另类数据的合理来源。 另类数据如何推动数字转型? 对于那些希望在当今经济中占有一席之地的企业而言,数据驱动型决策至关重要。这就是大多数公司使用大数据分析来收集商业情报的原因所在。然而,这些公司中却很少有人真正了解有效利用数据来实现公司内部数字转型的办法。 为什么会这样呢?因为他们仍在分析相同的数据。真正的数字转换不仅仅是将人工智能和机器学习整合到当前的决策过程中,而是利用新技术来重新思考解决问题。使用新工具分析传统数据时,确实可以更高效地收集商业情报,但是总体上收益是有限的,除非真正应用另类数据。 在分析中应用另类数据有助于思考传统方法无法提供的新策略。你可以完善分析内容,以获得更细致、更实时、更准确的建议。只有这样才能实现预期内由数字转型带来的显著进步。 麻省理工斯隆学院数字经济倡议的研究科学家乔治·韦斯特曼说:“真正完成数字转型后,就像毛毛虫破茧成蝶一样,但如果做错了,你所拥有的只是一只速度极快的毛毛虫。”
寻找真正的另类数据 (编辑:鹤壁站长网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |
