用户将默认切换至“Fenix”新版

发布时间：2021-02-18 12:16:20 所属栏目：外闻来源：互联网

导读：作者通过实验得出了以下结论：如果预训练任务和目标任务存在差异，则预训练(包括监督和自监督)可能损害目标任务准确率; 自训练适用不同规模数据集和不同强度增强数据的训练; 自训练并且可以看作对预训练的补充，联合预训练和自训练可以获得更大的增益。以

作者通过实验得出了以下结论：

如果预训练任务和目标任务存在差异，则预训练(包括监督和自监督)可能损害目标任务准确率;
自训练适用不同规模数据集和不同强度增强数据的训练;
自训练并且可以看作对预训练的补充，联合预训练和自训练可以获得更大的增益。

以下是机器学习研究工程师Aakash Nain对《Rethinking Pre-training and Self-training》这篇论文的解读，文章发表在Medium上，AI科技评论对文章进行了编译。

一、序言

在进一步探讨论文细节之前，我们先了解一些术语。预训练是运用在不同领域(例如计算机视觉、自然语言处理、语音处理)的一种非常普遍的做法。在计算机视觉任务中，我们通常使用在某个数据集上经过预训练并可直接运用到另一个数据集的模型。例如，利用ImageNet预训练就是一种可广泛运用到目标分割和目标检测任务的初始化方法。为实现此目的，我们常使用迁移学习和微调这两种技术。另一方面，自训练也尝试在训练期间结合模型对未标记数据的预测结果，以获得其他可用的信息来改善模型性能。例如，使用ImageNet来改进COCO目标检测模型。首先在COCO数据集上训练模型，然后将该模型用于生成ImageNet的伪标签(我们将丢弃原始的ImageNet标签)，最后将带有伪标签的ImageNet数据集和有标签的COCO数据集结合来训练一个新的模型。自监督学习是另一种常用的预训练方法。自监督学习的目的不仅仅是学习高级特征。相反，我们希望模型学习的更好，有更好的鲁棒性以适用于各种不同的任务和数据集。

二、研究动机

作者希望能解决以下问题：

预训练对训练结果有多大程度的帮助?
什么情况下使用预训练是无效的?
与预训练相比，我们可以使用自训练并获得相似或更好的结果吗?
如果自训练优于预训练(暂做这样的假设)，那它在多大的程度上比预训练好?
在什么情况下自训练比预训练更好?
自训练的灵活性和可扩展性如何?

三、设置

1、数据集和模型

目标检测：作者使用COCO数据集(11.8万张图片 )进行监督学习下的目标检测训练。ImageNet数据集(120万张图片 )和OpenImage数据集(170万张图片 )用作未标记的数据集。使用以EfficientNet - B7为主干网络的RetinaNet目标检测器。图像的分辨率保持在640 x 640，金字塔等级为P3到P7，每个像素使用9个锚点。
语义分割：使用 PASCAL VOC 2012分割训练集(1500张图片)进行监督学习下的语义分割训练。对于自训练，作者使用了增强的PASCAL图像数据集(9000张图片)，标记以及未标记的COCO(24万张图片)和ImageNet(120万张图片)数据集。使用以EfficientNet-B7和EfficientNet-L2为主干网络的NAS-FPN模型。

2、数据增强

在所有实验中都使用了四种不同强度的增强策略来进行检测和分割。这四种策略按强度从低到高依次为：1)Augment-S1：这是标准“ 翻转和裁剪”增强操作，包括水平翻转和缩放裁剪。2)Augment-S2: 这包括论文《AutoAugment: Learning Augmentation Strategies from Data》中使用的AutoAugment，以及翻转和裁剪。3)Augment-S3：它包括大规模缩放、AutoAugment、翻转和裁剪。缩放范围比Augment-S1:更大。4)Augment-S4: 结合论文《RandAugment: Practical automated data augmentation with a reduced search space》中提出的RandAugment，翻转和裁剪，以及大规模缩放操作。此处的缩放等级与Augment-S2/S3相同。

互联网巨头纷纷杀入农业，智慧农业已经成为互联网巨头的必争之地。

智慧农业现正处于市场教育及技术攻坚阶段，各项运用目前是一片蓝海，其背后是一个正高速增长的潜力市场。根据国际咨询机构(Research and Market)预测，到2025年，全球智慧农业市值将达到182.1亿美元，发展最快的是亚太地区的中国、印度等国家。如今，我国A股智慧农业板块总市值超过1700亿元，共包括20家上市公司。

02疫情之下，线下农产品的出路

新冠疫情爆发以后，大家措手不及，不少行业饱受冲击。其中最为明显的一个现象是消费终端的城市居民出门买菜买水果难，而另一端产地却因封村封路物流不畅出现农产品滞销，全国的农产品供应链体系面临严峻考验。

2020年是脱贫攻坚的决胜之年，但这场突如其来的疫情让广大农村地区的农产品滞销，影响了农户的收入，也给了我们脱贫攻坚工作带来巨大挑战。此次全国范围出现大规模的农产品滞销，也在一定程度上凸显出农业产业化发展中的几个短板问题。

第一：农产品缺乏标准化。我国当前整体的农产品供应链建设仍然处于初级阶段水平，农产品标准化程度不高，商品化率不足。比如说，农产品收获以后按什么标准、用什么方法来分拣?怎样为适合长途运输打造合适的包装?如果没有详细的方案，就会给农产品上行带来很大困难。

第二：销售渠道较单一化。我国农产品上行的过程中，销售渠道一直以来都比较单一，多数依赖于农产品批发市场和批发商地头收购，而且是唯一的渠道，没有电商运营团队。这次疫情影响下，很多地方的批发商不能去产地收货，传统渠道造成堵塞，将基地和农户陷入销路无门的境地。

第三：产品品牌意识不强。在疫情期间大量滞销的农产品，最有效的出路之一便是电商销售，但电商销售比实体销售更难，因为产品再好也摸不着，尝不到。很难让消费者信任，而解决信任问题的关键一环便是农产品品牌。然而，我国大多数农产品还处于无品牌阶段，优秀的品牌更是严重缺失。

这次疫情给农业产业各环节带来不小的这个阻碍，但同时也会为农业发展带来了很多启发与思考。

（编辑：鹤壁站长网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!