来源:机器学习初学者

本文约6100字,建议阅读10分钟。

本日给大家先容45篇让你跟上AI时期的论文

而AI领域的发展会是IT中最快的。
我们所看到的那些黑客技,其后面无不堆积了大量的论文。
而且都是最新、最前沿的论文。

让你跟上AI领域必看的45篇论文附下载地址

从某种调度来讲,他们所用的技能跟书本里的内容确实不是一个时期。
要想与时俱进,就必须改变思路——从论文入手。

本日给大家先容45篇让你跟上AI时期的论文。

一、神经网络根本部分

No1 wide_deep模型论文:

关于神经元、全连接网络之类的根本构造,想必每个AI学者都有理解。
那么你是否真的理解全连接网络中深层与浅层的关系呢?来看看wide_deep模型吧。
这篇论文会使你对全连接有个更深刻的理解。

关于该模型的更多先容可以参考论文:

https://arxiv.org/pdf/1606.07792.pdf

在wide_deep模型中,wide模型和deep模型具有各自不同的分工。

—wide模型:一种浅层模型。
它通过大量的单层网络节点,实现对演习样本的高度拟合性。
它的缺陷是泛化能力很差。
—deep模型:一种深层模型。
它通过多层的非线性变革,使模型具有很好的泛化性。
它的缺陷是拟合度欠缺。

将二者结合起来——用联合演习方法共享反向传播的丢失值来进行演习—可以使两个模型综合优点,得到最好的结果。

No2 wide_deep模型论文:

为什么Adam被广泛利用?光会用可弗成,还得把事理看懂。
这样出去喷一喷,才会显得更有面子。

Adam的细节请参阅论文《Adam: A Method for Stochastic Optimization》,该论文的链接网址是:

https://arxiv.org/pdf/1412.6980v8.pdf

No3 Targeted Dropout模型论文:

你还再用普通的Dropout吗?我已经开始用Targeted Dropout了。
比你的又快,又好。
你不知道吧,赶紧学习一下。

Targeted Dropout不再像原有的Dropout那样按照设定的比例随机丢弃部分节点,而是对现有的神经元进行排序,按照神经元的权重主要性来丢弃节点。
这种办法比随机丢弃的办法更智能,效果更好。
更多理论见以下论文:

https://openreview.net/pdf?id=HkghWScuoQ

二、图像分类部分

No4 Xception模型论文:

在那个图像分类的时期,谷歌的Xception系列,像x战警一样,一个一个的冲破记录。
个中的技能也逐渐成为AI发展的知识体系。
有必要看一下。
或许会对自己的事情有所启示。

详细情形请查看原论文《Xception: Deep Learning with Depthwise Separable Convolutions》,该论文网址是:

https://arxiv.org/abs/1610.02357

No5 残差构造论文:

运气好到没朋友,现有模型,后完善理论指的便是残差构造这哥们。
他的传奇导致纵然到本日的AI技能,也无法将它割舍,就来常微分方程都得拿它比肩。
快来学学吧。
用途大着呢。
好多模型都拿他当先锋。

利用残差构造,可以使得网络达到上百层的深度。
详情请参阅原始论文《Deep ResidualLearning for Image Recognition》,该论文网址是:

https://arxiv.org/abs/1512.03385

No6 空洞卷积论文:

NasNet的招牌动作,虽然不是出于NASNet,但是却被人家用得如火纯青。
有时不得不惊叹,机器设计出来的模型还真实跟人设计的不一样!

想知道空洞卷积的感想熏染野为什么与层数呈指数级关系吗?

细节请查看原论文《Multi-scale context aggregation by dilated convolutions》,该论文网址是:

https://arxiv.org/abs/1511.07122v3

No7 DenseNet论文:

这个模型使我想到了“一根筋”,再次证明了只有轴的人才能成大事!
令类的模型,神奇的效果,快来体验一下吧。
这可是比华佗还牛的神医哦!

有关DenseNet模型的细节,请参考原始论文《Densely Connected Convolutional Networks》,该论文的连接是:

https://arxiv.org/abs/1608.06993

No8 EfficientNet模型论文:

知道目前位置图像分类界谁是老大吗? 来,看看这个!

EfficientNet模型的论文地址如下:

https://arxiv.org/pdf/1905.11946.pdf

No9 Grad-CAM模型论文:

如果你能把神经元搞得透彻,你也会想到这个点子。
不想聊太多!
一个字“绝”!
这TMD才叫卷积网络的可视化!

详细情形请参阅论文《Grad-CAM:Visual Explanations from Deep Networks via Gradient-based Localization》,该论文的链接网址是:

https://arxiv.org/pdf/1610.02391.pdf

No10 分类模型泛化能力论文:

知道为啥都喜好利用ResNet模型当先锋吗?运气好便是运气好!
好到大家都喜好用它,还说不出为啥它那么好!
反正便是好,不信的话看看这篇论文的实验结果。

论文中,在选取模型的建议中,多次提到了ResNet模型。
缘故原由是,ResNet模型在Imgnet数据集上输出的特色向量所表现的泛化能力是最强的。
详细可以参考以下论文:

https://arxiv.org/pdf/1805.08974.pdf

三、批量正则化部分

No11 批量正则化论文:

这个没的说,必修课,不懂的化,会被鄙视成渣渣!

论文《Batch Normalization Accelerating Deep Network Training by Reducing Internal Covariate Shift》,该论文网址是:

https://arxiv.org/abs/1502.03167

No12 实例归一化论文:

时期不同了,批量归一化也升级了,赶紧学学新的归一化吧。

在对抗神经网络模型、风格转换这类天生式任务中,常用实例归一化取代批量归一化。

由于,天生式任务的实质是——将天生样本的特色分布与目标样本的特色分布进行匹配。
天生式任务中的每个样本都有独立的风格,不应该与批次中其他的样本产生太多联系。
以是,实例归一化适用于办理这种基于个体的样本分布问题。
详细解释见以下链接:

https://arxiv.org/abs/1607.08022

No13 ReNorm算法论文:

ReNorm算法与BatchNorm算法一样,看重对全局数据的归一化,即对输入数据的形状中的N维度、H维度、W维度做归一化处理。
不同的是,ReNorm算法在BatchNorm算法上做了一些改进,使得模型在小批次场景中也有良好的效果。
详细论文见以下链接:

https://arxiv.org/pdf/1702.03275.pdf

No14 GroupNorm算法论文:

GroupNorm算法是介于LayerNorm算法和InstanceNorm算法之间的算法。
它首先将通道分为许多组(group),再对每一组做归一化处理。

GroupNorm算法与ReNorm算法的浸染类似,都是为理解决BatchNorm算法对批次大小的依赖。
详细论文见下方链接:

https://arxiv.org/abs/1803.08494

No15 SwitchableNorm算法论文:

我们国人做产品都喜好这么干!
all in one ,好吧。
既然那么多批量归一化的方法。
来,来,来,我们来个all in one吧。
不服来辩,我这啥都有!

SwitchableNorm算法是将BN算法、LN算法、IN算法结合起来利用,并为每个算法都授予权重,让网络自己去学习归一化层该当利用什么方法。
详细论文见下方链接:

https://arxiv.org/abs/1806.1077

四、把稳力部分

No16 大道至简的把稳力论文:

把AI搞成玄学也就算了!
居然还扯到道家了!
谷歌的工程师真实中外通吃啊!
搞出来了一个只用把稳力就能干事的模型,连卷积都不要了!
你所好玩不好玩!
至简不至简!
刺激不刺激!

大名鼎鼎的Attention is All You Need 把稳力机制论文,把稳力机制因2017年谷歌的一篇论文Attention is All You Need而名声大噪。
下面就来先容该技能的详细内容。
如果想理解更多,还可以参考原论文,详细地址如下:

https://arxiv.org/abs/1706.03762

No17-18 孪生把稳力论文:

好比LSTM与GRU一样,把稳力他们家也除了一对双胞胎,长得略微有点不同。
但是功能一样,都能吃能喝,还能把稳。
老虎老鼠傻傻的不清楚!

—BahdanauAttention:https://arxiv.org/abs/1409.0473。

—LuongAttention:https://arxiv.org/abs/1508.04025。

No19 各自升级的孪生把稳力论文:

话说这对双胞胎,出生后就分开了。
各自学的不同的措辞,一个学习汉语,一个学习中文。
多少年后,见面,创造二者的能力还是一样!

BahdanauAttention把稳力升级成了normed_BahdanauAttention,而LuongAttention把稳力升级成了scaled_LuongAttention。
都一样的效果,你爱用哪个用哪个吧!

例如:

在BahdanauAttention类中有一个权重归一化的版本(normed_BahdanauAttention),它可以加快随机梯度低落的收敛速率。
在利用时,将初始化函数中的参数normalize设为True即可。

详细可以参考以下论文:

https://arxiv.org/pdf/1602.07868.pdf

No20 单调把稳力机制论文:

老公主动表忠心,我往后不看别的美女。
老婆以为不足,再加个限定:你往后不准看别的女人!
于是单调把稳力就出来了。

单调把稳力机制(monotonic attention),是在原有把稳力机制上添加了一个单调约束。
该单调约束的内容为:

假设在天生输出序列过程中,模型因此从左到右的办法处理输入序列的。
当某个输入序列所对应的输出受到关注时,在该输入序列之前涌现的其他输入将不能在后面的输出中被关注。

即已经被关注过的输入序列,其前面的序列中不再被关注。

更多描述可以参考以下论文:

https://arxiv.org/pdf/1704.00784.pdf

No21 稠浊把稳力机制论文:

这个把稳力很强大,比一样平常的把稳力专注的地方更多,信息更丰富。
我已经把稳你良久了!
呵呵呵~~~

由于稠浊把稳力中含有位置信息,以是它可以在输入序列中选择下一个编码的位置。
这样的机制更适用于输出序列大于输入序列的Seq2Seq任务,例如语音合成任务。

详细可以参考以下论文:

https://arxiv.org/pdf/1506.07503.pdf

五、高等的卷积网络知识

No22 胶囊网络与动态路由的论文:

这是一股为图像分类降温的寒风,深刻而又尖锐的点出了卷积网络的硬伤!
从事最大池化再无翻身之日。

虽然胶囊网络再实际运用中,不像它的理论那么牛,但是对AI的帮助,卷积的理解是革命性的。
非常值得一读。
其余,这也是一篇绝对让你对数学彻底绝望的论文。
花几根白头发把里面的算法啃下来吧。
这样你与大神就能更近一步。

胶囊网络分为主胶囊与数字胶囊,主胶囊与数字胶囊之间的耦合系数是通过演习得来的。
在演习过程中,耦合系数的更新不是通过反向梯度传播实现的,而是采取动态路由选择算法完成的。
该算法来自以下论文链接:

https://arxiv.org/pdf/1710.09829.pdf

目前胶囊网络的研究还处于低级阶段,随着人们研究的深入,相信这些问题会得到办理。

No23 矩阵胶囊网络与EM路由算法:

如果你以为不过瘾,那么还可以再看一篇。
连续自虐一下。

带有EM(期望最大化)路由的矩阵胶囊网络是动态路由胶囊网络的一个改进版本。
论文链接如下:

https://openreview.net/pdf?id=HJWLfGWRb

No24 胶囊网络的其它用途:

胶囊网络混身是宝,但便是自己不争气。
这也解释还有上升的空间。
就拿个中一个动态路由算法来讲,居然比普通的把稳力还好。

看完之后,相信你一定会手痒!
要不要也试试?把你的把稳力换一下。
值得你考试测验,会有彩蛋的!

该论文的实践也证明,与原有的把稳力机制比较,动态路由算法确实在精度上有所提升。
详细先容可见以下论文:

https://arxiv.org/pdf/1806.01501.pdf

No25 卷积网络新玩法TextCNN模型:

起先

TextCNN模型是利用卷积神经网络对文本进行分类的算法,由 Yoon Kim 在 Convolutional Neural Networks for Sentence Classification 一文中提出。
论文地址:

https://arxiv.org/pdf/1408.5882.pdf

六、图像内容处理部分

No26 FPN模型论文(包含了ROIAlign的匹配算法):

假如搞打算机视觉,还是要建议看一下。
非常的根本。
也是图像分割方面的用得最多得模型。

FPN的事理是:将骨干网络终极特色层和中间特色层的多个尺度的特色以类似金字塔的形式领悟在一起。
终极的特色可以兼顾两个特点——指向收敛目标的特色准确、特色语义信息丰富。
更多信息可以参考论文:

ROIAlign层中的匹配算法也来自于这篇FPN论文,链接如下:

https://arxiv.org/abs/1612.03144

No27 Mask R-CNN模型论文:

效果好,代码多!
硬货!
来啃吧!

Mask R-CNN模型是一个大略、灵巧、通用的工具实例分割框架。
它能够有效地检测图像中的工具,并为每个实例天生高质量的分割掩码,还可以通过增加不同的分支完身分歧的任务。
它可以完成目标分类、目标检测、语义分割、实例分割、人体姿势识别等多种任务。
详细细节可以参考以下论文:

https://arxiv.org/abs/1703.06870

No28 YOLO V3模型论文:

这个模型的提点便是快!

目标识别强烈推举,YOLO V3模型的更多信息可以参考以下链接中的论文:

https://pjreddie.com/media/files/papers/YOLOv3.pdf

No29 Anchor-Fress模型--FCOS模型论文:

随着AI技能的进步Anchor-Fress模型去世灰复燃(起先是YOLO V1那一批模型),这次不一样的是彻底干掉带Anchor的模型。
演习起来那就一个爽!
妈妈再也不用为我准备单独的Anchor标签了。

与YOLO V1比较, FCOS模型的思想与YOLO V1模型非常相似,唯一不同的是FCOS模型没有像YOLOv1那样只考虑中央附近的点,而是利用了ground truth边框中所有的点来进行预测边框。
并且通过 center-ness 分支来抑制那些效果弗成的检测边框。
这样FCOS 就可以改进YOLO V1模型总会漏掉部分检测边框的缺陷。

干系论文地址:

https://arxiv.org/abs/1904.01355

No30 Anchor-Fress模型--CornerNet-Lite模型论文:

一样也是Anchor-Fress模型,与FCOS效果差不多少。
详细看一下论文吧CornerNet-Lite模型。
干系论文地址:

https://arxiv.org/pdf/1904.08900.pdf

No31 栈式沙漏网络模型--Hourglass论文:

最初用户人的姿态估计,在符合模型中也是常被利用的模型。
论文地址:

https://arxiv.org/abs/1603.06937

No32 OCR必修课——STN模型论文:

可以让模型自动仿射变革,你说牛不牛!
要学OCR,就得从这个开始。

有关STN模型的论文链接如下:

https://arxiv.org/abs/1506.02025

七、循环神经网络部分

No33 QRNN模型论文:

在RNN模型的cell里,如果还只知道LSTM和GRU。
那就太low了。
快了补补吧:

如果想更多理解QRNN,可以参考以下论文:

https://arxiv.org/abs/1611.01576

No34 SRU模型论文:

接着来,各种RNN的Cell。
又俊秀,又好吃!

SRU单元在实质上与QRNN单元很像。
从网络构建上看,SRU单元有点像QRNN单元中的一个特例,但是又比QRNN单元多了一个直连的设计。

若须要研究SRU单元更深层面的理论,可以参考如下论文:

https://arxiv.org/abs/1709.02755

No35 IndRNN模型论文:

再补一个,这可都是好cell啊!

将IndRNN单元合营ReLu等非饱和激活函数一起利用,会使模型表现出更好的鲁棒性。

有关IndRNN单元的更多理论,可以参考论文:

https://arxiv.org/abs/1803.04831

No36 IndRNN模型论文:

末了,再来一个cell,如想要理解更多关于JANET单元的内容,可以参考以下论文:

https://arxiv.org/abs/1804.04849

八、AI合成部分

No37-38 Tacotron与Tacotron-2模型论文:

AI合成部分的经典模型,以上构造来自Tacotron与Tacotron-2两个构造,更多内容可以参考以下两篇论文:

https://arxiv.org/pdf/1703.10135.pdf

https://arxiv.org/pdf/1712.05884.pdf

No39 DeblurGAN模型论文:

图片合成的论文太多了。
这里大略列几个,大体事理和思路理解,即可。

DeblurGAN模型是一个对抗神经网络模型,由天生器模型和判别器模型组成。

—天生器模型,根据输入的模糊图片仿照天生清晰的图片。
—判别器模型,用在演习过程中,帮助天生器模型达到更好的效果。

详细可以参考论文:

https://arxiv.org/pdf/1711.07064.pdf

No40 AttGAN模型论文:

同样,这也是个图片合成的。
不同的是多属性合成,相比拟较故意思。

AttGAN模型由两个子模型组成:

利用编码器模型将图片特色提取出来。
将提取的特色与指定的属性值参数一起输入编码器模型中,合成出终极的人脸图片。

更多细节可以参考论文:

https://arxiv.org/pdf/1711.10678.pdf

No41 RNN.WGAN模型论文:

可以合成文本的GAN。
离散数据也能干!

RNN.WGAN模型利用了WGAN模型的方法进行演习。
详细做法可以参考如下论文:

https://arxiv.org/abs/1704.00028

九、多任务学习

No42 MKR模型论文:

多任务学习模型有必要理解一下。
这里推举一个论文给你看看。

MKR是一个多任务学习的端到端框架。
该框架能够将两个不同任务的低层特色抽取出来,并领悟在一起实现联合演习,从而达到最优的结果。
有关MKR的更多先容可以参考以下链接:

https://arxiv.org/pdf/1901.08907.pdf

十、NLP部分

No43 BERT模型论文:

如果你搞NLP,那么这个就不用我来先容了。
如果你准备搞NLP,那么赶紧来看看这个,跟上时期。

BERT干系论文链接

https://arxiv.org/abs/1810.04805

在BERT之后,又出了好多精良的模型。
但是,还是先把这个啃下来,再看别的才不费劲。

十一、模型攻防

No44 FGSM模型论文:

攻击模型的经典方法。
值得节制。

FGSM(Fast Gradient Sign Method)是一种天生对抗样本的方法。
该方法的描述如下:

将输入图片当作演习的参数,使其在演习过程中可以被调度。
在演习时,通过丢失函数勾引模型对图片天生缺点的分类。
当多次迭代导致模型收敛后,演习出来的图片便是所要得到的对抗样本。

详细可以参考论文:

https://arxiv.org/pdf/1607.02533.pdf

No45 黑箱攻击论文:

基于雅可比(Jacobian)矩阵的数据增强方法,是一种常用的黑箱攻击方法。
该方法可以快速构建出近似于被攻击模型的决策边界,从而利用最少量的输入样本。
即:构建出代替模型,并进行后续的攻击操作。

详细请见如下链接:

https://arxiv.org/abs/1602.02697

这里只是列了一些根本的论文。
如果这45篇论文看完。
可以担保你再看到大厂的产品时,不会觉得有代沟。

编辑:王菁

校正:林亦霖

— 完 —

关注清华-青岛数据科学研究院官方微信"大众年夜众平台“THU数据派”及姊妹号“数据派THU”获取更多讲座福利及优质内容。