【港科大博士论文】神经架构设计:搜索方法和领域知识，147页pdf - 专知VIP

会员服务 ·

27

神经架构搜索 · 香港科技大学 (HKUST) · 博士论文 ·

2022 年 12 月 1 日

【港科大博士论文】神经架构设计:搜索方法和领域知识，147页pdf

专知会员服务

专知，提供专业可信的知识分发服务，让认知协作更快更好！

由于深度学习在计算机视觉和自然语言处理等各种任务中的显著能力，它已成为机器学习领域的一个里程碑。神经网络的结构对性能有显著影响，因此确定神经网络的结构非常重要。通常，神经架构设计的方法可以分为两类。一类是利用搜索方法设计神经结构，目的是自动实现潜在的神经结构。例如，NASNet架构是在使用强化学习算法定义的搜索空间中找到的。另一类是基于领域知识手工设计神经体系结构。大多数实用的体系结构，如ResNet和Transformer都是基于先验知识提出的。在本文中，我们从以上两个角度对神经架构设计进行了全面的讨论。

首先，我们介绍了一种基于贝叶斯优化的神经结构搜索算法BONAS。在搜索阶段，GCN嵌入提取器和贝叶斯sigmoid回归器构成贝叶斯优化的代理模型，并根据采集函数选择搜索空间中的候选架构。在查询阶段，我们将它们合并为一个超级网络，并通过权值共享机制对各个体系结构进行评估。提出的BONAS可以获得开发与勘探平衡的重要体系结构。

其次，针对著名的Transformer中的自注意力模块，提出了一种可微架构搜索方法来查找重要的注意力模式。与以往的研究不同，我们发现注意力地图中的对角线元素可以在不影响性能的情况下被丢弃。为了理解这一观察结果，我们从普遍近似的角度提供了理论证明。基于所提出的搜索方法，实现了一系列用于高效架构设计的注意力掩码。

第三，我们试图从一个统一的框架来理解Transformer中的前馈模块。具体来说，我们引入了记忆标记的概念，并建立了前馈和自注意力之间的关系。在此基础上，我们提出了一种新的结构——单注意力，它包含了所有四种类型的注意力连接。在给定相同数量的内存令牌的情况下，与以前的基线相比，Uni-attention实现了更好的性能。

最后，我们研究了整个Transformer体系结构中的过平滑现象。我们通过建立自注意力与图域之间的关系来进行理论分析。具体而言，我们发现层归一化在过平滑问题中起着重要作用，并通过经验验证了这一点。为了缓解这个问题，我们提出了分层融合体系结构，这样输出可以更加多样化。

成为VIP会员查看完整内容

49

相关内容

神经架构搜索

神经架构搜索

【牛津大学博士论文】深度生成模型的鲁棒性、结构性和层次性，241页pdf

【牛津大学博士论文】深度生成模型的鲁棒性、结构性和层次性，241页pdf

专知会员服务

66+阅读 · 2023年1月17日

【爱丁堡大学博士论文】图聚类结构的学习，164页pdf

【爱丁堡大学博士论文】图聚类结构的学习，164页pdf

专知会员服务

39+阅读 · 2023年1月5日

【CMU博士论文】神经架构搜索的搜索算法和搜索空间，141页pdf

【CMU博士论文】神经架构搜索的搜索算法和搜索空间，141页pdf

专知会员服务

38+阅读 · 2022年12月7日

【CMU博士论文】黑盒和多目标优化策略，151页pdf

【CMU博士论文】黑盒和多目标优化策略，151页pdf

专知会员服务

52+阅读 · 2022年11月24日

【牛津大学博士论文】深度学习中的结构与不确定性，205页pdf

【牛津大学博士论文】深度学习中的结构与不确定性，205页pdf

专知会员服务

78+阅读 · 2022年11月9日

【牛津大学博士论文】深度强化学习的归纳偏差和泛化,168页pdf

【牛津大学博士论文】深度强化学习的归纳偏差和泛化,168页pdf

专知会员服务

112+阅读 · 2022年10月6日

【MIT博士论文】实用机器学习的高效鲁棒算法，142页pdf

【MIT博士论文】实用机器学习的高效鲁棒算法，142页pdf

专知会员服务

59+阅读 · 2022年9月7日

【伯克利博士论文】高效、可扩展的视觉识别神经体系结构，109页pdf

【伯克利博士论文】高效、可扩展的视觉识别神经体系结构，109页pdf

专知会员服务

33+阅读 · 2022年8月15日

德国亥姆霍兹信息安全中心（CISPA）最新论文《多智能体系统中的超属性逻辑》，42页pdf

德国亥姆霍兹信息安全中心（CISPA）最新论文《多智能体系统中的超属性逻辑》，42页pdf

专知会员服务

17+阅读 · 2022年4月6日

【博士论文】多任务学习视觉场景理解，140页pdf

【博士论文】多任务学习视觉场景理解，140页pdf

专知会员服务

91+阅读 · 2022年4月5日

【CMU博士论文】黑盒和多目标优化策略，151页pdf

【CMU博士论文】黑盒和多目标优化策略，151页pdf

专知

13+阅读 · 2022年11月24日

【博士论文】图表示学习，图上的深度生成模型，组等变分子神经网络和多分辨率机器学习

【博士论文】图表示学习，图上的深度生成模型，组等变分子神经网络和多分辨率机器学习

专知

1+阅读 · 2022年11月6日

【伯克利博士论文】硬件感知的高效深度学习，154页pdf

【伯克利博士论文】硬件感知的高效深度学习，154页pdf

专知

10+阅读 · 2022年10月20日

【港科大博士论文】高效迁移学习的低资源自然语言理解，164页pdf

【港科大博士论文】高效迁移学习的低资源自然语言理解，164页pdf

专知

0+阅读 · 2022年8月24日

ICML 2022 | 阿里达摩院灵瞳实验室：基于最大熵原理的目标检测搜索

ICML 2022 | 阿里达摩院灵瞳实验室：基于最大熵原理的目标检测搜索

PaperWeekly

1+阅读 · 2022年8月19日

【伯克利博士论文】高效、可扩展的视觉识别神经体系结构，109页pdf

【伯克利博士论文】高效、可扩展的视觉识别神经体系结构，109页pdf

专知

1+阅读 · 2022年8月15日

【MIT博士论文】数据高效强化学习，176页pdf

【MIT博士论文】数据高效强化学习，176页pdf

专知

17+阅读 · 2022年7月11日

【博士论文】多任务学习视觉场景理解，140页pdf

【博士论文】多任务学习视觉场景理解，140页pdf

专知

28+阅读 · 2022年4月5日

图、深度学习与贝叶斯如何结合？Errica博士论文《图贝叶斯深度学习》阐述方法框架，附201页pdf与Slides

图、深度学习与贝叶斯如何结合？Errica博士论文《图贝叶斯深度学习》阐述方法框架，附201页pdf与Slides

专知

6+阅读 · 2022年3月2日

谷歌大脑重磅研究：神经结构搜索发现全新特征金字塔架构，超越Mask R-CNN等

谷歌大脑重磅研究：神经结构搜索发现全新特征金字塔架构，超越Mask R-CNN等

新智元

12+阅读 · 2019年4月19日

不确定结构可靠寿命设计的时变高精度模型和序列优化问题研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于机器学习的人脑MR图像结构区域层次化自动标记方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

层层自组装构筑三维结构石墨烯纳米复合薄膜及其电化学应用

国家自然科学基金

0+阅读 · 2013年12月31日

基于知识迁移的跨领域人体动作识别

国家自然科学基金

5+阅读 · 2013年12月31日

面向数据表示的深度稀疏保持学习

国家自然科学基金

7+阅读 · 2013年12月31日

考虑时变效应的结构可靠性分析与优化设计的非概率集合方法研究

国家自然科学基金

0+阅读 · 2012年12月31日

粒计算中的不确定性分析与研究

国家自然科学基金

1+阅读 · 2012年12月31日

基于SMA抗剪连接件的半刚接钢框架内填带缝RC墙结构抗震性能及性态设计研究

国家自然科学基金

0+阅读 · 2012年12月31日

基于拟阵方法的粗糙集理论研究

国家自然科学基金

0+阅读 · 2012年12月31日

基于约束优化问题的模式搜索方法的研究

国家自然科学基金

0+阅读 · 2011年12月31日

Haptic Feedback of Tool Vibrations Facilitates Telerobotic Construction

Arxiv

0+阅读 · 2023年2月1日

Extending the Known Region of Nonlocal Boxes that Collapse Communication Complexity

Arxiv

0+阅读 · 2023年2月1日

On the Global Convergence of Fitted Q-Iteration with Two-layer Neural Network Parametrization

Arxiv

0+阅读 · 2023年1月31日

Neural Bellman-Ford Networks: A General Graph Neural Network Framework for Link Prediction

Arxiv

21+阅读 · 2021年6月16日

CSKG: The CommonSense Knowledge Graph

CSKG: The CommonSense Knowledge Graph

Arxiv

18+阅读 · 2020年12月21日

Distributed Graph Convolutional Networks

Arxiv

19+阅读 · 2020年7月13日

Low-Dimensional Hyperbolic Knowledge Graph Embeddings

Arxiv

14+阅读 · 2020年5月1日

已删除

Arxiv

32+阅读 · 2020年3月23日

Knowledge Graphs

Arxiv

102+阅读 · 2020年3月4日

Transferring Common-Sense Knowledge for Object Detection

Arxiv

12+阅读 · 2018年4月3日

VIP会员

相关主题

神经架构搜索

香港科技大学 (HKUST)

相关VIP内容

【牛津大学博士论文】深度生成模型的鲁棒性、结构性和层次性，241页pdf

【牛津大学博士论文】深度生成模型的鲁棒性、结构性和层次性，241页pdf

专知会员服务

66+阅读 · 2023年1月17日

【爱丁堡大学博士论文】图聚类结构的学习，164页pdf

【爱丁堡大学博士论文】图聚类结构的学习，164页pdf

专知会员服务

39+阅读 · 2023年1月5日

【CMU博士论文】神经架构搜索的搜索算法和搜索空间，141页pdf

【CMU博士论文】神经架构搜索的搜索算法和搜索空间，141页pdf

专知会员服务

38+阅读 · 2022年12月7日

【CMU博士论文】黑盒和多目标优化策略，151页pdf

【CMU博士论文】黑盒和多目标优化策略，151页pdf

专知会员服务

52+阅读 · 2022年11月24日

【牛津大学博士论文】深度学习中的结构与不确定性，205页pdf

【牛津大学博士论文】深度学习中的结构与不确定性，205页pdf

专知会员服务

78+阅读 · 2022年11月9日

【牛津大学博士论文】深度强化学习的归纳偏差和泛化,168页pdf

【牛津大学博士论文】深度强化学习的归纳偏差和泛化,168页pdf

专知会员服务

112+阅读 · 2022年10月6日

【MIT博士论文】实用机器学习的高效鲁棒算法，142页pdf

【MIT博士论文】实用机器学习的高效鲁棒算法，142页pdf

专知会员服务

59+阅读 · 2022年9月7日

【伯克利博士论文】高效、可扩展的视觉识别神经体系结构，109页pdf

【伯克利博士论文】高效、可扩展的视觉识别神经体系结构，109页pdf

专知会员服务

33+阅读 · 2022年8月15日

德国亥姆霍兹信息安全中心（CISPA）最新论文《多智能体系统中的超属性逻辑》，42页pdf

德国亥姆霍兹信息安全中心（CISPA）最新论文《多智能体系统中的超属性逻辑》，42页pdf

专知会员服务

17+阅读 · 2022年4月6日

【博士论文】多任务学习视觉场景理解，140页pdf

【博士论文】多任务学习视觉场景理解，140页pdf

专知会员服务

91+阅读 · 2022年4月5日

热门VIP内容

开通专知VIP会员享更多权益服务

《巡飞弹药（爆炸性无人机）威胁态势分析》最新24页报告

《军用后勤无人机：破解战场运输挑战的创新方案》

人工智能战争：以色列、伊朗与新型AI战争形态

《俄乌战争：现代战争未来的启示与经验》

相关资讯

【CMU博士论文】黑盒和多目标优化策略，151页pdf

【CMU博士论文】黑盒和多目标优化策略，151页pdf

专知

13+阅读 · 2022年11月24日

【博士论文】图表示学习，图上的深度生成模型，组等变分子神经网络和多分辨率机器学习

【博士论文】图表示学习，图上的深度生成模型，组等变分子神经网络和多分辨率机器学习

专知

1+阅读 · 2022年11月6日

【伯克利博士论文】硬件感知的高效深度学习，154页pdf

【伯克利博士论文】硬件感知的高效深度学习，154页pdf

专知

10+阅读 · 2022年10月20日

【港科大博士论文】高效迁移学习的低资源自然语言理解，164页pdf

【港科大博士论文】高效迁移学习的低资源自然语言理解，164页pdf

专知

0+阅读 · 2022年8月24日

ICML 2022 | 阿里达摩院灵瞳实验室：基于最大熵原理的目标检测搜索

ICML 2022 | 阿里达摩院灵瞳实验室：基于最大熵原理的目标检测搜索

PaperWeekly

1+阅读 · 2022年8月19日

【伯克利博士论文】高效、可扩展的视觉识别神经体系结构，109页pdf

【伯克利博士论文】高效、可扩展的视觉识别神经体系结构，109页pdf

专知

1+阅读 · 2022年8月15日

【MIT博士论文】数据高效强化学习，176页pdf

【MIT博士论文】数据高效强化学习，176页pdf

专知

17+阅读 · 2022年7月11日

【博士论文】多任务学习视觉场景理解，140页pdf

【博士论文】多任务学习视觉场景理解，140页pdf

专知

28+阅读 · 2022年4月5日

图、深度学习与贝叶斯如何结合？Errica博士论文《图贝叶斯深度学习》阐述方法框架，附201页pdf与Slides

图、深度学习与贝叶斯如何结合？Errica博士论文《图贝叶斯深度学习》阐述方法框架，附201页pdf与Slides

专知

6+阅读 · 2022年3月2日

谷歌大脑重磅研究：神经结构搜索发现全新特征金字塔架构，超越Mask R-CNN等

谷歌大脑重磅研究：神经结构搜索发现全新特征金字塔架构，超越Mask R-CNN等

新智元

12+阅读 · 2019年4月19日

相关基金

不确定结构可靠寿命设计的时变高精度模型和序列优化问题研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于机器学习的人脑MR图像结构区域层次化自动标记方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

层层自组装构筑三维结构石墨烯纳米复合薄膜及其电化学应用

国家自然科学基金

0+阅读 · 2013年12月31日

基于知识迁移的跨领域人体动作识别

国家自然科学基金

5+阅读 · 2013年12月31日

面向数据表示的深度稀疏保持学习

国家自然科学基金

7+阅读 · 2013年12月31日

考虑时变效应的结构可靠性分析与优化设计的非概率集合方法研究

国家自然科学基金

0+阅读 · 2012年12月31日

粒计算中的不确定性分析与研究

国家自然科学基金

1+阅读 · 2012年12月31日

基于SMA抗剪连接件的半刚接钢框架内填带缝RC墙结构抗震性能及性态设计研究

国家自然科学基金

0+阅读 · 2012年12月31日

基于拟阵方法的粗糙集理论研究

国家自然科学基金

0+阅读 · 2012年12月31日

基于约束优化问题的模式搜索方法的研究

国家自然科学基金

0+阅读 · 2011年12月31日

相关论文

Haptic Feedback of Tool Vibrations Facilitates Telerobotic Construction

Arxiv

0+阅读 · 2023年2月1日

Extending the Known Region of Nonlocal Boxes that Collapse Communication Complexity

Arxiv

0+阅读 · 2023年2月1日

On the Global Convergence of Fitted Q-Iteration with Two-layer Neural Network Parametrization

Arxiv

0+阅读 · 2023年1月31日

Neural Bellman-Ford Networks: A General Graph Neural Network Framework for Link Prediction

Arxiv

21+阅读 · 2021年6月16日

CSKG: The CommonSense Knowledge Graph

CSKG: The CommonSense Knowledge Graph

Arxiv

18+阅读 · 2020年12月21日

Distributed Graph Convolutional Networks

Arxiv

19+阅读 · 2020年7月13日

Low-Dimensional Hyperbolic Knowledge Graph Embeddings

Arxiv

14+阅读 · 2020年5月1日

已删除

Arxiv

32+阅读 · 2020年3月23日

Knowledge Graphs

Arxiv

102+阅读 · 2020年3月4日

Transferring Common-Sense Knowledge for Object Detection

Arxiv

12+阅读 · 2018年4月3日

微信扫码咨询专知VIP会员