今日 Paper | 动态手势识别；领域独立无监督学习；基于BERT的在线金融文本情感分析等

会员服务 ·

今日 Paper | 动态手势识别；领域独立无监督学习；基于BERT的在线金融文本情感分析等

2020 年 2 月 3 日 AI科技评论

抓取新物体的领域独立无监督学习

论文名称：Domain Independent Unsupervised Learning to grasp the Novel Objects

作者：Pharswan Siddhartha Vibhu /Vohra Mohit /Kumar Ashish /Behera Laxmidhar

发表时间：2020/1/9

论文链接：https://arxiv.org/abs/2001.05856v1

这篇论文考虑的是机械臂抓取新物体的问题。

基于视觉抓握任务的一个主要挑战是当机械臂遇到新物体时，该如何选择有效的抓握区域。最新的研究都是试图用高计算量和时间为代价的卷积神经网络。这篇论文提出了一种新的无监督学习算法来选择有效抓握区域。在经过坐标对齐方法处理后，新方法应用K均值聚类方法到图像平面以识别该区域。这篇论文定义了一个名为“抓握决策索引”（Grasp Decide Index，GDI）的新概念来选择在图像平面中采取最佳抓握姿势。在杂乱或隔离的环境中对Amazon Robotics Challenge 2017和Amazon Picking Challenge 2016的标准对象进行实验的结果表明，这篇论文提出的新算法在不同领域中的各种新对象上具有鲁棒性和自适应性。

动态手势识别的短时卷积网络

论文名称：Short-Term Temporal Convolutional Networks for Dynamic Hand Gesture Recognition

作者：Zhang Yi /Wang Chong /Zheng Ye /Zhao Jieyu /Li Yuqi /Xie Xijiong

发表时间：2019/12/31

论文链接：https://arxiv.org/abs/2001.05833v1

这篇论文要解决的是手势识别问题。

这篇论文的贡献是提出了一种基于3D密度卷积网络（3D-DenseNets）与改进时序卷积网络（TCNs）的多模态手势识别方法，其核心思路是找到一种压缩的、有效的空间与时间特征表示信息。在空间分析中，这篇论文采用3D-DenseNets来学习短程空间-时间特征；随后在时间分析中，这篇论文使用TCNs来抽取时间特征并运用改进压缩与激励网络（SENets）来增强来自每个TCNs层的时间特征的表示能力。这篇论文提出的方法在VIVA和NVIDIA动态手势数据集上分别获得了91.54%与86.37%的识别准确率。

一种基于BERT的在线金融文本情感分析和关键实体检测方法

论文名称：A BERT based Sentiment Analysis and Key Entity Detection Approach for Online Financial Texts

作者：Zhao Lingyun /Li Lin /Zheng Xinhao

发表时间：2020/1/14

论文链接：https://arxiv.org/abs/2001.05326v1

这篇论文考虑的是金融文本的情感分析问题。

随着互联网的出现和迅猛发展，互联网对金融领域的影响越来越大。怎样快速而准确地从海量金融文本中挖掘有用的信息，已成为投资者与决策者的关注焦点。这篇论文提出一个基于BERT的情感分析和关键实体检测方法，用于社交媒体的金融文本挖掘和公共观点分析。通过使用预训练模型，这篇论文首先进行情感分析，然后考虑关键实体检测，将其考虑为一个句子匹配或机器阅读理解任务，且涉及不同文本粒度。另外，这篇论文也使用聚类算法来提升所提方法的表现力。在两个金融情感分析和关键实体检测数据集上测试了SVM，LR，NBM和BERT，这篇论文提出的方法取得了最佳结果。

基于语音增强和注意力模型的鲁棒说话人识别

论文名称：Robust Speaker Recognition Using Speech Enhancement And Attention Model

作者：Shi Yanpei /Huang Qiang /Hain Thomas

发表时间：2020/1/14

论文链接：https://arxiv.org/abs/2001.05031v1

推荐原因

这篇论文通过级联语音增强和说话人处理，提出了一个新的说话人识别模型，在语音信号被噪声破坏时提高说话者识别模型的性能表现。与以前的方法将语音增强和说话者识别这两者分开处理不同，这篇论文提出的方法通过使用深度神经网络的联合优化将这两个模块集成到一个框架中。为了提高模型的噪声鲁棒性，这篇论文采用多阶段注意力机制来突出从上下文信息中学到的与说话者相关的特征。在VoxCeleb1数据集上进行的实验中，作者们采用了三种信噪比级别的普通噪声、音乐和胡言乱语，以评估其提出方法的噪声鲁棒性。实验结果表明，这篇论文提出的语音增强和多阶段注意力模块能明显提升模型的噪声鲁棒性。

新时代的深度学习调参，从拒绝参数初始化看人品开始

论文名称：MetaInit: Initializing learning by learning to initialize

作者：Yann N. Dauphin /Samuel S. Schoenholz

发表时间：2019/12/9

论文链接：https://papers.nips.cc/paper/9427-metainit-initializing-learning-by-learning-to-initialize.pdf

推荐原因：直到今天，从零开始训练深度模型的时候我们都希望能有一组好的初始值，能让优化器更好地工作、让模型更快收敛、以及训练出更高的准确率。不过一直以来的惯例做法都是用随机数作为初始值，效果好不好可以说完全看人品了，但毕竟也没有什么好的替代方法。

这篇论文里作者们提出了一种不随机的、生成对后续优化有帮助的网络初始值的方法。这个方法来源于这个假说：好的初始值能让梯度下降从一个局部线性、二阶影响小的位置开始，这样就能得到更好的梯度下降过程。作者们把这个假说做了公式化的描述，从而可以在任意网络架构或者数据集上计算 —— 虽然这个过程也是用梯度下降计算的，但能快速找到好的权重初始值。

作者们在正常连接的神经网络和带有残差连接的神经网络上都进行了实验，结果表明，通过他们的方法找到好的初始值从而训练出的网络不仅可以在没有批标准化、没有残差连接的情况下获得和最好的模型相当的表现，而且也可以自动地把网络从不好的初始值里拯救出来。这个方法有一定的拓展性，可以用在ResNet-50的ImageNet训练上。