新智元报道
来源:VB
编辑:王汐,元子
听说过FlyHash吗?这个算法的灵感来自于果蝇的嗅觉回路,它可以产生哈希码——物体的数字表示——其性能优于经典算法。不幸的是,由于FlyHash使用随机投影,它无法从数据中学习。
为了克服这一限制,普林斯顿大学、圣地亚哥大学、IBM Research和MIT-IBM Watson AI实验室的研究人员开发了BioHash,它应用“局部”和“生物学上合理的”突触可塑性规则来生成hash码。他们说,它比之前发布的各种哈希方法的基准测试都要好,而且它可以生成对相似度搜索有用的二进制表示。
正如研究人员在一份预先印刷的论文中详细解释他们的工作,这种被称为扩展表征的现象在神经生物学中几乎无处不在。在此上下文中,“扩展”是指将高维输入数据映射到甚至更高维的辅助表示。例如,在上面提到的果蝇嗅觉系统中,大约有50个神经元将它们的活动发送到大约2500个叫做Kenyon的细胞中,实现了大约50倍的扩展。
从计算的角度来看,扩展可以增加AI模型的内存存储容量。正是基于这种动机,该团队设计了散列算法BioHash,可用于相似度搜索。
在相似度搜索中,给定一个查询、一个相似度度量和一个包含任意数量项的数据库,目标是从数据库中检索与查询最相似的项的排序列表。当数据是高维的(例如图像或文档),而数据库很大(以百万或数十亿计的条目为单位),这在计算上是一个具有挑战性的问题。但是,近似解通常是可以接受的,包括一种称为位置敏感哈希(LHS)的哈希方案,其中每个数据库条目都用二进制表示进行编码,并检索密切相关的条目。
FlyHash利用LHS, BioHash也是如此。但重要的是,BioHash速度更快,可扩展性更强。
研究人员在MNIST和CIFAR-10上对Biohash进行了培训和测试。MNIST是一组包含7万张灰度图像的手写数字,其中10类数字从“0”到“9”不等,CIFAR-10是一个包含6万张来自10类数字(如“car”、“bird”)的数据集。他们说,BioHash在速度方面表现出了最好的检索性能,远远超过了其他方法,而BioHash的改进版本——BioConvHash——由于加入了专门构建的过滤器,性能甚至更好。
该团队断言,这提供了证据,说明扩展表示之所以在生物中普遍存在,是因为它们执行LHS。换句话说,他们把相似的刺激聚在一起,把不同的刺激分开。“我们的工作为以下提议提供了证据:LHS可能是稀疏膨胀电路利用的基本计算原理……Biohash以数据驱动的方式产生稀疏的高维哈希码,并以神经生物学上可行的方式学习突触。”
事实证明,神经生物学和机器学习领域是密切相关的。谷歌母公司Alphabet旗下的DeepMind本月早些时候发表了一篇论文,研究大脑是否以概率分布(一种提供不同结果发生概率的数学函数)而非单一平均值来代表未来可能的奖励。谷歌和马克斯·普朗克神经生物学研究所的科学家最近展示了一种递归神经网络——一种经常用于手写和语音识别的机器学习算法——它可以映射大脑的神经元。
参考链接:
https://venturebeat.com/2020/01/21/ibms-biologically-inspired-ai-generates-hash-codes-faster-than-classical-approaches/