©作者 | 星衍研究院
单位 | 摄星智能
星河搜索,是由摄星智能科技有限公司(starsee)研发的全球视角智能防务信息服务平台(https://xinghe.starsee.cn)。该平台在设计之初,就立足于运用先进的大数据与人工智能技术,实现军事领域开源海量数据的智能挖掘与处理,为广大互联网用户提供专业优质的军事信息服务。其在设计和实现的过程中运用了大量的团队在人工智能和大数据领域的核心技术。
▲星河搜索产品
跨模态信息挖掘与场景理解
实现多模态数据综合应用
人类对外界的感知和理解是全方位的、多模态的,通过“耳濡目染”、“沁人心脾”才能“触景生情”。反观现有的人工智能技术的研究,却是不同模态各自发展的,研究领域被人为划分为计算机视觉、自然语言处理、语音识别等,这就造成了不同模态数据应用上的鸿沟,使得算法与模型对客观世界的认识是片面的、碎片化的。针对这一问题,星河搜索将跨模态数据的处理与分析作为首要目标,并通过图像、视频的多层次语义级理解,多语种语音自动识别与对齐,图像、视频中实体自动识别与关联等技术,打通了各模态之间的隔阂,实现了多模态数据的结构化映射,跨模态数据的检索等,使得用户可以全面的获取搜索对象的多模态信息。
▲人物属性自动识别与关联,演说内容自动识别
消除实体对齐的歧义性
对于实体的抽取与关联是建立实体图谱的前提条件,由于星河搜索面对海量复杂的信息来源,同一个实体会由于其数据源的语种、模态、场景会造成大量的歧义。如何识别同一个实体的不同歧义项,是保证不同源信息准确关联的关键。针对这一问题,星河搜索在实体抽取中引入概率图以及先验模型,以概率的方式将先验知识与与训练模型相结合,从而提高实体抽取的准确性;在实体关联时,通过对实体的其他属性信息(如国别、地域、机构等)进行表征学习和检索,消除歧义,提高关联的准确性。
有终身的持续学习是人类所具备的基本技能,而这种基本技能确是现有的机器学习技术,特别是以深度学习为代表的新一代机器学习技术所不具备的。这主要是由于数据驱动模型所固有的“灾难性遗忘”的特性所导致的,这也造成了深度学习模型像狗熊掰玉米一样,学了新的忘了旧的。而对于星河搜素,每天需要面对大量纷繁复杂的多模态数据,并且很多信息都具有实效性,这就使得在线持续的从新数据中学习,并且不断的矫正旧知识成为刚需。针对这一问题,星河搜索通过综合最新的领域自适应、小样本学习、对抗性训练、鲁棒性训练以及深度学习模型可解释等领域的研究成果,以非常低的成本,实现了模型对新知识的增量学习和动态更新。
如上面的分析,深度神经网络逐渐成为现有机器学习领域研究的支撑技术,因此深度神经模型性能调校的水平,直接决定上层应用效果的好坏。通过长期在该领域的深耕,星河搜索也积累了一系列深度神经网络模型设计与调教的方法。如跨模态模型的在线知识蒸馏,实现不同模态之间知识的动态流动和对齐;模型的压缩与动态推理,使得模型可以针对不同任务激活部分神经元参与计算;模型的可解释分析与构建,揭示深度学习模型的推理过程。通过这些原创性方法,使得星河搜索构建在坚实可靠的深度学习模型和算法的基础上,从而使其性能优于一般的开源方法与模型。
摄星智能科技有限公司 (Starsee) 成立于 2018 年 9 月,是国内第一家军事智能化企业,公司通过引入先进的人工智能技术和作战理念,将自主研发的军用智能算法和软件在不同硬件产品形态上实现集成,为未来智能化作战增效赋能。
星河搜索(https://xinghe.starsee.cn),摄星智能旗下自研的面向全球视角的智能防务信息服务平台。基于开源互联网数据,融汇贯穿泛军事、全球化、全链路、多模态、多语言的开源信息,综合运用人工智能和大数据技术,实现了智能数据采集、深度知识挖掘、多模态情报分析、智能态势感知和辅助决策等能力,为互联网上的广大军事爱好者、军工从业人员、现(退)役军人以及其它用户群体,提供军事动态实时推送、目标图像精准识别、人物/装备一点链网、军事文献深析汇聚、军事知识综合检索等功能和服务。
点击文章底部阅读原文
即可体验星河搜索
摄星智能近期开启新一轮「百万年薪人才引进计划」,大力招募资深算法专家、NLP、CV、机器学习等方向的精英人才,主要负责新型产品研发及领域内技术科研工作。欢迎优秀人才加入摄星,一起为国防智能化建设贡献力量。
简历投递:sunyu@starsee.cn
🔍
现在,在「知乎」也能找到我们了
进入知乎首页搜索「PaperWeekly」
点击「关注」订阅我们的专栏吧