项目名称: 极大似然minwise哈希估计子研究
项目编号: No.61402165
项目类型: 青年科学基金项目
立项/批准年度: 2014
项目学科: 自动化技术、计算机技术
项目作者: 袁鑫攀
作者单位: 湖南工业大学
项目金额: 27万元
中文摘要: 文档相似性检测的数据具有海量性和多样性的特点,Minwise哈希能有效解决海量数据相似性求解的时间、空间复杂度高的问题,是信息检索的前沿研究领域,具有研究潜力和应用价值。为突破目前相似性检测中指纹生成效率和估计精度较低的瓶颈难题,本项目在已有文档相似性检测的研究基础上,研究最为核心的Minwise哈希估计理论,着力解决两个关键科学问题:1)突破随机排列的限制,研究无需随机排列的指纹生成方法,提高哈希过程的效率;2)建立高精度极大似然minwise哈希估计子以及对所构建的估计子模型进行测试、验证和评价,实现高有效性与高准确性的相似度检测机制。本项目研究成果将为文档相似性检测提供新的估计方法和工具,较大提高文档相似性检测的效率和精度。
中文关键词: 相似性度量;局部敏感哈希;极大似然估计子;文档相似性检测;Minwise哈希
英文摘要: The data of document similarity detection is massive and diversity, Minwise hash can effectively solve the problem of high time complexity and space complexity for searching similarity of the huge amount of data, is cutting-edge research in the field of i
英文关键词: Similarity measurement;Local sensitive Hash;Maximum likelihood estimator;Document similarity detection;Minwise Hash