项目名称: 专利文献的要素组合拓朴结构及向量空间语义表示与相似度计算研究
项目编号: No.71403107
项目类型: 青年科学基金项目
立项/批准年度: 2014
项目学科: 管理科学
项目作者: 王秀红
作者单位: 江苏大学
项目金额: 20万元
中文摘要: 为提高专利文献相似计算精准率和召回率,针对专利文献内容结构和用词造句特点,(1)对与相似计算有关的要素进行筛选、综合和整序,构建专利文献要素组合拓朴结构(TECP),依据词项在TECP中的节点位置不同赋予专利文献向量空间模型(PVSM)中词项位置权值;(2)利用领域词典MED、DWPI和国际专利分类IPC体系协同构建制药样本专利知识库,用于赋予PVSM中词项语义权值,以进一步提高PVSM语义表示的准确性;(3)构造核函数P核,包含针对用词造句特点并基于TECP设计的P因子、线性因子和欧氏距离因子,对P核进行理论证明,优化核参数使具有好的针对性、泛化和学习性能。最后,在进行专利文献相似度计算时,先用P核计算两个待比对专利文献TECP同要素的PVSM间的相似度,再将不同要素的相似度加权求和得总相似度,以减小计算开销。通过多重交叉验证、专家经验和不同检索目的优化各参数,并实验验证方法的有效性。
中文关键词: 专利文献;用户阅读行为;拓扑结构;核函数;相似度计算
英文摘要: To improve the precision and the recall of patent document retrieval and to reduce the computational cost, the content arrangement and sentence writing of the patent documents is directed to compute the patent document similarity. The research includes: (
英文关键词: patent document;users' reading behavior;topological structure;kernel function;similarity computation