Pattern matching can be used to calculate the support of patterns, and is a key issue in sequential pattern mining (or sequence pattern mining). Nonoverlapping pattern matching means that two occurrences cannot use the same character in the sequence at the same position. Approximate pattern matching allows for some data noise, and is more general than exact pattern matching. At present, nonoverlapping approximate pattern matching is based on Hamming distance, which cannot be used to measure the local approximation between the subsequence and pattern, resulting in large deviations in matching results. To tackle this issue, we present a Nonoverlapping Delta and gamma approximate Pattern matching (NDP) scheme that employs the (delta, gamma)-distance to give an approximate pattern matching, where the local and the global distances do not exceed delta and gamma, respectively. We first transform the NDP problem into a local approximate Nettree and then construct an efficient algorithm, called the local approximate Nettree for NDP (NetNDP). We propose a new approach called the Minimal Root Distance which allows us to determine whether or not a node has root paths that satisfy the global constraint and to prune invalid nodes and parent-child relationships. NetNDP finds the rightmost absolute leaf of the max root, searches for the rightmost occurrence from the rightmost absolute leaf, and deletes this occurrence. We iterate the above steps until there are no new occurrences. Numerous experiments are used to verify the performance of the proposed algorithm.
翻译:模式匹配模式可以用来计算模式的支持, 并且是连续模式采矿( 或序列模式采矿) 中的一个关键问题。 不重叠模式匹配意味着两个事件无法在同一位置的序列中使用相同字符。 近似模式匹配允许某些数据噪音, 并且比精确模式匹配更为一般。 目前, 不重叠类型匹配可以基于 Hamming 距离, 它不能用来测量子序列和模式之间的本地近距离, 从而导致匹配结果的巨大偏差 。 为了解决这个问题, 我们提出了一个不重复使用 Delta 和 gamal 近似模式匹配( NDP) 方案, 使用( delta, gam) 距离来提供近似模式匹配, 在同一位置的序列序列中, 两处的本地和全球距离不高于 delta 和 gamma 。 我们首先将 NDP 问题转换为本地近似 Nettree 的距离, 然后构建一个有效的算法, 这个算法不能用来测量子序列与 NDP (NetNDP ) 之间的本地近距离, 我们提议了一个新的方法, 叫做 Minmal Learm, 它能确定是否有根路是否满足了全球制约度, 和 最接近的直径的直径的直径搜索。 。 。 右 右 和右 右 右 右 和右 右 右 右 和右 右 右 右 右 右 右 右 右 右 的 右 右 右 右 右 右 右 右 右 右 右 右 右 右 右 右 右 右 右 右 右 右 右 右 右 右 右 右 右 右 右 右 右 右 右 右 右 右 右 右 右 右 右 右 右 右 右 右 右 右 右 右 右 右 右 右 右 右 右 右 右 右 右 右 右 右 右 右 右 右 右 右 右 右 右 右 右 右 右 右 右 右 右 右 右 右 右 右 右 右 右 右 右 右 右 右