We propose a probabilistic setting in which we study the probability law of the Rajaraman and Ullman \textit{RU} algorithm and a modified version of it denoted by \textit{RUM}. These algorithms aim at estimating the similarity index between huge texts in the context of the web. We give a foundation of this method by showing, in the ideal case of carefully chosen probability laws, the exact similarity is the mathematical expectation of the random similarity provided by the algorithm. Some extensions are given. \noindent \textbf{R\'{e}sum\'{e}.} Nous proposons un cadre probabilistique dans lequel nous \'{e}tudions la loi de probabilit\'{e} de l'algorithme de Rajaraman et Ullman \textit{RU} ainsi qu'une version modifi\'{e}e de cet algorithme not\'{e}e \textit{RUM}. Ces alogrithmes visent \`{a} estimer l'indice de la similarit\'{e} entre des textes de grandes tailles dans le contexte du Web. Nous donnons une base de validit\'e de cette m\'{e}thode en montrant que pour des lois de probabilit\'{e}s minutieusement choisies, la similarit\'{e} exacte est l'esp\'{e}rance math\'{e}matique de la similarit\'{e} al\'{e}atoire donn\'{e}e par l'algorithme \textit{RUM}. Des g\'en\'eralisations sont abord\'ees.
翻译:我们提出一种概率设置, 用于研究 Rajaraman 和 Ullman 的概率法, 以及由\ textit{ RU} 表示的该算法的修改版本。 这些算法旨在估算在网络背景下巨大的文本之间的相似性指数。 在仔细选择的概率法的理想情况下, 我们给出了这种方法的基础, 它的精确相似性是算法所提供的随机相似性的数学期望。 提供了一些扩展 。\ nnoindente\ textbf{ R\\\ suite} sum\\ e}}} sum\\ e} 。 no moreus de contabiltique dans de'e} lob' de l'gabilthme de d'e} de l'gajaraman 和 Ullman\ text{RU} 是一个数学版本的数学期待值 。