This paper presents ACT (Allocate Connections between Texts), a novel three-stage algorithm for the automatic detection of biblical quotations in Rabbinic literature. Unlike existing text reuse frameworks that struggle with short, paraphrased, or structurally embedded quotations, ACT combines a morphology-aware alignment algorithm with a context-sensitive enrichment stage that identifies complex citation patterns such as "Wave" and "Echo" quotations. Our approach was evaluated against leading systems, including Dicta, Passim, Text-Matcher, as well as human-annotated critical editions. We further assessed three ACT configurations to isolate the contribution of each component. Results demonstrate that the full ACT pipeline (ACT-QE) outperforms all baselines, achieving an F1 score of 0.91, with superior Recall (0.89) and Precision (0.94). Notably, ACT-2, which lacks stylistic enrichment, achieves higher Recall (0.90) but suffers in Precision, while ACT-3, using longer n-grams, offers a tradeoff between coverage and specificity. In addition to improving quotation detection, ACT's ability to classify stylistic patterns across corpora opens new avenues for genre classification and intertextual analysis. This work contributes to digital humanities and computational philology by addressing the methodological gap between exhaustive machine-based detection and human editorial judgment. ACT lays a foundation for broader applications in historical textual analysis, especially in morphologically rich and citation-dense traditions like Aggadic literature.


翻译:本文提出ACT(文本关联分配算法),一种用于自动检测拉比文献中圣经引用的新颖三阶段算法。与现有难以处理简短、转述或结构嵌入引用的文本复用框架不同,ACT结合了形态感知对齐算法与上下文敏感的增强阶段,能够识别"波浪型"和"回声型"等复杂引用模式。我们通过对比Dicta、Passim、Text-Matcher等主流系统以及人工标注的评注版本来评估该方法,并进一步测试三种ACT配置以分析各组件贡献。结果表明,完整ACT流程(ACT-QE)以0.91的F1值优于所有基线系统,其中召回率(0.89)与精确率(0.94)表现突出。值得注意的是,缺乏文体增强的ACT-2虽获得更高召回率(0.90)但精确率下降,而使用更长n-gram的ACT-3则在覆盖范围与特异性之间取得平衡。除提升引用检测能力外,ACT对跨语料库文体模式的分类功能为体裁分类与互文分析开辟了新途径。本研究通过弥合机器全自动检测与人工编辑判断之间的方法论鸿沟,为数字人文与计算文献学作出贡献。ACT为历史文本分析(特别是在阿加达文献这类形态丰富且引用密集的传统中)的更广泛应用奠定了基础。

0
下载
关闭预览

相关内容

144页ppt《扩散模型》,Google DeepMind Sander Dieleman
专知会员服务
48+阅读 · 11月21日
论文浅尝 | Interaction Embeddings for Prediction and Explanation
开放知识图谱
11+阅读 · 2019年2月1日
论文笔记之attention mechanism专题1:SA-Net(CVPR 2018)
统计学习与视觉计算组
16+阅读 · 2018年4月5日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
8+阅读 · 2014年12月31日
Arxiv
0+阅读 · 12月25日
VIP会员
相关基金
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
8+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员