近年来,事件提取由于其在许多应用中的潜力而受到了广泛关注。然而,近期研究发现一些评估挑战,表明报告的分数可能无法反映真实性能。在这项工作中,我们首先识别并讨论这些评估挑战,包括由于关于数据的不同假设或不同数据预处理步骤而导致的不公平比较,当前评估框架的不完整性导致的潜在数据集偏差或数据切分偏差,以及先前研究的低可复现性。为了应对这些挑战,我们提出了TEXTEE,一个标准化、公平且可复现的事件提取基准。TEXTEE包含了针对不同领域十多个数据集的标准化数据预处理脚本和切分。此外,我们汇总并重新实现了近年来发表的十多种事件提取方法,并进行了全面的重新评估。最后,我们探讨了大型语言模型在事件提取中的能力,并讨论了一些未来的挑战。我们期望TEXTEE将作为事件提取领域的一个可靠基准,促进该领域的未来研究。