文本分类器对伪相关的依赖可能导致在部署时的泛化性能下降,这引发了对其在像医疗健康这样的关键安全领域使用的担忧。在这项工作中,我们提议使用基于数据的因果结构知识的反事实数据增强,来模拟对伪特征的干预,并学习更鲁棒的文本分类器。我们展示了这种策略在标签与属性伪相关的预测问题中是适当的。在这类问题的假设下,我们讨论了反事实数据增强相对于重要性重新加权的有利样本复杂性。从实用角度,我们使用基于差异-差异方法的辅助数据匹配示例,并使用大型语言模型(LLM)来表示文本的条件概率。通过在学习从医疗叙述中预测临床诊断的照料者不变预测器以及在半合成数据上的广泛实验,我们证明了我们的干预模拟方法比基线不变学习算法有更好的分布外(OOD)准确性。