当在非结构化和半结构化环境(如仓库、住宅和零售中心)中操作时,机器人经常需要从杂乱的箱子、货架或桌子中交互式地搜索和检索特定的对象,这些对象可能部分或完全隐藏在其他对象后面。我们将此任务定义为机械搜索,其目标是在尽可能少的操作中检索到目标对象。在这些场景中,由于传感器噪声、遮挡和未知物体特性的存在,鲁棒地感知和操作目标具有挑战性。由于这些感知和操作挑战,从数据中学习端到端的机械搜索策略变得非常困难。相反,我们将机械搜索策略分成三个模块,一个感知模块从输入观察中创建一个中间表示,一组低级操作原语,以及一个高级操作选择策略,该策略根据感知模块的输出迭代选择要执行的低级原语。我们探索了在操作原语方面取得的进展,如推和抓取,带有未知对象的场景分割和占用分布预测,以推断目标对象的可能位置。此外,我们证明了使用模拟的深度图像或点云可以为感知网络快速生成大规模的训练数据集,同时允许它们泛化到真实世界的对象和场景。结果表明,在模拟和物理实验中,与基准策略相比,集成这些组件可以产生一个高效的机械搜索策略,提高15%的成功率,并减少提取目标对象所需的操作次数。