计算系统已经在现代世界中变得无处不在,但它们的设计远非“一刀切”。从电池供电设备到超级计算机,部署需求是计算机设计中异构性的重要驱动力。由于现代系统依赖并行性和专业化来实现其性能和功耗目标,新挑战也随之而来。随着硬件模块数量的增加,系统的复杂性也在增加,这使得正确和安全行为的验证变得更加复杂。此外,将并行化扩展到更多的处理单元(PUs)会增加对内存层次结构和处理单元间网络的压力,从而导致在处理具有间接内存访问(IMAs)的图状数据结构的应用程序时出现严重的瓶颈。这些挑战要求重新思考软件抽象和硬件设计,以实现可扩展和高效的系统,并引入强大的方法来确保其正确性。我的论文旨在通过三个主要方向来解决这些挑战。首先,为了便于硬件设计师将形式验证应用于他们的模块,本文引入了AutoSVA,这是一种从模块接口注释生成形式验证测试平台的工具流程。使用AutoSVA生成的测试平台已经在开源项目中发现了漏洞,包括一个广泛使用的RISC-V CPU。其次,为了在不增加验证复杂性的情况下缓解IMA延迟,本文介绍了MAPLE,这是一种支持数据流水线和预取的网络连接内存访问引擎,无需修改PU。因此,现成的PUs可以将IMAs卸载到MAPLE,并通过软件管理的队列消费数据。使用MAPLE可以有效地减轻内存延迟,提供比软件和硬件预取快2倍的速度提升。第三,为了进一步提高图和稀疏工作负载的可扩展性,本文共同设计了一个数据中心执行模型的扩展架构,Dalorex,在这个模型中,IMAs被分割成仅访问受限地址范围的任务,并在具有专用访问该内存范围的PU上执行。跨越一百万个PUs并行执行一个具有十亿条边的图的广度优先搜索,比Graph500的顶级条目快了近一个数量级的运行时间。通过引入新颖的硬件设计、执行模型和验证工具,本论文为解决日益增长的对高性能、能效和成本效益计算系统的需求所带来的挑战作出了贡献。