GPUs论文 - 专知

会员服务 ·

GPUs

AMD MI300X GPU Performance Analysis

AMD MI300X GPU Performance Analysis

Arxiv

0+阅读 · 10月31日

Learning Sparse Approximate Inverse Preconditioners for Conjugate Gradient Solvers on GPUs

Learning Sparse Approximate Inverse Preconditioners for Conjugate Gradient Solvers on GPUs

Arxiv

0+阅读 · 10月31日

TokenWeave: Efficient Compute-Communication Overlap for Distributed LLM Inference

Arxiv

0+阅读 · 10月30日

Plexus: Taming Billion-edge Graphs with 3D Parallel Full-graph GNN Training

Arxiv

0+阅读 · 10月29日

Serving LLMs in HPC Clusters: A Comparative Study of Qualcomm Cloud AI 100 Ultra and NVIDIA Data Center GPUs

Arxiv

0+阅读 · 10月28日

A GPU-based Compressible Combustion Solver for Applications Exhibiting Disparate Space and Time Scales

Arxiv

0+阅读 · 10月28日

FAARM: Firmware Attestation and Authentication Framework for Mali GPUs

Arxiv

0+阅读 · 10月26日

Collective Communication for 100k+ GPUs

Arxiv

0+阅读 · 10月24日

RLBoost: Harvesting Preemptible Resources for Cost-Efficient Reinforcement Learning on LLMs

Arxiv

0+阅读 · 10月24日

FlashMP: Fast Discrete Transform-Based Solver for Preconditioning Maxwell's Equations on GPUs

Arxiv

0+阅读 · 10月23日

Serving LLMs in HPC Clusters: A Comparative Study of Qualcomm Cloud AI 100 Ultra and NVIDIA Data Center GPUs

Arxiv

0+阅读 · 10月22日

Collective Communication for 100k+ GPUs

Arxiv

0+阅读 · 10月23日

RLBoost: Harvesting Preemptible Resources for Cost-Efficient Reinforcement Learning on LLMs

Arxiv

0+阅读 · 10月22日

Improving training time and GPU utilization in geo-distributed language model training

Arxiv

0+阅读 · 10月18日

Generalized Methodology for Determining Numerical Features of Hardware Floating-Point Matrix Multipliers: Part I

Arxiv

0+阅读 · 9月3日

参考链接

微信扫码咨询专知VIP会员