cache论文 - 专知

会员服务 ·

cache

Robustifying Learning-Augmented Caching Efficiently without Compromising 1-Consistency

Arxiv

0+阅读 · 11月1日

H2-Cache: A Novel Hierarchical Dual-Stage Cache for High-Performance Acceleration of Generative Diffusion Models

Arxiv

0+阅读 · 10月31日

Choreographer: A Full-System Framework for Fine-Grained Tasks in Cache Hierarchies

Choreographer: A Full-System Framework for Fine-Grained Tasks in Cache Hierarchies

Arxiv

0+阅读 · 10月30日

Category-Aware Semantic Caching for Heterogeneous LLM Workloads

Arxiv

0+阅读 · 10月29日

Tokencake: A KV-Cache-centric Serving Framework for LLM-based Multi-Agent Applications

Arxiv

0+阅读 · 10月31日

SpecAttn: Speculating Sparse Attention

SpecAttn: Speculating Sparse Attention

Arxiv

0+阅读 · 10月31日

GPU-Accelerated Primal Heuristics for Mixed Integer Programming

Arxiv

0+阅读 · 10月30日

PureKV: Plug-and-Play KV Cache Optimization with Spatial-Temporal Sparse Attention for Vision-Language Large Models

PureKV: Plug-and-Play KV Cache Optimization with Spatial-Temporal Sparse Attention for Vision-Language Large Models

Arxiv

0+阅读 · 10月30日

Oneiros: KV Cache Optimization through Parameter Remapping for Multi-tenant LLM Serving

Arxiv

0+阅读 · 10月29日

RegionE: Adaptive Region-Aware Generation for Efficient Image Editing

Arxiv

0+阅读 · 10月29日

PureKV: Plug-and-Play KV Cache Optimization with Spatial-Temporal Sparse Attention for Vision-Language Large Models

Arxiv

0+阅读 · 10月29日

Serve Programs, Not Prompts

Arxiv

0+阅读 · 10月29日

SALS: Sparse Attention in Latent Space for KV cache Compression

Arxiv

0+阅读 · 10月28日

Leveraging Approximate Caching for Faster Retrieval-Augmented Generation

Arxiv

0+阅读 · 10月27日

Fundamental Limits of Coded Caching with Fixed Subpacketization

Arxiv

0+阅读 · 10月25日

参考链接

微信扫码咨询专知VIP会员