GPU Cache - 搜索 News

GPU: 衡量计算效能的正确姿势（3）

上期我们讲了现代计算机体系结构通过处理器（CPU/GPU）和内存的交互来执行计算程序，处理输入数据，并输出结果。实际上 ...

谈谈三星手机上的AMD GPU，秒杀iPhone还有多远？

前不久的一则新闻，曝光了三星即将推出的Exynos芯片的图形性能。这颗应用于未来三星手机的SoC芯片，据说其3DMark Wild Life跑分达到了8134分。这个性能成绩比高通骁龙888的Adreno 660高出大约50%。至于和苹果A14比，我们手头没有可现测的设备，有媒体提到8134这个得分 ...

腾讯网

突破显存瓶颈：基于 DeepSeek-V3.2-Exp 的 Latent Cache 卸载预取方案设计与 ...

DeepSeek-V3.2-Exp 所搭载的稀疏化 Attention 计算，在长上下文场景中成功降低了推理延迟。但在 PD 分离架构下，随着序列长度不断增长，Decode 阶段的吞吐受限问题愈发凸显。核心症结在于，Decode 过程中 Latent Cache 规模会随序列长度呈线性增长，而 GPU 显存容量有限 ...

腾讯网

vLLM 吞吐量优化实战：10个KV-Cache调优方法让tokens/sec翻倍

GPU 性能没问题，模型也训练得不错，但 token 吞吐量就是上不去？问题多半出在 KV-cache 上。本文整理了 10 个实际可用的优化方向，都是能直接上生产环境的那种。把 utilization 往上调，直到不再频繁出现 preemption；然后再调 max-num-seqs，让批次保持密集但别超出 ...

15 天

【新智元导读】GPU一块没加，代码一行没改，仅靠重构组网架构就让推理集群多挤出15%的算力！中美大模型厂商不约而同押注同一个判断：网络，才是AI基础设施的下一个主战场。 Vibe Coding太火了！几乎所有人都一夜之间进入了「说人话就写代码」的新纪元。问题来了，如何打造更极致的算力支持？有人开始对网络动刀了。就在本月，OpenAI联合NVIDIA、AMD、Intel、Microsoft、 ...

新浪网

榨干GPU性能，中兴Mariana（马里亚纳）突破显存壁垒

当大语言模型（LLM）走向千行百业，推理效率与显存成本的矛盾日益尖锐。 KV Cache （Key-Value Cache）作为提升生成速度的核心技术，却像一个 “吞存巨兽”—— 每增加一个 token，就需要更多显存存储键（Key）和值（Value）向量，最终成为制约模型规模扩张、并发 ...

3 年

CPU+GPU异构计算成芯片巨头新宠

第三，CPU+GPU架构可以共享内存空间，消除冗余内存副本来改善问题。在此前的技术中，虽然GPU和CPU已整合到同一个芯片上，但是芯片在运算时要定位内存的位置仍然得经过繁杂的步骤，这是因为CPU和GPU的内存池仍然是独立运作。为了解决两者内存池独立的运算问题，当CPU程式需要在GPU上进行部分运算时，CPU都必须从CPU的内存上复制所有的资料到GPU的内存上，而当GPU上的运算完成时，这些资料还得 ...

5 个月

英伟达年终大礼，最强AI GPU曝光，全新B300让o1/o3推理性能上天算力爆表

英伟达发布GB300/B300，性能提升50%，供应链重构。【导读】英伟达的圣诞大礼包曝光，最强B300、GB300算力和显存直接提高50%，模型推理训练性能史诗级提升，同时还打破了利润率下降的魔咒。多亏了老黄，圣诞节如期而至。尽管Blackwell GPU多次因硅片、封装和底板问题而推迟发布，但这并不能阻挡他们前进的脚步。距离GB200和B200的发布才刚刚过去几个月，英伟达便推出了全新 ...

23 天

AMD 3D V-Cache 首次登陆专业工作站：联想 ThinkStation P4 首发，搭载英伟 ...

IT之家5 月 13 日消息，联想今日发布了一系列新品，包括 ThinkStation P4 工作站。这款工作站将于今年 6 月起在全球部分市场上市，价格届时公布。联想称其为全球首款同时搭载 AMD 锐龙 Pro 9000 系列处理器与 NVIDIA RTX Pro 6000 Blackwell 工作站版 GPU 的产品，可选 AMD 3D V-Cache 处理器版本。这款工作站体积仅有 30 ...