上期我们讲了现代计算机体系结构通过处理器(CPU/GPU)和内存的交互来执行计算程序,处理输入数据,并输出结果。实际上 ...
前不久的一则新闻,曝光了三星即将推出的Exynos芯片的图形性能。这颗应用于未来三星手机的SoC芯片,据说其3DMark Wild Life跑分达到了8134分。这个性能成绩比高通骁龙888的Adreno 660高出大约50%。至于和苹果A14比,我们手头没有可现测的设备,有媒体提到8134这个得分 ...
DeepSeek-V3.2-Exp 所搭载的稀疏化 Attention 计算,在长上下文场景中成功降低了推理延迟。但在 PD 分离架构下,随着序列长度不断增长,Decode 阶段的吞吐受限问题愈发凸显。核心症结在于,Decode 过程中 Latent Cache 规模会随序列长度呈线性增长,而 GPU 显存容量有限 ...
GPU 性能没问题,模型也训练得不错,但 token 吞吐量就是上不去?问题多半出在 KV-cache 上。本文整理了 10 个实际可用的优化方向,都是能直接上生产环境的那种。 把 utilization 往上调,直到不再频繁出现 preemption;然后再调 max-num-seqs,让批次保持密集但别超出 ...
【新智元导读】GPU一块没加,代码一行没改,仅靠重构组网架构就让推理集群多挤出15%的算力!中美大模型厂商不约而同押注同一个判断:网络,才是AI基础设施的下一个主战场。 Vibe Coding太火了! 几乎所有人都一夜之间进入了「说人话就写代码」的新纪元。 问题来了,如何打造更极致的算力支持? 有人开始对网络动刀了。 就在本月,OpenAI联合NVIDIA、AMD、Intel、Microsoft、 ...
当大语言模型(LLM)走向千行百业,推理效率与显存成本的矛盾日益尖锐。 KV Cache (Key-Value Cache)作为提升生成速度的核心技术,却像一个 “吞存巨兽”—— 每增加一个 token,就需要更多显存存储键(Key)和值(Value)向量,最终成为制约模型规模扩张、并发 ...
第三,CPU+GPU架构可以共享内存空间,消除冗余内存副本来改善问题。在此前的技术中,虽然GPU和CPU已整合到同一个芯片上,但是芯片在运算时要定位内存的位置仍然得经过繁杂的步骤,这是因为CPU和GPU的内存池仍然是独立运作。为了解决两者内存池独立的运算问题,当CPU程式需要在GPU上进行部分运算时,CPU都必须从CPU的内存上复制所有的资料到GPU的内存上,而当GPU上的运算完成时,这些资料还得 ...
英伟达发布GB300/B300,性能提升50%,供应链重构。 【导读】英伟达的圣诞大礼包曝光,最强B300、GB300算力和显存直接提高50%,模型推理训练性能史诗级提升,同时还打破了利润率下降的魔咒。 多亏了老黄,圣诞节如期而至。 尽管Blackwell GPU多次因硅片、封装和底板问题而推迟发布,但这并不能阻挡他们前进的脚步。 距离GB200和B200的发布才刚刚过去几个月,英伟达便推出了全新 ...
IT之家5 月 13 日消息,联想今日发布了一系列新品,包括 ThinkStation P4 工作站。这款工作站将于今年 6 月起在全球部分市场上市,价格届时公布。 联想称其为全球首款同时搭载 AMD 锐龙 Pro 9000 系列处理器与 NVIDIA RTX Pro 6000 Blackwell 工作站版 GPU 的产品,可选 AMD 3D V-Cache 处理器版本。 这款工作站体积仅有 30 ...
深耕 AI 存储领域 华瑞指数云发布 KV Cache 存储核心技术,时延,io,寻址,上下文 ...
IT之家 5 月 13 日消息,在今天上午的联发科天玑开发者大会 2026 上,联发科宣布天玑星速引擎将迎来“全面进化”,从三大层面赋能开发者,在移动手游中实现媲美主机游戏的沉浸体验。 据介绍,天玑星速引擎的三大核心能力如下: 全星光影:天玑 Ray Tracing ...