这场讨论揭示了一个朴素的道理:工具的易用性和性能往往是trade-off。Ollama降低了门槛,llama.cpp释放了上限。当你准备好深入理解每个参数的含义时,性能的提升会让你惊叹——同样的硬件,完全不同的体验。
我们很高兴地宣布,可以将基于OpenCL的全新后端用于llama.cpp项目。此项工作针对骁龙SoC中的高通Adreno GPU进行了充分优化,标志着本公司持续努力提高llama.cpp的性能和多功能性的重要里程碑;作为得到广泛认可的项目,llama.cpp针对大语言模型(LLM),并一直在开源 ...
【新智元导读】T-MAC是一种创新的基于查找表(LUT)的方法,专为在CPU上高效执行低比特大型语言模型(LLMs)推理而设计,无需权重反量化,支持混合精度矩阵乘法(mpGEMM),显著降低了推理开销并提升了计算速度。 为增强设备上的智能性,在边缘设备部署大型 ...
我们很高兴地宣布目前可以提供适用于llama.cpp的全新OpenCL后端,这是一个得到广泛认可、并专注于大语言模型(LLM)推理的开源项目。该后端针对高通Adreno GPU进行了优化,可支持一系列流行的大型语言模型,包括最新的DeepSeek R1模型。此项成就表明在人工智能 ...
为增强设备上的智能性,在边缘设备部署大型语言模型(LLMs)成为了一个趋势,比如微软的Windows 11 AI + PC。 目前部署的大语言模型多会量化到低比特。然而,低比特LLMs在推理过程中需要进行低精度权重和高精度激活向量的混合精度矩阵乘法(mpGEMM)。现有的 ...
T-MAC 是一种创新的基于查找表(LUT)的方法,专为在 CPU 上高效执行低比特大型语言模型(LLMs)推理而设计,无需权重反量化,支持混合精度矩阵乘法(mpGEMM),显著降低了推理开销并提升了计算速度。 为增强设备上的智能性,在边缘设备部署大型语言模型 ...
在CPU上高效部署低比特大语言模型 T-MAC是一种创新的基于查找表(LUT)的方法,专为在CPU上高效执行低比特大型语言模型(LLMs)推理而设计,无需权重反量化,支持混合精度矩阵乘法(mpGEMM),显著降低了推理开销并提升了计算速度。 为增强设备上的智能性 ...
虽然训练大语言模型可能需要数百万甚至数十亿美元的基础设施,但这些劳动成果往往比你想象的更容易获得。许多最新发布的模型,包括阿里巴巴的Qwen 3和OpenAI的gpt-oss,甚至可以在普通PC硬件上运行。 如果你真的想了解大语言模型的工作原理,在本地运行一个 ...
Jeffrey Hui, a research engineer at Google, discusses the integration of large language models (LLMs) into the development process using Llama.cpp, an open-source inference framework. He explains the ...
谷歌程序员Justine Tunney将Llama推理速度提升500%。 【导读】近日,天才程序员Justine Tunney发推表示自己更新了Llamafile的代码,通过手搓84个新的矩阵乘法内核,将Llama的推理速度提高了500%! 谷歌的美女程序员,将Llama的推理速度提高了500%! 近日,天才程序员Justine ...