Llama CPP Koboldcpp - 搜索 News

从Ollama到llama.cpp：本地大模型调优的觉醒之路

这场讨论揭示了一个朴素的道理：工具的易用性和性能往往是trade-off。Ollama降低了门槛，llama.cpp释放了上限。当你准备好深入理解每个参数的含义时，性能的提升会让你惊叹——同样的硬件，完全不同的体验。

在llama.cpp中为高通Adreno GPU引入全新的OpenCLTM GPU后端

我们很高兴地宣布，可以将基于OpenCL的全新后端用于llama.cpp项目。此项工作针对骁龙SoC中的高通Adreno GPU进行了充分优化，标志着本公司持续努力提高llama.cpp的性能和多功能性的重要里程碑；作为得到广泛认可的项目，llama.cpp针对大语言模型（LLM），并一直在开源 ...

腾讯网

CPU反超NPU，llama.cpp生成速度翻5倍！LLM端侧部署新范式T-MAC开源

【新智元导读】T-MAC是一种创新的基于查找表（LUT）的方法，专为在CPU上高效执行低比特大型语言模型（LLMs）推理而设计，无需权重反量化，支持混合精度矩阵乘法（mpGEMM），显著降低了推理开销并提升了计算速度。为增强设备上的智能性，在边缘设备部署大型 ...

csdn

在llama.cpp中为高通Adreno GPU 引入新的OpenCL™ GPU后端

我们很高兴地宣布目前可以提供适用于llama.cpp的全新OpenCL后端，这是一个得到广泛认可、并专注于大语言模型（LLM）推理的开源项目。该后端针对高通Adreno GPU进行了优化，可支持一系列流行的大型语言模型，包括最新的DeepSeek R1模型。此项成就表明在人工智能 ...

新浪网

CPU反超NPU，llama.cpp生成速度翻5倍！LLM端侧部署新范式T-MAC开源

为增强设备上的智能性，在边缘设备部署大型语言模型（LLMs）成为了一个趋势，比如微软的Windows 11 AI + PC。目前部署的大语言模型多会量化到低比特。然而，低比特LLMs在推理过程中需要进行低精度权重和高精度激活向量的混合精度矩阵乘法（mpGEMM）。现有的 ...

新浪网

CPU 反超 NPU：LLM 端侧部署新范式 T-MAC 开源，llama.cpp 生成速度翻 5 倍

T-MAC 是一种创新的基于查找表（LUT）的方法，专为在 CPU 上高效执行低比特大型语言模型（LLMs）推理而设计，无需权重反量化，支持混合精度矩阵乘法（mpGEMM），显著降低了推理开销并提升了计算速度。为增强设备上的智能性，在边缘设备部署大型语言模型 ...

36氪

CPU反超NPU，llama.cpp生成速度翻5倍，LLM端侧部署新范式T-MAC开源

在CPU上高效部署低比特大语言模型 T-MAC是一种创新的基于查找表（LUT）的方法，专为在CPU上高效执行低比特大型语言模型（LLMs）推理而设计，无需权重反量化，支持混合精度矩阵乘法（mpGEMM），显著降低了推理开销并提升了计算速度。为增强设备上的智能性 ...

来自MSN

使用Llama.cpp在家中私密运行大语言模型

虽然训练大语言模型可能需要数百万甚至数十亿美元的基础设施，但这些劳动成果往往比你想象的更容易获得。许多最新发布的模型，包括阿里巴巴的Qwen 3和OpenAI的gpt-oss，甚至可以在普通PC硬件上运行。如果你真的想了解大语言模型的工作原理，在本地运行一个 ...

Geeky Gadgets

How to use Google Gemma AI locally with Llama.cpp

Jeffrey Hui, a research engineer at Google, discusses the integration of large language models (LLMs) into the development process using Llama.cpp, an open-source inference framework. He explains the ...

36氪

Llama提速500%，谷歌美女程序员手搓矩阵乘法内核

谷歌程序员Justine Tunney将Llama推理速度提升500%。【导读】近日，天才程序员Justine Tunney发推表示自己更新了Llamafile的代码，通过手搓84个新的矩阵乘法内核，将Llama的推理速度提高了500%！谷歌的美女程序员，将Llama的推理速度提高了500%！近日，天才程序员Justine ...

一些您可能无法访问的结果已被隐去。

显示无法访问的结果