最近 3 天 · 共 15 个推荐

第 3 期 · 2026-05-19
推荐

支持MTP加速的3B激活参数量化视觉语言模型,面向本地编程代理

部署
  • py llama-server -hf unsloth/Qwen3.6-35B-A3B-MTP-GGUF:UD-Q4_K_XL --spec-type draft-mtp --spec-draft-n-max 6
  • py Unsloth Studio 图形界面直接运行 MTP 模型
对位
对位 Qwen3.5-35B-A3B、Gemma4-26B-A4B
适合
本地多模态推理与编程代理 (MTP加速) / 视觉问答、文档理解与工具调用
不适合
要求原始精度的量化敏感场景
规模
35B (3B active, Q4_K_XL) · 262k (可扩展至1M) · Apache-2.0
框架
llama.cpp / ollama / Unsloth Studio
可信度
HuggingFace 23.7万下载,Qwen官方Apache-2.0,Unsloth提供原生MTP GGUF量化
第 2 期 · 2026-05-18
推荐

13B激活MoE,1M上下文,面向推理与代码

  • 已量化
部署
  • py modelscope download deepseek-ai/DeepSeek-V4-Flash
  • py transformers: from_pretrained('deepseek-ai/DeepSeek-V4-Flash')
对位
对位 DeepSeek-V3.2 与 Qwen3-13B
适合
百万 Token 长上下文推理 / 代码生成与复杂推理
不适合
纯知识密集型问答
规模
284B · 1M · MIT
框架
transformers
可信度
1.9M 下载,1.1k 点赞,MIT,284B,1M 上下文
推荐

解禁版Qwen3.6-27B量化模型,为创意写作与代码而生

部署
  • py 下载GGUF及mmproj文件,llama.cpp: ./llama-cli -m Qwen3.6-27B-Heretic.gguf --mmproj mmproj.gguf
  • py ollama: 创建Modelfile指定GGUF路径,ollama create Qwen3.6-27B-Heretic -f Modelfile
对位
替代Qwen3.6-27B官方模型
适合
创意写作与角色扮演 / 图像理解与代码生成
不适合
需严格内容过滤的场景
规模
27B · 256k · apache-2.0
框架
llama.cpp / ollama / koboldcpp
可信度
357k下载,量化指标公开,Q4_K_S的Mean KLD 0.0174,精度94% BF16
推荐

无审查Gemma 4 26B GGUF,适合苹果硅本地快速推理

部署
  • hf huggingface-cli download Jiunsong/supergemma4-26b-uncensored-gguf-v2 --include '*.gguf' --local-dir .
  • py llama-cli -m supergemma4-26b-uncensored-fast-v2-Q4_K_M.gguf
对位
对位官方 Gemma-4-26B-it 及其他无审查版本
适合
本地苹果硅无审查对话 / 快速编程与韩语任务
不适合
需严格内容审核的场景
规模
26B · 未知 · gemma
框架
llama.cpp / ollama
可信度
下载26万+,点赞624;M4 Max韩语生成89.4 tok/s,整体bench 95.8
推荐

像素空间文生图模型,基于AsymFlow,适合文字渲染与细节生成

部署
对位
对位 FLUX.2-klein 基础模型
适合
高质量文本渲染的生成 / 需要精细细节的艺术创作
不适合
低显存设备或实时推理
规模
9B · N/A · flux-non-commercial-license
框架
diffusers / lakonlab
可信度
Stanford 视觉团队论文方法,HuggingFace 下载 1.6k,点赞 49
推荐

多模态嵌入模型,支持文本/图像/视频/音频

部署
  • pip pip install sentence-transformers && python -c "from sentence_transformers import SentenceTransformer; model = SentenceTransformer('jinaai/jina-embeddings-v5-omni-small', trust_remote_code=True)"
  • pip pip install transformers && python -c "from transformers import AutoModel; model = AutoModel.from_pretrained('jinaai/jina-embeddings-v5-omni-small', trust_remote_code=True)"
  • vll vllm serve jinaai/jina-embeddings-v5-omni-small --trust-remote-code --hf-overrides '{"task":"retrieval"}'
对位
对位 OpenAI CLIP / Cohere Embed multimodal
适合
多模态检索与RAG / 跨模态零样本分类与聚类
不适合
仅需文本嵌入的轻量场景
规模
1.74B · 32768 · cc-by-nc-4.0
框架
transformers / sentence-transformers / vllm
可信度
下载量 28917,vLLM 0.20.1 已验证,Matryoshka 32-1024 维
推荐

Qwen3.6 MoE GGUF 量化版,用于本地代理编程与多模态推理

部署
  • py ollama run hf.co/unsloth/Qwen3.6-35B-A3B-GGUF
  • py llama-cli -m Qwen3.6-35B-A3B-Q4_K_M.gguf
对位
替代 Qwen3.5-35B-A3B 与 Gemma4-26BA4B
适合
Agentic 编码与 SWE-bench 任务 / 多模态视觉理解与文档分析
不适合
不适合微调及高精度科学计算
规模
35B (3B 激活 MoE) · 262k (可扩展至 1M) · unknown
框架
llama.cpp / ollama / LM Studio
可信度
下载量 2.57M,点赞 1052,SWE-bench Verified 得分 73.4
推荐

面向Agent编码与工具调用的9B视觉推理模型

部署
  • py 下载GGUF文件,通过llama.cpp -m <model>.gguf --mmproj mmproj.gguf运行
对位
对位Qwen3.5-9B和Qwen3.5-9B-Agent
适合
Agent编码与工具调用 / 代码调试与逻辑推理
不适合
通用对话或非编程任务
规模
9B · 32k · apache-2.0
框架
llama.cpp / LM Studio / Ollama
可信度
HermesAgent-20综合85分,ToolCall-15满分,下载量6.4k
第 1 期 · 2026-05-16
推荐

为开发者提供600+语言零样本语音合成

部署
对位
对位 XTTS-v2、Fish Audio
适合
全球多语种语音合成与声音克隆 / 创意声音设计与非语言符号表达
不适合
实时流式对话系统
规模
未知 · 不适用 · apache-2.0
框架
omnivoice
可信度
下载量超 208 万,论文 arXiv:2604.00688,910 点赞
推荐

31种语言本地TTS,面向AI应用开发者的语音合成

部署
对位
对比VoxCPM2等大模型,更小尺寸本地运行
适合
多语言离线语音合成 / 低资源设备端实时TTS
不适合
语音克隆与高拟真度需求
规模
99M · 未知 · OpenRAIL-M
框架
ONNX Runtime / supertonic
可信度
16k下载,258赞,99M参数ONNX模型,支持31语言
推荐

1.6T参数MoE模型,1M上下文,含推理模式

  • 已量化
部署
对位
对位 GPT-5.4 xHigh, Claude Opus 4.6 Max
适合
1M 长文本分析与综合 / 高难度代码与数学竞赛
不适合
低延迟日常闲聊
规模
1.6T (49B 激活) · 1M · MIT
框架
transformers
可信度
HuggingFace 月下载 296 万, 点赞 3983
推荐

多模态无审查推理模型,面向代码与视觉应用

部署
  • hf huggingface-cli download DavidAU/Qwen3.6-40B-Claude-4.6-Opus-Deckard-Heretic-Uncensored-Thinking-NEO-CODE-Di-IMatrix-MAX-GGUF --include '*.gguf' --local-dir .
  • py llama-cli -m <gguf-file> -p '你的提示'
对位
Qwen 官方模型的无审查替代版
适合
无审查代码生成与推理 / 多模态图像理解
不适合
需要内容过滤的生产场景
规模
40B · 未知 · unknown
框架
llama.cpp / ollama
可信度
HuggingFace 总下载 207k,点赞 94
推荐

无审查文本/图像生成视频,基于LTX2.3

部署
  • py diffusers.from_pretrained('SulphurAI/Sulphur-2-base')
  • py lmstudio load gguf + mmproj for prompt enhancer
对位
对位原始LTX-Video 2.3
适合
无审查视频生成 / 图像转视频二次创作
不适合
需安全审查的商业应用
规模
22B · 未知 · unknown
框架
diffusers
可信度
HuggingFace 下载量 875k,点赞 1k
推荐

动漫风格图像生成,面向二次元AI应用开发者

部署
  • hf huggingface-cli download SeeSee21/Z-Anime
  • py from diffusers import StableDiffusionPipeline; pipe = StableDiffusionPipeline.from_pretrained('SeeSee21/Z-Anime')
对位
对位 Anything-V5、Counterfeit 等动漫模型
适合
生成动漫风格插画 / 二次元角色设计
不适合
写实照片生成
规模
4B · 未知 · unknown
框架
diffusers / comfyui
可信度
Hugging Face 下载量 14,494,获赞 384
推荐

通用问答模型,适合知识型对话与事实查询。

部署
  • py transformers: AutoModel.from_pretrained('jackxinning/Leanly_AI')
对位
无明确对标,通用 QA 方案。
适合
知识问答 / 事实查询
不适合
复杂推理或创意生成
规模
14B · 未知 · unknown
框架
transformers
可信度
HuggingFace 下载量 10,961,点赞 113。