归档 / 2026-05-18

今日推荐 (7)

推荐

13B激活MoE,1M上下文,面向推理与代码

部署
  • py modelscope download deepseek-ai/DeepSeek-V4-Flash
  • py transformers: from_pretrained('deepseek-ai/DeepSeek-V4-Flash')
对位
对位 DeepSeek-V3.2 与 Qwen3-13B
适合
百万 Token 长上下文推理 / 代码生成与复杂推理
不适合
纯知识密集型问答
规模
284B · 1M · MIT
框架
transformers
可信度
1.9M 下载,1.1k 点赞,MIT,284B,1M 上下文
推荐

解禁版Qwen3.6-27B量化模型,为创意写作与代码而生

部署
  • py 下载GGUF及mmproj文件,llama.cpp: ./llama-cli -m Qwen3.6-27B-Heretic.gguf --mmproj mmproj.gguf
  • py ollama: 创建Modelfile指定GGUF路径,ollama create Qwen3.6-27B-Heretic -f Modelfile
对位
替代Qwen3.6-27B官方模型
适合
创意写作与角色扮演 / 图像理解与代码生成
不适合
需严格内容过滤的场景
规模
27B · 256k · apache-2.0
框架
llama.cpp / ollama / koboldcpp
可信度
357k下载,量化指标公开,Q4_K_S的Mean KLD 0.0174,精度94% BF16
推荐

无审查Gemma 4 26B GGUF,适合苹果硅本地快速推理

部署
  • hf huggingface-cli download Jiunsong/supergemma4-26b-uncensored-gguf-v2 --include '*.gguf' --local-dir .
  • py llama-cli -m supergemma4-26b-uncensored-fast-v2-Q4_K_M.gguf
对位
对位官方 Gemma-4-26B-it 及其他无审查版本
适合
本地苹果硅无审查对话 / 快速编程与韩语任务
不适合
需严格内容审核的场景
规模
26B · 未知 · gemma
框架
llama.cpp / ollama
可信度
下载26万+,点赞624;M4 Max韩语生成89.4 tok/s,整体bench 95.8
推荐

像素空间文生图模型,基于AsymFlow,适合文字渲染与细节生成

部署
对位
对位 FLUX.2-klein 基础模型
适合
高质量文本渲染的生成 / 需要精细细节的艺术创作
不适合
低显存设备或实时推理
规模
9B · N/A · flux-non-commercial-license
框架
diffusers / lakonlab
可信度
Stanford 视觉团队论文方法,HuggingFace 下载 1.6k,点赞 49
推荐

多模态嵌入模型,支持文本/图像/视频/音频

部署
  • pip pip install sentence-transformers && python -c "from sentence_transformers import SentenceTransformer; model = SentenceTransformer('jinaai/jina-embeddings-v5-omni-small', trust_remote_code=True)"
  • pip pip install transformers && python -c "from transformers import AutoModel; model = AutoModel.from_pretrained('jinaai/jina-embeddings-v5-omni-small', trust_remote_code=True)"
  • vll vllm serve jinaai/jina-embeddings-v5-omni-small --trust-remote-code --hf-overrides '{"task":"retrieval"}'
对位
对位 OpenAI CLIP / Cohere Embed multimodal
适合
多模态检索与RAG / 跨模态零样本分类与聚类
不适合
仅需文本嵌入的轻量场景
规模
1.74B · 32768 · cc-by-nc-4.0
框架
transformers / sentence-transformers / vllm
可信度
下载量 28917,vLLM 0.20.1 已验证,Matryoshka 32-1024 维
推荐

Qwen3.6 MoE GGUF 量化版,用于本地代理编程与多模态推理

部署
  • py ollama run hf.co/unsloth/Qwen3.6-35B-A3B-GGUF
  • py llama-cli -m Qwen3.6-35B-A3B-Q4_K_M.gguf
对位
替代 Qwen3.5-35B-A3B 与 Gemma4-26BA4B
适合
Agentic 编码与 SWE-bench 任务 / 多模态视觉理解与文档分析
不适合
不适合微调及高精度科学计算
规模
35B (3B 激活 MoE) · 262k (可扩展至 1M) · unknown
框架
llama.cpp / ollama / LM Studio
可信度
下载量 2.57M,点赞 1052,SWE-bench Verified 得分 73.4
推荐

面向Agent编码与工具调用的9B视觉推理模型

部署
  • py 下载GGUF文件,通过llama.cpp -m <model>.gguf --mmproj mmproj.gguf运行
对位
对位Qwen3.5-9B和Qwen3.5-9B-Agent
适合
Agent编码与工具调用 / 代码调试与逻辑推理
不适合
通用对话或非编程任务
规模
9B · 32k · apache-2.0
框架
llama.cpp / LM Studio / Ollama
可信度
HermesAgent-20综合85分,ToolCall-15满分,下载量6.4k

今日观察 (6)

观察

日语TTS,表情符号控制风格,零样本克隆

部署
对位
对标 Echo-TTS 及日语 TTS 方案
适合
零样本日语语音克隆 / 表情符号驱动风格与音效控制
不适合
非日语文本或需精确汉字阅读
规模
500M · 未知 · MIT
框架
pytorch
可信度
67 赞,基于 Echo-TTS 架构,500M 参数,集成 SilentCipher 水印
观察

无审查的Gemma 4多模态模型,适合内容生成开发者

部署
  • hf huggingface-cli download HauhauCS/Gemma-4-E4B-Uncensored-HauhauCS-Aggressive --include "*Q4_K_M.gguf" --include "*mmproj*" --local-dir ./gemma4-unc
  • py llama-cli -m ./gemma4-unc/Gemma-4-E4B-Uncensored-HauhauCS-Aggressive-Q4_K_M.gguf --mmproj ./gemma4-unc/mmproj-Gemma-4-E4B-Uncensored-HauhauCS-Aggressive-f16.gguf --jinja -c 8192 -ngl 99
对位
替代原版gemma-4-e4b-it及其他受限模型
适合
无审查的多模态聊天应用 / 本地图像/音频内容生成
不适合
需安全合规的生产环境
规模
4B · 131k · Gemma
框架
llama.cpp / LM Studio / koboldcpp
可信度
79.6万下载,0/465拒绝,基于gemma-4-e4b-it
观察

Gemma4 无审查多模态 MoE,面向创意写作与角色扮演

部署
  • py llama-server -m Gemma4-26B-A4B-Uncensored-HauhauCS-Balanced-Q4_K_P.gguf --mmproj mmproj-Gemma4-26B-A4B-Uncensored-HauhauCS-Balanced-f16.gguf --jinja -c 32768 -ngl 99
  • py LM Studio 直接搜索并加载 HauhauCS/Gemma4-26B-A4B-Uncensored-HauhauCS-Balanced 的 GGUF
对位
对位 Google Gemma-4-26B-it,去除安全审查
适合
创意写作与角色扮演 / 多模态图片-文本对话
不适合
高复杂度 agentic 编程任务
规模
26B (25.2B total, 3.8B active) · 256K · Apache-2.0
框架
llama.cpp / LM Studio / koboldcpp
可信度
HuggingFace 40k+ 下载,0/465 拒答测试结果,基于 google/gemma-4-26B-A4B-it
观察

Qwen3.6-27B GGUF量化版,面向本地部署与边缘推理

部署
  • py llama.cpp: ./main -m Qwen3.6-27B-Q4_K_M.gguf
  • py ollama: 通过 Modelfile 导入 GGUF 后运行
对位
对标 Qwen3-35B-A3B MoE 与 DeepSeek-Coder-V2
适合
本地代码智能体与工具调用 / 长上下文文档分析及问答
不适合
依赖全精度浮点的科研场景
规模
27B · 262K · Apache-2.0
框架
llama.cpp / ollama
可信度
HuggingFace下载量184万+,源自Apache-2.0许可的Qwen3.6-27B
观察

Qwen3.6-27B的MTP量化版,推理速度1.5-2倍提升

部署
  • py llama.cpp llama-server -hf unsloth/Qwen3.6-27B-MTP-GGUF:UD-Q4_K_XL --spec-type draft-mtp
  • py Unsloth Studio直接加载并交互
对位
替代原始Qwen3.6-27B,大幅减少资源占用
适合
代码编写与Agent任务 / 本地多模态推理与节省显存
不适合
低内存或无GPU环境
规模
27B · 262k (可扩展至1M) · Apache-2.0
框架
llama.cpp / Unsloth Studio
可信度
下载量268k,基于官方Qwen3.6-27B,Unsloth动态量化,Apache-2.0许可
观察

LTX2.3 微调的图生视频 GGUF 模型,用于 ComfyUI

部署
  • py git clone https://github.com/TenStrip/10S-Comfy-nodes custom_nodes/
  • py 下载对应 GGUF 文件放入 ComfyUI/models/video_models/
  • py 依赖 SulphurAI/Sulphur-2-base 模型 (需单独下载)
对位
对位原始 LTX-Video 与 CogVideoX I2V 模型
适合
图像首帧到视频生成 / 对话与动作驱动的视频生成
不适合
高分辨率或长片段生成
规模
未公开 · 未知 · unknown
框架
ComfyUI / llama.cpp
可信度
HuggingFace 71k 下载, 65 点赞, 基于 Sulphur-2 与 LTX2.3 合并,社区验证

← 前一日 2026-05-16 · 后一日 2026-05-19 →