¿Q2 o no Q2? El spoiler: No. (Benchmarking de Qwen 3.5 397B)

2026-02-18

Machine-translated from English. Read the English original

TL;DR:* Probé el nuevo modelo multimodal Qwen 3.5 397B en mi Mac Studio (M3 Ultra, 512GB de RAM). Lo cuantifiqué a 2 bits, 3 bits, 6 bits y 8 bits para probar las capacidades de visión para un flujo de trabajo de edición de vídeo local. Spoiler:* Q2 es incomprensible, Q3 es sorprendentemente capaz, y Q6 es la zona de Goldilocks. Ser más grande no siempre es mejor cuando la velocidad es lo que importa.

Aquí estoy escribiendo a las 11:07 PM después de haber sido teletransportado desde las 5:10 PM cuando ingenuamente dije: “Le daré una vuelta rápida a este nuevo modelo”. JAJA.

El modelo en cuestión es la unidad absoluta que es Qwen 3.5 Vision (397B), lanzado solo ayer. Lo estoy ejecutando en un Mac Studio M3 Ultra con 512GB de RAM. Suerte mía, lo sé —y esa es exactamente la razón por la que comparto estos hallazgos esta noche. Si no tienes la suerte de tener medio terabyte de memoria unificada en tu escritorio, espero que esto te ahorre tiempo de descarga y te dé una idea de lo que es posible.

Actualmente estoy evaluando un despliegue de OpenClaw ligeramente más seguro (enhorabuena a @steipete por su próximo viaje hacia OpenAI —¡eres una leyenda! No creo que Sam pueda domarte. ¡Gracias!!) utilizándolo únicamente con modelos locales. Estoy en modo sintonización de rendimiento. Si alguien recuerda los “buenos viejos tiempos” de intentar encontrar controladores de Linux para una tarjeta SoundBlaster, bien, me complace informar que hemos dado una vuelta completa en el mundo de la IA. El modelo MoE utilizado no estaba en la biblioteca de Python integrada en LM Studio (sorpresa, sorpresa), así que llegó el momento de crear un nuevo entorno virtual y empezar a hacer pip-ing.

La ironía no se me escapa: mientras tenemos estas herramientas de vanguardia, cosas como Gemini y ChatGPT a menudo no pueden ayudar a depurarlas porque simplemente aún no saben que existen. Viva Github Issues.

La Misión: Edición de Vídeo Automatizada Local

El objetivo del esfuerzo de esta noche no era solo presumir de hardware. Estoy construyendo una herramienta de edición de vídeo automatizada. Tengo cientos de horas de metraje y un enlace de subida de banda ancha pésimo, por lo que el procesamiento en la nube está descartado. El procesamiento local es clave.

Mi objetivo es determinar si puedo salirme con la mía usando un modelo muy cuantificado (más pequeño). Un modelo más pequeño significa una inferencia más rápida y una ventana de contexto más grande, lo cual es crucial ya que planeo ejecutar varios modelos concurrentemente para otras tareas. ¡Necesito que esta máquina sea autosuficiente una vez que la ponga en marcha!

El Experimento: Enfrentamiento de Cuantización de Qwen 3.5

Ejecuté una imagen de referencia (una selfie de tu servidor con equipo de moto arriba) a través de las versiones Quant 2 (Q2), Quant 3 (Q3), Quant 6 (Q6) y Quant 8 (Q8) del nuevo modelo de visión Qwen 3.5. Aquí tienes el desglose visual de los resultados.

El Comando de Prueba

Para cada prueba, utilicé el siguiente comando curl contra mi servidor MLX local:

curl http://localhost:1234/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "/Users/graz/ai-models/Qwen3.5-397B-MLX-QX",
    "messages": [
      {
        "role": "user",
        "content": [
          { "type": "text", "text": "Describe this image in detail." },
          { "type": "image_url", "image_url": { "url": "data:image/jpeg;base64,'$IMAGE_B64'" } }
        ]
      }
    ],
    "max_tokens": 300
  }' | python3 -m json.tool

1. La Experiencia Q2: Colapso Total

Veredicto: Inútil.

Con la cuantización a 2 bits, el modelo se desmoronó por completo. Alucinó una incomprensibilidad absoluta.

{
    "choices": [
        {
            "message": {
                "content": ")nameUnc\u0901Op\u90f4\u5州G forOP MG, #clar sp  sp \\ sp spNgG Sign       h ${Ag1X/work ${))\r\n\r\n{$ \\\"Se\u00bb^#\\\",81 signifLaMd_M_Y_Y_\\up'\\ \\a)\\\\ra%d\\n#\\cd\\u#\\xe8\\f#888888 :)\" \\VAR{\\O\u2713\ufffd\ufffd}",
                "role": "assistant"
            }
        }
    ],
    "usage": {
        "total_tokens": 243
    }
}

2. La Experiencia Q3: El Aspirante Sorpresa

Veredicto: El Héroe del “Borrador Inicial”.

Esperaba que fuera apenas legible, pero de hecho capturó perfectamente la esencia de la imagen. Perdió algunas texturas más finas, pero ¿para un filtro de primer paso? Esto es viable.

{
    "choices": [
        {
            "message": {
                "content": "The user wants a detailed description of the image.\n\n1.  **Identify the main subject:** A man wearing a motorcycle helmet and jacket. He is positioned on the left side of the frame.\n2.  **Identify the background:** A scenic landscape featuring a large body of water (lake), rolling hills with trees showing autumn colors, and a blue sky with scattered clouds.\n3.  **Identify specific details:**\n    * **Helmet:** Silver/grey, full-face, with \"SHOEI\" branding visible. The visor is up.\n    * **Clothing:** A dark grey or black motorcycle jacket with zippers and pockets.\n    * **Motorcycle parts:** Handlebars, rear-view mirrors, and a phone mount with a phone attached are visible in the foreground and right side.\n    * **Setting:** Looks like a scenic overlook or a stop during a ride. There's a wooden fence in the lower right.\n    * **Lighting:** Bright, sunny day. Shadows are distinct.",
                "role": "assistant"
            }
        }
    ]
}

3. La Experiencia Q6: La Zona de Goldilocks

Veredicto: Equilibrio Perfecto.

Aquí es donde ocurre la magia. La descripción es rica, precisa y fluida. Captó la “ligera sonrisa” dentro del casco y el reflejo específico en el espejo.

{
    "choices": [
        {
            "message": {
                "content": "The user wants a detailed description of the provided image.\n\n1.  **Identify the main subject:** A person wearing a motorcycle helmet and jacket. They are in the foreground on the left.\n2.  **Analyze the subject's details:**\n    * **Helmet:** Full-face, black/dark grey, \"SHOEI\" logo visible on the forehead area. The visor is clear and raised slightly or just transparent enough to see the face. The person inside looks like a middle-aged man with light skin.\n    * **Jacket:** Black motorcycle textile jacket. Zippers and padding are visible.\n    * **Expression:** Slight smile, looking towards the camera (selfie style).\n\n3.  **Identify the secondary subject/foreground objects:**\n    * **Motorcycle parts:** Handlebars, side mirrors (one on the left, one on the right), and a phone mount on a tall stalk extending upwards on the right.",
                "role": "assistant"
            }
        }
    ]
}

4. La Experiencia Q8: ¿Rendimientos Decrecientes?

Veredicto: Alta Definición, pero Pesado.

El modelo Q8 añade un poco más de matiz a la iluminación y los colores (“vibraciones otoñales”), pero al costo de un uso de memoria significativamente mayor. Para mi canal de vídeo, Q6 es probablemente suficiente.

{
    "choices": [
        {
            "message": {
                "content": "The user wants a detailed description of the image.\n\n1.  **Identify the main subject:** A person wearing a motorcycle helmet and gear, taking a selfie.\n2.  **Analyze the foreground:**\n    * **Person:** Wearing a dark grey/black full-face helmet with \"SHOEI\" branding. Only their eyes and part of their nose/forehead are visible through the visor.\n    * **Motorcycle parts:** Visible handlebars, side mirrors (one reflecting the sky/trees), and a phone mount on a tall stalk extending upwards on the right side. The phone is mounted vertically.\n    * **Background:** ... The trees show autumn colors (yellows, browns, greens), suggesting the season is autumn.",
                "role": "assistant"
            }
        }
    ]
}

Cómo Replicar Esto (La Guía del “Geek”)

Para aquellos de ustedes con el hardware para ejecutar esto, aquí está la receta exacta que utilicé para poner esto en marcha localmente en Apple Silicon.

1. Cuantización

Convertí los pesos originales de Hugging Face utilizando mlx_vlm. Tenga en cuenta el uso de la bandera de 2 bits aquí (que luego eliminé porque, bueno, ver arriba).

python -m mlx_vlm.convert \
  --hf-path ~/ai-models/Qwen3.5-Original \
  --mlx-path ~/ai-models/Qwen3.5-397B-MLX-Q2 \
  -q --q-bits 2

2. Lanzamiento del Servidor

Una vez convertido, lancé el servidor utilizando mlx-openai-server. Espere algunas advertencias de AVFFrameReceiver si tiene OpenCV instalado —puede ignorarlas.

mlx-openai-server launch \
  --model-path ~/ai-models/Qwen3.5-397B-MLX-Q3 \
  --model-type multimodal \
  --port 1234

3. La Verificación de la Realidad del Almacenamiento

Antes de empezar a descargar, compruebe su espacio en disco. Aquí está la huella de los diferentes niveles de cuantización en mi disco:

(base) graz@GeekwiththePeak 🤓 ~/ai-models $ for i in `ls ~/ai-models | grep Qwen3.5-397B-MLX-Q`; do du -sh $i; done 
162G    Qwen3.5-397B-MLX-Q3
301G    Qwen3.5-397B-MLX-Q6
393G    Qwen3.5-397B-MLX-Q8

Conclusión

Este experimento demostró que ser más grande NO siempre es mejor. Si está construyendo un canal donde la velocidad es crítica, el modelo Q3 (a 162GB) es sorprendentemente competente para “ver” la escena, identificar objetos y comprender el contexto. Es un filtro de primer paso fantástico.

Para el pulido final o el análisis de alto detalle, Q6 es el ganador. Proporciona el 99% de los detalles de Q8 pero ahorra casi 100GB de espacio de RAM/Disco.

Me voy a dormir. Mañana comienza la automatización.

Originally published on allthingscloud.eu (2026-02-18).