To Q2 or Not to Q2? Spoiler: It’s Not. (Benchmarking Qwen 3.5 397B)

2026-02-18

Machine-translated from English. Read the English original

TL;DR :* J’ai testé le tout nouveau modèle multimodal Qwen 3.5 397B sur mon Mac Studio (M3 Ultra, 512 Go de RAM). Je l’ai quantifié en 2-bit, 3-bit, 6-bit et 8-bit pour évaluer ses capacités de vision dans le cadre d’un flux de travail local d’édition vidéo. Spoiler :* Q2 est incompréhensible, Q3 est étonnamment capable, et Q6 est la zone idéale. Plus grand n’est pas toujours mieux quand la vitesse est la clé.

Me voici en train de taper à 23h07 après avoir été téléporté depuis 17h10, lorsque j’ai naïvement déclaré : « Je vais tester rapidement ce nouveau modèle. » LOL.

Le modèle en question est l’absolue unité qu’est Qwen 3.5 Vision (397B), sorti seulement hier. Je l’exécute sur un Mac Studio M3 Ultra avec 512 Go de RAM. J’ai de la chance, je le sais — et c’est exactement pour cela que je partage ces résultats ce soir. Si vous n’avez pas la chance d’avoir un demi-téraoctet de mémoire unifiée posé sur votre bureau, j’espère que cela vous fera gagner du temps de téléchargement et vous donnera une idée de ce qui est possible.

J’évalue actuellement un déploiement OpenClaw légèrement plus sécurisé (toutes mes félicitations à @steipete pour son prochain voyage vers OpenAI — vous êtes une légende ! Je ne pense pas que Sam pourra vous dompter. Merci !!) en l’utilisant uniquement avec des modèles locaux. Je suis en pleine phase de réglage des performances. Si quelqu’un se souvient des « bons vieux temps » où l’on cherchait désespérément les pilotes Linux pour une carte SoundBlaster, eh bien, je suis heureux de constater que nous sommes revenus à la case départ dans le monde de l’IA. Le modèle MoE utilisé n’était pas dans la bibliothèque Python intégrée à LM Studio (surprise, surprise), il a donc fallu créer un nouvel environnement virtuel et commencer à pip-er.

L’ironie ne m’échappe pas : alors que nous disposons de ces outils de pointe, des outils comme Gemini et ChatGPT ne peuvent souvent pas aider à les déboguer car ils ignorent simplement qu’ils existent encore. Vivez Github Issues.

La Mission : Édition Vidéo Automatisée Locale

L’objectif de cette entreprise n’était pas seulement de montrer la puissance du matériel. Je développe un outil d’édition vidéo automatisé. J’ai des centaines d’heures de rushes et une connexion upload de mauvaise qualité, donc le traitement dans le cloud est exclu. Le traitement local est essentiel.

Mon objectif est de déterminer si je peux me contenter d’un modèle fortement quantifié (plus petit). Un modèle plus petit signifie une inférence plus rapide et une fenêtre de contexte plus large, ce qui est crucial car je prévois d’exécuter plusieurs modèles simultanément pour d’autres tâches. J’ai besoin que cette machine soit autofinancante une fois que je la lancerai !

L’Expérience : Duel de Quantisation Qwen 3.5

J’ai fait passer une image de référence (un selfie de moi-même en tenue de moto ci-dessus) à travers les versions Quant 2 (Q2), Quant 3 (Q3), Quant 6 (Q6) et Quant 8 (Q8) du nouveau modèle de vision Qwen 3.5. Voici l’analyse visuelle des résultats.

La Commande de Test

Pour chaque test, j’ai utilisé la commande curl suivante contre mon serveur MLX local :

curl http://localhost:1234/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "/Users/graz/ai-models/Qwen3.5-397B-MLX-QX",
    "messages": [
      {
        "role": "user",
        "content": [
          { "type": "text", "text": "Describe this image in detail." },
          { "type": "image_url", "image_url": { "url": "data:image/jpeg;base64,'$IMAGE_B64'" } }
        ]
      }
    ],
    "max_tokens": 300
  }' | python3 -m json.tool

1. L’Expérience Q2 : Effondrement Total

Verdict : Inutile.

À une quantification de 2 bits, le modèle s’est complètement désintégré. Il a halluciné des charabia absolu.

{
    "choices": [
        {
            "message": {
                "content": ")nameUnc\u0901Op\u90f4\u5州G forOP MG, #clar sp  sp \\ sp spNgG Sign       h ${Ag1X/work ${))\r\n\r\n{$ \\\"Se\u00bb^#\\\",81 signifLaMd_M_Y_Y_\\up'\\ \\a)\\\\ra%d\\n#\\cd\\u#\\xe8\\f#888888 :)\" \\VAR{\\O\u2713\ufffd\ufffd}",
                "role": "assistant"
            }
        }
    ],
    "usage": {
        "total_tokens": 243
    }
}

2. L’Expérience Q3 : Le Candidat Surprise

Verdict : Le Héros de la « Première Ébauche ».

Je m’attendais à ce que ce soit à peine lisible, mais il a en fait parfaitement capté l’essence de l’image. Il a manqué certaines textures fines, mais pour un filtre de première passe ? C’est viable.

{
    "choices": [
        {
            "message": {
                "content": "The user wants a detailed description of the image.\n\n1.  **Identify the main subject:** A man wearing a motorcycle helmet and jacket. He is positioned on the left side of the frame.\n2.  **Identify the background:** A scenic landscape featuring a large body of water (lake), rolling hills with trees showing autumn colors, and a blue sky with scattered clouds.\n3.  **Identify specific details:**\n    * **Helmet:** Silver/grey, full-face, with \"SHOEI\" branding visible. The visor is up.\n    * **Clothing:** A dark grey or black motorcycle jacket with zippers and pockets.\n    * **Motorcycle parts:** Handlebars, rear-view mirrors, and a phone mount with a phone attached are visible in the foreground and right side.\n    * **Setting:** Looks like a scenic overlook or a stop during a ride. There's a wooden fence in the lower right.\n    * **Lighting:** Bright, sunny day. Shadows are distinct.",
                "role": "assistant"
            }
        }
    ]
}

3. L’Expérience Q6 : La Zone Idéale

Verdict : Équilibre Parfait.

C’est là que la magie opère. La description est riche, précise et fluide. Il a capté le « léger sourire » à l’intérieur du casque et le reflet spécifique dans le miroir.

{
    "choices": [
        {
            "message": {
                "content": "The user wants a detailed description of the provided image.\n\n1.  **Identify the main subject:** A person wearing a motorcycle helmet and jacket. They are in the foreground on the left.\n2.  **Analyze the subject's details:**\n    * **Helmet:** Full-face, black/dark grey, \"SHOEI\" logo visible on the forehead area. The visor is clear and raised slightly or just transparent enough to see the face. The person inside looks like a middle-aged man with light skin.\n    * **Jacket:** Black motorcycle textile jacket. Zippers and padding are visible.\n    * **Expression:** Slight smile, looking towards the camera (selfie style).\n\n3.  **Identify the secondary subject/foreground objects:**\n    * **Motorcycle parts:** Handlebars, side mirrors (one on the left, one on the right), and a phone mount on a tall stalk extending upwards on the right.",
                "role": "assistant"
            }
        }
    ]
}

4. L’Expérience Q8 : Rendements Décroissants ?

Verdict : Haute Définition, mais Lourde.

Le modèle Q8 ajoute une nuance légèrement plus grande à l’éclairage et aux couleurs (« ambiance automne »), mais au prix d’une utilisation de la mémoire significativement plus élevée. Pour mon pipeline vidéo, Q6 est probablement suffisant.

{
    "choices": [
        {
            "message": {
                "content": "The user wants a detailed description of the image.\n\n1.  **Identify the main subject:** A person wearing a motorcycle helmet and gear, taking a selfie.\n2.  **Analyze the foreground:**\n    * **Person:** Wearing a dark grey/black full-face helmet with \"SHOEI\" branding. Only their eyes and part of their nose/forehead are visible through the visor.\n    * **Motorcycle parts:** Visible handlebars, side mirrors (one reflecting the sky/trees), and a phone mount on a tall stalk extending upwards on the right side. The phone is mounted vertically.\n    * **Background:** ... The trees show autumn colors (yellows, browns, greens), suggesting the season is autumn.",
                "role": "assistant"
            }
        }
    ]
}

Comment Répliquer Cela (Le Guide du « Geek »)

Pour ceux d’entre vous qui ont le matériel pour exécuter cela, voici la recette exacte que j’ai utilisée pour le faire fonctionner localement sur Apple Silicon.

1. Quantisation

J’ai converti les poids originaux de Hugging Face en utilisant mlx_vlm. Notez l’utilisation du drapeau 2-bit ici (que j’ai ensuite supprimé car, eh bien, voir ci-dessus).

python -m mlx_vlm.convert \
  --hf-path ~/ai-models/Qwen3.5-Original \
  --mlx-path ~/ai-models/Qwen3.5-397B-MLX-Q2 \
  -q --q-bits 2

2. Lancement du Serveur

Une fois converti, j’ai lancé le serveur en utilisant mlx-openai-server. Attendez-vous à des avertissements AVFFrameReceiver si vous avez OpenCV installé — vous pouvez les ignorer.

mlx-openai-server launch \
  --model-path ~/ai-models/Qwen3.5-397B-MLX-Q3 \
  --model-type multimodal \
  --port 1234

3. La Réalité du Stockage

Avant de commencer le téléchargement, vérifiez l’espace disque. Voici l’empreinte des différents niveaux de quantisation sur mon disque :

(base) graz@GeekwiththePeak 🤓 ~/ai-models $ for i in `ls ~/ai-models | grep Qwen3.5-397B-MLX-Q`; do du -sh $i; done 
162G    Qwen3.5-397B-MLX-Q3
301G    Qwen3.5-397B-MLX-Q6
393G    Qwen3.5-397B-MLX-Q8

Conclusion

Cette expérience a prouvé que plus grand n’est PAS toujours mieux. Si vous construisez un pipeline où la vitesse est critique, le modèle Q3 (à 162 Go) est étonnamment compétent pour « voir » la scène, identifier les objets et comprendre le contexte. C’est un excellent filtre de première passe.

Pour la finition finale ou l’analyse haute précision, Q6 est le gagnant. Il fournit 99 % des détails de Q8 mais économise près de 100 Go de RAM/Espace disque.

J’y vais dormir. Demain, l’automatisation commence.

Originally published on allthingscloud.eu (2026-02-18).