
Guide LTX-2 ComfyUI : Tutoriel complet de déploiement local
Guide étape par étape pour exécuter LTX-2 localement avec ComfyUI. Apprenez à configurer des flux de travail texte-vers-vidéo, image-vers-vidéo et synchronisation audio.
“Contrôle total sur la génération vidéo IA – exécutez LTX-2 sur votre propre matériel avec le puissant flux de travail nodal de ComfyUI.”
Pourquoi exécuter LTX-2 localement avec ComfyUI ?
L'exécution locale de LTX-2 offre plusieurs avantages convaincants par rapport aux solutions cloud. Vous obtenez une confidentialité totale – vos prompts et vidéos générées ne quittent jamais votre machine. Vous éliminez les coûts par génération après l'investissement initial en matériel. Vous pouvez personnaliser les flux de travail avec des modèles LoRA et affiner le modèle de base pour des styles spécifiques. Et vous obtenez une itération plus rapide sans latence réseau ni temps d'attente. ComfyUI fournit l'interface idéale pour LTX-2, offrant un flux de travail visuel basé sur des nœuds qui rend les pipelines de génération vidéo complexes intuitifs et reproductibles. Ce guide vous accompagnera à travers tout, de la configuration initiale aux techniques d'optimisation avancées.
Configuration requise et prérequis
Avant de commencer, assurez-vous que votre système répond aux exigences minimales. Pour le GPU, vous avez besoin d'une carte NVIDIA avec au moins 24 Go de VRAM (RTX 4090, A6000 ou A100 recommandé). Pour des performances optimales en résolution 4K, 48 Go+ de VRAM est idéal. Votre système doit avoir au moins 32 Go de RAM et 100 Go d'espace disque libre pour les modèles. Les prérequis logiciels incluent : Python 3.10 ou supérieur, CUDA 12.0 ou supérieur avec des pilotes compatibles, Git pour cloner les dépôts, et FFmpeg pour le traitement vidéo. Les utilisateurs Windows doivent s'assurer que Visual Studio Build Tools est installé. Pour Linux, les outils de compilation standard suffisent. Les utilisateurs Mac notent que LTX-2 nécessite actuellement NVIDIA CUDA et ne prend pas en charge Apple Silicon nativement.
Installation de ComfyUI et des modèles LTX-2
Commencez par cloner le dépôt ComfyUI : git clone https://github.com/comfyanonymous/ComfyUI. Naviguez dans le répertoire et installez les dépendances avec pip install -r requirements.txt. Ensuite, téléchargez les poids du modèle LTX-2 depuis Hugging Face. Placez le fichier principal du modèle dans ComfyUI/models/checkpoints/ et le VAE dans ComfyUI/models/vae/. Pour la génération audio, téléchargez le modèle audio séparément et placez-le dans le dossier correspondant. Installez les nœuds personnalisés LTX-2 en clonant l'extension dans ComfyUI/custom_nodes/. Après l'installation, redémarrez ComfyUI et vérifiez que les nœuds LTX-2 apparaissent dans le menu des nœuds. Le chargement initial du modèle peut prendre quelques minutes selon la vitesse de votre stockage.
Création d'un flux de travail texte-vers-vidéo
Créez un flux de travail texte-vers-vidéo de base en ajoutant les nœuds suivants : LTX-2 Model Loader (se connecte à votre checkpoint), CLIP Text Encode (pour votre prompt), LTX-2 Video Sampler (nœud de génération principal), VAE Decode (convertit les latents en images vidéo) et Video Combine (produit le fichier vidéo final). Connectez les nœuds dans l'ordre et configurez les paramètres du sampler. Pour de meilleurs résultats, utilisez 30-50 étapes de débruitage, une échelle CFG entre 7-9, et sélectionnez votre résolution cible (720p pour les tests, 4K pour la sortie finale). Le nombre d'images détermine la durée de la vidéo – à 25 FPS, 150 images vous donnent 6 secondes de vidéo. Ajoutez le nœud Audio Generator après le Video Sampler si vous souhaitez une sortie audio synchronisée.
Flux de travail d'animation image-vers-vidéo
Pour animer des images statiques, modifiez le flux de travail texte-vers-vidéo en ajoutant un nœud Image Loader. L'image fournit la référence de la première image, assurant la cohérence visuelle tout au long de la vidéo. Connectez votre image à l'entrée image du LTX-2 Video Sampler. Ajustez la force d'influence de l'image – des valeurs plus élevées (0,7-0,9) maintiennent une fidélité plus proche de l'image source, tandis que des valeurs plus basses (0,3-0,5) permettent un mouvement plus créatif. Le prompt doit décrire l'animation souhaitée plutôt que le contenu de l'image. Par exemple, 'la caméra panoramique lentement vers la droite, mouvement subtil du vent dans les cheveux' plutôt que de décrire la personne dans l'image. Ce flux de travail excelle pour les animations de produits, les animations de portraits et les séries vidéo à style cohérent.
Configuration de la synchronisation audio native
La fonctionnalité révolutionnaire de LTX-2 est la génération audio native qui se synchronise parfaitement avec le contenu vidéo. Activez l'audio en ajoutant le nœud LTX-2 Audio Generator après votre Video Sampler. Le nœud audio analyse la vidéo générée et produit un son correspondant – dialogues avec synchronisation labiale précise, ambiance environnementale et musique de fond. Configurez le type audio : 'full' génère tous les types audio, 'dialogue' se concentre sur la parole, 'ambient' crée des sons environnementaux, et 'music' ajoute des pistes de fond. Pour les dialogues, incluez des descriptions du locuteur dans votre prompt : 'un homme avec une voix grave parlant lentement de technologie'. Le taux d'échantillonnage audio est par défaut de 44,1 kHz – ajustez si votre flux de travail en aval nécessite des taux différents. Le format de sortie prend en charge WAV et MP3.
Conseils d'optimisation des performances
Maximisez votre vitesse et qualité de génération avec ces optimisations. Activez la précision FP16 lors du chargement du modèle pour réduire de moitié l'utilisation de la VRAM avec une perte de qualité minimale. Utilisez xformers ou flash-attention pour un calcul d'attention plus rapide – installez avec pip install xformers. Pour les configurations multi-GPU, ComfyUI prend en charge la distribution du modèle sur plusieurs appareils. Traitement par lots : mettez en file d'attente plusieurs générations et laissez-les s'exécuter pendant la nuit. Stratégie de résolution : générez en 720p pour tester les prompts, puis régénérez les meilleurs en 4K. Cache : activez la mise en cache du modèle pour éviter le rechargement entre les générations. Gestion de la VRAM : fermez les autres applications gourmandes en GPU pendant la génération. Pour du 4K à 50 FPS, attendez-vous à 3-5 minutes par clip de 10 secondes sur RTX 4090, ou 1-2 minutes sur A100.
Problèmes courants et solutions
Mémoire CUDA insuffisante : Réduisez la résolution ou activez l'attention économe en mémoire. Essayez de générer moins d'images par lot. Le modèle ne se charge pas : Vérifiez le placement des fichiers dans les bons répertoires de modèles. Vérifiez que les fichiers de modèle ne sont pas corrompus (comparez les sommes de contrôle). Sortie noire ou corrompue : Mettez à jour vos pilotes GPU vers la dernière version. Assurez-vous que la version CUDA correspond à la version CUDA de PyTorch. Désynchronisation audio : Régénérez avec des paramètres de timing audio explicites. Vérifiez que les FPS vidéo correspondent aux calculs de taux d'échantillonnage audio. Génération lente : Activez toutes les optimisations recommandées. Envisagez d'augmenter la VRAM du GPU. ComfyUI ne démarre pas : Supprimez les dossiers ComfyUI/custom_nodes/__pycache__ et redémarrez. Mettez à jour tous les nœuds personnalisés vers les dernières versions. Pour les problèmes persistants, le Discord de la communauté LTX-2 et les issues GitHub sont d'excellentes ressources pour résoudre les configurations spécifiques.
Exécuter LTX-2 localement avec ComfyUI vous donne un contrôle total sur la génération vidéo IA – confidentialité, économies et personnalisation illimitée. Avec une configuration appropriée, vous pouvez générer des vidéos 4K avec audio synchronisé sur du matériel grand public.