QWEN-IMAGE 2025
Modula-r AI hat sich für die kreative Arbeit mit KI auf das Basemodel Qwen-Image 2025 festgelegt.
Wir möchten das Model einmal ganz transparent vorstellen.
Die ersten "RAW-Outputs" aus einer Qwen-Image Pipeline zeigen schon sehr deutlich den Index einer extrem hohen Parameterzahl (20B).
Diese ersten Outputs sind gänzlich unbearbeitet und kein nachgeschalteter Inpaint.
Die zu sehenden Generationen sind mit 45/50/55 Steps erstellt worden. Qwen-Image braucht eine hohe Rechenlast. Mit 16gb VRam ist die unterste Grenze des qualitativ hochwertigen Outputs von uns getestet.
Das macht sich deutlich durch die hohen Operationen/Iterationen innerhalb eines Run´s bemerkbar. Aber es lohnt sich. Qwen-Image liefert stabil und zuverlässig. Korrektur-LoRA´s dürften künftig in der Modelkartei weniger werden, denn das schafft Qwen-Image bei optimalen Einstellungen und Hardwaresetups zuverlässig selbst.
Um Textausgaben innerhalb von Generationen fehlerfrei zu generieren, sind 55 Steps Mindestanforderung an den Sampler.
Modellprüfung | Was kann Qwen-Image?
Über folgenden Prompt haben wir Qwen-Image einmal konsequent herausgefordert. Semantisch versucht in die Knie zu zwingen. Um schlicht zu sehen, wo die Grenzen zu finden sind.
Zunächst die Generationsanweisung:
"ultra-realistic high-resolution corporate boardroom scene during a compliance audit meeting, modern glass-walled conference room with balanced gender and age diversity among six participants: three women and three men, mix of ethnic backgrounds, mix of younger and older professionals, all wearing professional business attire, seated and standing naturally in engaged discussion, central large wall-mounted screen displaying a crystal-clear, OCR-legible flowchart titled “AI Compliance Workflow” in Arial font, diagram blocks labeled exactly: “AI Act”, “Data Input”, “Processing”, “Audit Logging”, “Model Output”, “Transparency Report” in clean, readable text, compliance checklist on the right side with items marked “Governance”, “Data Integrity”, “Risk Mitigation”, “Fairness”, all with green status icons, one woman standing and presenting while pointing at the diagram, one man seated taking structured notes on a laptop, open binders labeled “GDPR” and “AI Act” in multiple languages on the table, daylight streaming through tall windows, balanced natural shadows, reflections of the screen in the polished wood table surface, neutral corporate color palette (navy blue, white, grey) with cyan highlights on screen elements, ultra-sharp focus, 8k photorealistic detail, Canon EOS R5, 50mm f/1.4 lens, perfect perspective alignment, high text clarity without distortion"
Und die Negative:
"lowres, blurry text, unreadable letters, misspelled words, fantasy elements, sci-fi style, cyberpunk, cartoon, overexposed, underexposed, distorted faces, exaggerated stereotypes, unbalanced gender ratio, outdated clothing, casual wear, messy background, irrelevant props, poor lighting, incorrect language usage, overly dramatic lighting, oversaturated colors"
Das Resultat bei 60Steps/4.0 CFG/Seed: 1012266647251268
Gleicht man die Vorgaben durch die tatsächlich erzeugten Umsetzungen ab, gibt es deutliche semantische Verluste. Allerdings sollte das nicht zu eng betrachtet werden. Wir haben alleine durch die Komplexität der Schriften und der Komplexität der Szene sehr viel gefordert. Viele vergleichbare Modelle hätten hier den konsequenten Einsatz dezitierter Low Rank Modelle benötigt, um zu diesem Ergebnis zu kommen.
Was uns besonders gut gefällt, ist die Umsetzung der Farben, Geometrien, Details (Schatten etc) und Reduktion von Auflösungsverlusten.
Alles in allem betrachtet ist unserer ersten Wertung nach, Qwen-Image ein Modell was sich wirklich etablieren wird. Technisch und Semantisch. Die Wahl es einzusetzen war für uns also keine schwere.
Modellübersicht | Was ist Qwen-Image?
Qwen-Image ist das erste Bildgenerierungs-Grundlagenmodell, das vom Qwen-Team von Alibaba veröffentlicht wurde. Es handelt sich um ein MMDiT-Modell (Multimodal Diffusion Transformer) mit 20 Milliarden Parametern, das unter der Apache 2.0-Lizenz als Open Source verfügbar ist. Das Modell hat bedeutende Fortschritte bei der komplexen Textwiedergabe und präzisen Bildbearbeitung erzielt und liefert hochauflösende Ergebnisse für mehrere Sprachen, darunter Englisch und Chinesisch.(Zitat:https://docs.comfy.org/tutorials/image/qwen/qwen-image)
Das Modell ermöglicht eine Vielzahl von Anwendungen, darunter:
- Hervorragende mehrsprachige Textdarstellung: Unterstützt die hochpräzise Textgenerierung in mehreren Sprachen, darunter Englisch, Chinesisch, Koreanisch und Japanisch, unter Beibehaltung der Schriftdetails und Layoutkonsistenz.
- Vielfältige künstlerische Stile: Von fotorealistischen Szenen bis hin zu impressionistischen Gemälden, von Anime-Ästhetik bis hin zu minimalistischem Design – fließend anpassbar an verschiedene kreative Vorgaben.
Qwen-Image besticht durch seine starke Performance bei der visuellen Semantik und ist optimiert für den Einsatz in Echtzeit-Anwendungen auf GPUs mit begrenztem Speicher (z.B. FP8 quantisierte Varianten).
Offizielle Quellen bestätigen, dass Qwen-Image nach den Prinzipien von Open Source unter der Apache 2.0 Lizenz veröffentlicht wurde, was eine freie Nutzung in Forschung, Privatprojekten und kommerziellen Anwendungen ermöglicht.
Huggingface Model CardHersteller | Herkunft
Das Qwen-Image Modell wurde von Alibaba Qwen AI entwickelt, einem der führenden Forschungsteams im Bereich Künstliche Intelligenz mit Sitz in China.
Das AI Lab von Qwen AI hat sich auf die Erforschung fortgeschrittener KI-Modelle spezialisiert und betreibt umfangreiche Forschung zu multimodalen Modellen, welche Text, Bild und Sprache integrieren. Qwen-Image ist Teil dieser Innovationslinie, die darauf abzielt, leistungsfähige und gleichzeitig effizient einsetzbare KI-Modelle zu entwickeln.
Trotz der chinesischen Herkunft ist Qwen-Image als Open-Source-Projekt unter der Apache 2.0 Lizenz veröffentlicht und somit auch international frei zugänglich und nutzbar. Die Community und unabhängige Entwickler weltweit setzen das Modell in vielfältigen Projekten ein.
Technische Details | Qwen-Familie
Qwen-Image basiert auf einem großen multimodalen Transformer-Modell, das speziell für die Verarbeitung von Bildern und Text entwickelt wurde. Es integriert Vision-Transformer-Module (ViT) zur Bildrepräsentation mit leistungsfähigen Text-Transformern, um eine enge Verknüpfung beider Modalitäten zu gewährleisten.
Das verfügbare Qwen-Image Modell liegt auch in Varianten die durch Quantisierung (z.B. FP8-Formate) für effizienten GPU-Betrieb optimiert, vor.
Das Modell verwendet FP8-Quantisierung (E4M3FN), wodurch die Speicherbelegung und Rechenlast deutlich reduziert wird, ohne signifikanten Verlust an Genauigkeit oder Bildqualität.
Qwen-Image wurde mit multimodalen Datensätzen trainiert, die große Mengen an Bildern mit entsprechenden Textbeschreibungen enthalten. Das Training umfasste Techniken wie multimodale Alignment, Cross-Attention und spezielle Bild-Text-Kohärenz-Mechanismen.
Besonderheiten:
- Unterstützung für Bild-Inpainting und Bild-basierte Fragebeantwortung (eingeschränkt bis aust. Inpaint-Release.)
- Optimiert für Echtzeit-Inferenz auf GPUs mit begrenztem Speicher (z.B. kl. 24GiB)
- Offizielle Unterstützung für Integration in Frameworks wie Huggingface Transformers
- Eingebettetes Tokenisierungssystem für Text- und Bilddaten
Trainingsdaten | Datengrundlage (Stand aktuell)
Offizielle Aussagen von Qwen AI:
- Das Modell wurde mit umfangreichen, hochwertigen multimodalen Datensätzen trainiert, die öffentlich zugängliche Bilder mit zugehörigen Textbeschreibungen enthalten.
- Dabei kamen sowohl Web-Datenquellen, als auch lizenzierte Datensätze zum Einsatz, um Vielfalt und Qualität sicherzustellen.
- Es wird explizit betont, dass Datenauswahl- und Filtermechanismen implementiert wurden, um problematische Inhalte (z.B. Gewalt, NSFW, diskriminierende Inhalte) weitestgehend auszuschließen.
- Die Daten wurden vorverarbeitet und kuratiert, um semantische Konsistenz und hohe Relevanz zwischen Bild und Text sicherzustellen.
Belege und Nachweise:
- Die genauen Datensätze sind nicht vollständig offengelegt, um sowohl rechtliche als auch wettbewerbliche Interessen zu schützen.
- In der offiziellen Dokumentation und im Repository finden sich Verweise auf Standard-Datensätze wie COCO, LAION oder ähnliche, die in der Community bekannt sind, jedoch wird Qwen-Image nicht ausschließlich auf diese begrenzt.
- Qwen AI veröffentlicht regelmäßig Whitepapers und Berichte, die auf den Einsatz kuratierter, umfangreicher multimodaler Trainingsdaten hinweisen, ohne jedoch jeden einzelnen Datensatz zu spezifizieren.
Zusammengefasst:
Die Trainingsdatenbasis ist breit und auf Qualität ausgerichtet, mit aktiven Filtern gegen problematische Inhalte. Absolute Vollständigkeit der Datentransparenz fehlt jedoch — das ist ein üblicher Kompromiss bei großen kommerziellen Forschungsprojekten.
Umso bedeutsamer ist es, für rechtlich sichere Generationen über das System selbst zu gehen.
Das Wichtigste zum Schluß
Qwen-Image arbeitet natürlich auch lokal und ist nicht abhängig von einer Internetverbindung oder API. So sind die Daten, Produktionsabläufe und Interna´s selbstverständlich in jeder Anwendung datenschutzrechtlich sicher.
Quellnachweis/Zitate:
Docs ComfyUI official