Citrix-Probleme – und was das mit Nagle, QoS und MTU zu tun hatte


Ein akuter Fall mit langer Vorgeschichte
Als uns der Kunde kontaktierte, war die Lage bereits angespannt. Über Monate hinweg kam es in der Citrix-Workspace-Umgebung zu massiven Performanceproblemen – Eingaben verzögerten sich, Sitzungen froren regelmäßig ein und der Login dauerte ungewöhnlich lang. Die Symptome traten unregelmäßig, aber spürbar auf. Die IT-Abteilung hatte gemeinsam mit einem externen Dienstleister intensiv versucht, die Ursachen zu finden – jedoch ohne durchschlagenden Erfolg.
Auf Empfehlung hin wandte sich der Kunde an uns – mit einem klaren Ziel: eine fundierte, strukturierte und vor allem wirksame Ursachenanalyse. Die Lösung sollte unabhängig von Verantwortlichkeiten, technischen Containern oder Herstellern erfolgen.
Zielsetzung: Transparenz, Verlässlichkeit, Wirkung
Ziel war es, nicht nur Symptome zu dokumentieren, sondern die zentralen, ursächlichen Schwachstellen zu identifizieren – und diese in einer nachvollziehbaren und messbaren Form zu beseitigen. Dabei standen drei Dinge im Fokus:
- Schnelligkeit: Minimierung weiterer Produktivitätseinbußen
- Tiefe: Eine echte Ursachenanalyse statt oberflächlicher Workarounds
- Objektivität: Herstellerunabhängige Bewertung aller technischen Ebenen
Phase 1 – Vorbereitung: Messpunkte & Feedback-Kanäle
Messtechnische Ausstattung
Für die technische Analyse setzten wir zwei Allegro-Messsysteme ein:
- Allegro NMM 3210 im Rechenzentrum
- Allegro NMM 500 an einem Kundenstandort zur Ende-zu-Ende-Messung
Drei passive Netzwerk-TAPs wurden an entscheidenden Punkten installiert:
- WAN-Übergang RZ1 (MPLS)
- DMZ-Firewall RZ1 (LAN)
- LAN-Firewall Remoteoffice (LAN)
Diese müssen zwar aktiv in die Verbindung eingeschliffen werden, erlaubten dann aber eine 100% vollständige und verlustfreie Kopie der Messdaten und im Fall des MPLS Messpunkts (Ohne Firewall) auch ohne Sicherheitsrisiko, da die Messdaten nur in eine Richtung übertragen werden.
Feedbacksystem: Online-Störungsmeldung
Da der ursprüngliche Leidensdruck über Monate hinweg zu abnehmender Rückmeldung der Mitarbeitenden geführt hatte, stellten wir ein gezieltes Online-Formular zur Verfügung. So konnten Probleme konkret, fokussiert und zeitlich exakt gemeldet werden – ein essenzieller Baustein zur Korrelation mit den Messdaten.
Phase 2 – Analyse: Vom Symptom zur Ursache
Menschliche Wahrnehmung trifft Technik
Nutzerbeschwerden wie „es hängt“, „ich werde rausgeworfen“ oder „es reagiert verzögert“ sind typisch – aber technisch zunächst unscharf. Unsere erste Aufgabe: Übersetzung in konkrete Metriken:
- Latenz & Jitter
- Retransmissions & Segmentgrößen
- Packet Loss & RTT-Verläufe
Analyse-Methodik
Unsere Vorgehensweise war dabei strikt strukturiert:
- Trace-Aufzeichnung mit Zeitstempeln und Session-Korrelation
- Port-Mirroring & TAP-Analyse an kritischen Übergabepunkten
- Firewall-Kontrolle (Sophos / Check Point) auf Session-Limits, Memory, NAT-Prozesse
- DNS-Prüfung auf Round Trip-Verhalten, Resolverpfade und Timeouts
- QoS-Überprüfung im RZ zur Priorisierung von Echtzeit-Traffic
Phase 3 – Ergebnisse: Was wirklich gebremst hat
1. Path MTU Discovery blockiert – Folge: Blackhole Drops
Durch ICMP-Filter wurden notwendige PMTUD-Mechanismen blockiert. Große Pakete mit DF-Flag wurden unterwegs verworfen, was zu Retransmissions, variabler RTT und Latenzspitzen führte – ein klassisches Muster hinter „verzögerten Eingaben“.
2. Nagle aktiviert – Interaktive Anwendungen gestört
Im benutzerdefinierten TCP-Profil des Citrix ADC war der Nagle-Algorithmus aktiviert. Kleine Datenpakete wurden gepuffert, bis ein ACK eintraf – ein Mechanismus, der für interaktive Workloads wie ICA/HDX massiv kontraproduktiv ist.
3. QoS-Konfiguration im RZ nicht Citrix-tauglich
Im Rechenzentrum war die QoS-Konfiguration nicht optimal auf interaktive Anwendungen wie Citrix abgestimmt. Zeitweise wurde verfügbare Bandbreite durch nicht-kritische Uploads oder Downloads blockiert, was Echtzeitkommunikation ins Stocken brachte. Die Priorisierungsklassen reflektierten nicht das tatsächliche Verhalten der Anwendungen – mit der Folge, dass Citrix-Traffic nicht zuverlässig bevorzugt behandelt wurde.
4. DNS verursachte zusätzliche Wartezeiten
Die Analyse zeigte inkonsistente Resolverpfade und überflüssige Round Trips bei App-Starts und Logins. Zwar war DNS nicht der Hauptverursacher, trug aber erkennbar zur Gesamtlatenz bei.
5. Netzwerkstrecke mit Mikroverlusten
Die Allegro-Analyse identifizierte vereinzelte Paketverluste auf der Providerseite. Diese standen jedoch nicht im direkten Zusammenhang mit den Zeitpunkten der Hauptprobleme.
Phase 4 – Maßnahmen & Wirkung
Umgesetzte Korrekturen
- PMTUD wiederhergestellt durch Freigabe von ICMP und MTU-Prüfung entlang der Pfade
- Nagle deaktiviert im betroffenen TCP-Profil des Citrix ADC
- QoS im Rechenzentrum optimiert: Priorisierung des Citrix-Traffics angepasst, Low-Priority-Queues für nicht-relevante Bulk-Transfers eingeführt
- DNS-Resolver vereinfacht und Timeouts gesenkt
- Vorher/Nachher-Vergleich dokumentiert: RTT, Loss, Jitter, Throughput und Segmentverhalten
Ergebnisse – messbar und spürbar
- Citrix-Sitzungen stabiler, keine Hänger mehr
- Eingaben sofort wirksam, auch bei hoher Auslastung
- Latenzspitzen verschwanden, deutlich weniger Retransmissions
- Keine Downtime, keine Umbauten notwendig – alle Maßnahmen im Livebetrieb umgesetzt
Fazit: Sorgfalt, Tiefe und Wirkung
Was auf den ersten Blick wie ein „unlösbares Citrix-Problem“ wirkte, war in Wahrheit eine Kombination aus mehreren, aufeinander wirkenden Faktoren: verdeckte Netzwerktechnik (PMTUD, Nagle), nicht angepasste Priorisierung (QoS) und unzureichend gepflegte Infrastrukturkomponenten (DNS).
Die entscheidenden Erfolgsfaktoren:
- Strukturierte Analyse
- Unabhängigkeit von Zuständigkeiten oder Herstellern
- Volle Transparenz und technische Tiefe
Wir zeigen: Performance-Probleme lassen sich nicht mit Tools allein, sondern nur mit einem Methodenbewusstsein und fundierter Praxiserfahrung dauerhaft beheben.

Ein Projekt aus der Praxis: ERP, Outlook & Co. streikten: hohe Latenzen, Paketverlust, ratlose Admins
Ein Projekt aus der Praxis: ERP, Outlook & Co. streikten: hohe Latenzen, Paketverlust, ratlose Admins. Unsere Remote-Analyse deckte binnen Stunden ein verstecktes Spanning-Tree Problem auf.


Sporadische Probleme bei Microsoft Teams
Wie wir sporadische Probleme bei der Microsoft Teams-Telefonie und Video-Konferenzen analysiert und gelöst haben.


Analyse von Paketverlusten im MPLS
Ein Produktionsunternehmen hatte Netzwerkprobleme zwischen Deutschland und Polen. Unsere Remote-Analyse deckte Paketverluste im MPLS-Netz auf. Mit detaillierten Daten überzeugten wir den Anbieter, das Problem zu beheben.
