In den letzten Tagen habe ich prototypisch eine neue Backbone-Struktur für den Fachbereich Informatik aufgebaut. Während früher pro Gebäude ein Backbone-Switch zuständig war und somit einen großen Single Point of Failure bot, soll in Zukunft ein redundantes System auch beim Ausfall eines Backbone-Switches den Betrieb am Laufen halten.
Während wir im Edge-Bereich allein durch die schiere Anzahl von benötigten Ports bzw Switches nur Linksys einsetzen, baut die neue Backbone auf "echten" Cisco Switches auf.
Jedes Labor und jeder Serverschrank wird dann später mit zwei 2 Gbit-Portchannel angebunden, so dass sowohl Redundanz als auch Durchsatz für zukünftige Anwendungen (ich sag nur Image-Verteilung) gegeben ist. Gleichzeitig sorgt RSTP bzw MSTP dafür, dass es zu keiner Schleife im Netz kommt.
Vereinfacht dargestellt:
CODE:
3560-E----------- (1)
| Linksys SRW2048
3560-E----------- (2)
Direkt nachdem der Prototype aufgebaut war, kamen aber die ersten Probleme:
%SW_MATM-4-MACFLAP_NOTIF: Host 001e.e500.ABCD in vlan 1234 is flapping between port PoX and port PoY
Der betroffene Host war die Managementschnittstelle des Linksys SRW2048 im passenden Management-VLAN. Dadurch konnte man den Switch nicht mehr erreichen... Alle anderen Hosts, die am Switch angeschlossen waren, funktionierenden allerdings weiterhin wunderbar.
In den da drauf folgenden Tagen nahm ich den Prototypen auseinander, baute von Port-Channel auf normale einfache Verbindung runter, bemühte Wireshark etc.
Gleichzeitig trat ich mit dem Linksys-Support in Kontakt und hoffte auf eine Lösung. Dieser erzählte mir dann erstmal, dass sie keine Catalyst zum Testen zur Verfügung haben - nur Linksys-Produkte...
Nach gut einem Moment wurde es mir zuviel mit dem Support und ich baute den gesamten Prototypen nochmal neu auf und bin kurz danach über die Ursache gestossen, die auch schon vorher per Wireshark-Trace zu sehen war: der Linksys schickt über ein vom Spanning-Tree blockiertes Interface ARP-Requests für seinen Standardgateway! Mit der Aussage festgenagelt, hat der Support dann endlich ein Dokument gefunden, dass dieses Problem beschreibt und mit einem Firmware-Update zu beheben ist.
Diese Firmware stand zwar schon vorher auf der Webseite zur Verfügung, aber kein Wort von dem Fehler. Obwohl dieser in der internen Datenbank aufgezeichnet war!
Mit einem Firmware-Upgrade läuft das Bäumchen jetzt korrekt und sobald unser Team Verstärkung durch mehr Personal bekommt, geht es ans Ausrollen