WO2000031639A1

WO2000031639A1 - Überwachungs-komponente eines rechnersystems

Info

Publication number: WO2000031639A1
Application number: PCT/EP1999/009055
Authority: WO
Inventors: Markus Lautenbacher
Original assignee: Siemens AG; Siemens Corp
Current assignee: Siemens AG; Siemens Corp
Priority date: 1998-11-24
Filing date: 1999-11-23
Publication date: 2000-06-02
Anticipated expiration: 2001-05-24
Also published as: EP1133729A1; CN1328667A

Abstract

Für bestimmte Anwendungen, z.B. für Telekommunikationsdienste, ist es erforderlich, dass dazu notwendige Rechnersysteme in ihrer Gesamtheit, d.h. in der Kombination aus Rechnerplattform und darauf laufenden Applikationen, eine besonders hohe Verfügbarkeit bieten. Die Erfindung löst dieses Problem durch eine Überwachungs-Komponente, die sw-schichtmässig zwischen Applikationen und Rechnerplattform eingefügt ist.

Description

Beschreibung

_Überwachungs-Komponente eines Rechnersystems

_In Datenverarbeitungsanlagen (Rechnersystemen) für

Tele_kommunikationsdienste (z.B. Service Nodes) , für sog. Mission Critical Applications (z.B. Transaktionen im Finanzbereich) oder für multimediale, interaktive quasi- Echtzeit Netzwerkdienste ist es erforderlich, daß die Kombination aus Rechnerplattform (Hardware, Operating & Network Transport System [2] und Netzwerk) und darauf laufenden Applikationen, also einer Datenverarbeitungsanlage als Ganzes, eine besonderes hohe Verfügbarkeit bietet.

Dabei soll die Verfügbarkeit gewährleistet sein gegen Probleme wie

• Hardware Ausfälle

• Interne Softwarefehler in Applikationen (Endlos-Schleifen, Speicherlecks, unsaubere Dateizugriffe,...), die zu einem Performance-Verlust des Gesamtsystems führen

• Externe, fehlerhafte Ereignisse (unterbrochene Netzwerkverbindungen, Verbindungsüberlastung, ... )

• Ressourcenkonflikte zwischen den einzelnen (u.U. von verschiedenen Benutzern eingebrachten) Applikationen, die gleichzeitig auf einem System ablaufen

• Performance-Verlust des Gesamtsystems (bis zum Denial-of- Service) wegen Überlastung durch die Gesamtheit der momentan aktiven Applikationen

In bisherigen Lösungen werden die genannten Probleme durch Einsatz von hoch spezieller Hard- u. Software gelöst. Bekannte Ansätze sind z.B. die Dopplung von Hardware und die Spiegelung von Daten im Parallelbetrieb oder im Hot/Cold- Stand-By.

Die Nachteile solcher Ansätze sind • eine doppelte Bereitstellung und Wartung von IT- Infrastruktur (Hard- und Software)

• inflexible Kombination von Spezialhardware mit hoch speziellen, proprietären Betriebssystemen • die dadurch erzwungene Verwendung von ebenfalls extrem plattformgebundenen, nicht portierbaren Applikationen und die Bindung an deren Hersteller

• die mangelnde Interoperabilität zu allgemein verfügbaren ( off-the-shelf") Hard- u. Softwarekomponenten aufgrund fehlender quasi-standard Interfaces

Insgesamt führen o.g. Nachteile zu einer extrem unbefriedigenden Wirtschaftlichkeit herkömmlicher, hochverfügbarer Systeme. Gleichzeitig lassen sich derartige Systeme nur sehr schwer an den rasanten technologischen Fortschritt im IT-Bereich anpassen.

Der Erfindung liegt die Aufgabe zugrunde, die genannten Nachteile zu überwinden.

Diese Aufgabe wird durch die Erfindung gelöst.

Im folgenden wird die Erfindung anhand der Zeichnung näher beschrieben, wobei die Zeichnung drei Figuren umfaßt.

Die im folgenden beschriebene Überwachungs-Komponente (Availability Enhancing Middleware AEM) bietet eine hochverfügbare Service Infrastruktur wie sie in Bereichen wie der Telekommunikation, im Finanzbereich, oder bei interaktiven Multimedia Netzdiensten notwendig ist.

Fig. 1 zeigt das Prinzip wie sich die AEM [3] in ein Rechnersystem zwischen die Rechnerplattform (Standard Operating & Network Transport System [2], Netzwerk und Hardware [1]) und die Applikationen [4] einfügt. Die _AEM [3] stellt eine reine Softwarelösung dar, die als neuer Middleware Layer zwischen das Standard Operating & Network Transport System [2] inklusive Hardware [1] und die Applikationen [4] in den Rechner eingebracht wird. Der Middleware-Layer Ansatz für die softwaretechnische Realisierung der AEM erlaubt dabei, die AEM zu einem inhärenten Teil eines neu entwickelten Rechnersystems zu machen, ermöglicht gleichzeitig aber auch die Nachrüstung in ein existierendes Rechnersystem. Durch entsprechende Kommunikationskanäle (bezeichnet mit (l)-(7) in Fig. 2 und 3) schiebt sich die AEM quasi zwischen die normalerweise direkte Kommunikation der Komponenten [1], [2] und [4] in Fig. 1. Die AEM[3] kontrolliert dabei die Wechselwirkung (Interaktion) von Applikationen [4] mit Operating & Network Transport System [2], Netzwerk und Hardware [1], und korrigiert ggf. Aktionen der Applikationen [4] mit der Zielsetzung, eine erhöhte Verfügbarkeit des gesamten Rechnersystems (Hardware, Netzwerk, Operating System, Applikationen) zu gewährleisten.

Die AEM ist zum einen in der Lage bereits existierende Applikationen (sog. nicht AEM-konforme Applikationen) zu integrieren (vor allem solche existierende Applikationen, die nur in Binärform vorliegen) und stellt zum anderen ein eigenes Application Programming Interface (API) für speziell auf die Vorteile des AEM-Ansatzes zugeschnittene

Applikationen (sog. AEM-konforme Applikationen) zur Verfügung, um diesen Applikationen optimalen Zugriff auf die Möglichkeiten des AEM zu bieten.

Ein besonderer Vorteil der Erfindung besteht in der

Erreichung der erhöhten Verfügbarkeit durch einen Middleware- Ansatz auf Standard Hard- und Software unter Verwendung von offenen IT-Standards. Der bisherige Ansatz einer erhöhten Verfügbarkeit für Applikationen durch eine enge Integration von spezieller Hard- und Software wird ersetzt durch die Verlagerung dieser Funktionalität in eine intelligente Softwarezwischenschicht . Fig. 2 zeigt schematisch ein Ausführungsbeispiel des AEM Middleware Ansatzes aus Fig. 1 zur Erhöhung der Verfügbarkeit von Datenverarbeitungsanlagen. AEM-Architekturelemente sind mit [_l]-[5] bezeichnet, Kommunikationsverbindungen zwischen diesen Elementen mit (l)-(7).

Die Behandlung von AEM-konformen [4a] und nicht AEM-konformen Applikationen [4b] zur Erhöhung der Verfügbarkeit des Gesamtsystems [5] (bestehend aus Hardware [1], Operating &

Network Transport System [2], AEM [3], mehreren AEM-konformen [4a] und mehreren nicht AEM-konformen Applikationen [4b]) erfolgt dabei folgendermaßen:

AEM-konforme Applikationen [4a] kommunizieren (1) über ein von der AEM zur Verfügung gestelltes, offenes API [3a] . Das API vermittelt (2) dabei als Schnittstelle zwischen den AEM- konformen Applikationen [4a] dem entsprechenden Subsystem [3b] des AEM [3] . Die AEM als Ganzes [3] prüft und bewertet den von der AEM-konformen Applikation [4a] eingehenden

Informationsstrom (Status- und Fehlermeldungen, Ressource- Anforderungen an Operating & Network Transport System [2], Zugriffe auf Dateisystem und Devices,...) auf Konsistenz, auf mögliche Konflikte mit anderen Applikationen und auf die Verträglichkeit mit der Verfügbarkeit des Gesamtsystems [5] .

Nach erfolgreicher Prüfung in der AEM [3] wird der Informationsstrom der AEM-konformen Applikation [4a] an das Operating & Network Transport System [2] weitergegeben (3) . Eventuelle Rückmeldungen (3) des Operating & Network

Transport Systems [3] werden wieder im zugehörigen AEM Subsystem [3b] überwacht und an die AEM-konforme Applikation [4a] weitergeben (6) . Entdeckt die AEM [3] Konflikte oder Probleme so wird dies ebenfalls der AEM-konformen Applikation [4a] zurücksignalisiert (6) . AEM-konforme Applikationen decken die Behandlung solcher Rückmeldungen intern über die Software Standardtechnik eines sog. "Event Händlers" ab und verzögern dann z.B. eine Speicheranforderung entsprechend bis die _Verfügbarkeit des Gesamtsystems [5] dies wieder zuläßt.

Nicht AEM- onforme Applikationen [4b] benutzten nicht den Umweg über die AEM [3], sondern greifen (4) direkt auf die Ressourcen des Operating & Network Transport System [2] zu. Das entsprechende Subsystem der AEM [3c] überwacht diese Systemaufrufe (z.B. durch die "trace" Systemroutine des UNIX Operating Systems) und dadurch erzeugte Systemmeldungen (5) . Analog zu den AEM-konformen Applikationen [4a] wird die so über die nicht AEM-konformen Applikationen [4b] gewonnene Information im Hinblick auf mögliche Konflikte mit anderen Applikationen und die Verträglichkeit mit der Verfügbarkeit des Gesamtsystems [5] von der AEM [3] als Ganzes geprüft. Erkennt die AEM [3] entsprechende Probleme, so wird versucht, diese durch Anhalten bzw. Terminieren (z.B. UNIX Signal "STOP" bzw. "KILL") der entsprechenden nicht AEM-konformen Applikation [4b] zu beseitigen (7) .

Fig. 3 zeigt basierend auf Fig. 1 und 2 eine detaillierte

Architektur für ein Ausführungsbeispiel des AEM-Ansatzes zur Erhöhung der Verfügbarkeit von Datenverarbeitungsanlagen.

Die Funktionsweise der Architekturelemente [l]-[5] und der AEM-Kommunikation (l)-(7) aus Fig. 2 wird unverändert übernommen. Fig. 3 führt zusätzlich das AEM API [3a], die interne Architektur der AEM Subsysteme [3b] und [3c] und die zugehörige AEM-interne Kommunikation (il)-(i4) weiter aus.

Das AEM API [3a] bietet für AEM-konforme Applikationen [4a] eine hinsichtlich Gesamtverfügbarkeit abgesicherte Schnittstelle zur Anforderung von sog. Passiven Objekten (PO) , Dateizugriffen, Speicherbehandlung, Network Communication, etc. Das API bietet entsprechende sog. "Stubs" aus der objektorientierten Programmierung an. Im Sinne der Objektorientierung sind die Schnittstellen zu Standard _Operating System Services wie z.B. FTP, TELNET,... als Passive Objekte innerhalb der AEM [3] realisiert) .

Die _AEM [3] hält Informationen über den momentanen Zustand des Gesamtsystems [5] in folgenden Zentraleinheiten:

Passive Objekte (PO) Management:

Diese Einheit verwaltet die Laufzeitumgebung der PO. Alle AEM-konformen Applikationen sind nach objektorientierten Methoden aus PO Einzelbausteinen aufgebaut.

Distribution Component:

Diese Einheit hat die Aufgabe, im Falle eines vernetzten

Verbunds von nach dem AEM-Ansatz arbeitenden Datenverarbeitungsanlagen, die Ressourcen innerhalb dieses Verbunds nach einstellbaren Kriterien auszunutzen (z.B. gleichmäßige Lastverteilung auf alle Maschinen) und so einzelne Maschinen vor Ausfall durch lokale Überlastung zu schützen. Dazu werden z.B. PO zwischen den verschiedenen Datenverarbeitungsanlagen migriert oder entsprechende

Anforderungen von lokalen POs zu entsprechenden POs auf andere Datenverarbeitungsanlagen im Netzwerk delegiert.

Security Management: Daten und Programm-Code unterschiedlicher Applikationen innerhalb des Gesamtsystems sollen voneinander getrennt gehalten und Übergriffe verhindert werden. Diese Aufgabe übernimmt die Security Management Einheit.

Information Base:

Diese Einheit ist eine Datenbank in der persistente und temporäre systemrelevante Informationen gehalten werden; dazu zählen Informationen über die momentane Systemkonfiguration bzgl. Hard- und Software, die Maximalwerte der verfügbaren Systemressourcen, Ressource-Profiles die zulässigen

Ressource-Anforderungen per Applikation festlegen, sowie die aktuelle Systeminformation über aktive Applikationen. Resource Management:

Diese Einheit hat die Aufgabe der Verwaltung lokaler Ressourcen. Das Resource Management beinhaltet die Aufdeckung von Ressource-Mißbrauch durch einzelne Applikationen und die Optimierung konkurrierender Ressource-Anforderungen durch unterschiedliche Applikationen. Zu den überwachten Ressourcen zählen insbesondere CPU, Speicher, Festplattenbelegung, Netzwerkverbindungen (network connections) .

Die Aktualisierung dieser Zustandsinformation erfolgt über den Austausch (2), der über das AEM API [3a] via (1) mit den AEM-konformen Applikationen [4a] erfolgt, sowie intern (il) über die Monitor Einheit.

Der Monitor wirkt als zentrale Sammel- und

Überwachungseinheit der Informationen zum Gesamtsystemstatus sowie als eine Art Bussystem für den Informationsfluß innerhalb des AEM Subsystems [3b] . Über den Monitor wird erstens die Kommunikation (3) des für AEM-konforme Applikationen [4a] zuständigen AEM Subsystems [3b] mit dem Operating & Network Transport System [2] abgewickelt. Daher kann der Monitor die AEM-konforme Applikationen [4a] betreffenden Informationen zum Systemzustand an o.g. Zentraleinheiten weiterleiten. Der Monitor erhält zweitens auch indirekt (i2) Zustandsinformation über die Sensor Einheit, die sich im für nicht AEM-konforme Applikationen [4b] zuständigen AEM Subsystem [3c] befindet. Auch diese Zustandsinformationen leitet der Monitor an o.g. Zentraleinheiten weiter. Der Sensor überwacht Systemaufrufe (z.B. durch die "trace" Systemroutine des UNIX Operating Systems) und dadurch erzeugte Systemmeldungen (5) , die durch nicht AEM-konforme Applikationen [4b] bei direkten Zugriff (4) auf die Ressourcen des Operating & Network Transport System [2] erzeugt werden. Weicht der im Monitor ermittelte Ist-Wert des _Gesamtsystemstatus von einem einstellbaren Soll-Profil (z.B. bzgl. der Anzahl der aktiven Applikationen, Maschinenauslastung, Speicherbelegung, Fehlerhäufigkeit, Netzwerkstatus, ) ab, so übergibt (i3) der Monitor den

Ist-Gesamtsystemstatus an die sog. "Decision Maker" Einheit zur weiteren Behandlung der Abweichung.

Die Decision Maker Einheit analysiert den vom Monitor angezeigten Konflikt zwischen Ist- und Soll-Wert im Hinblick auf die Systemverfügbarkeit und trifft nach geeigneten, einstellbaren Kriterien (z.B. durch regel- oder fallbasierte Programmierung) eine Entscheidung zur Lösung des Konflikts, um den Systemstatus und damit die Verfügbarkeit des Gesamtsystem [5] wieder in den zulässigen Bereich zu überführen.

Der Decision Maker informiert (i4) daraufhin die sog. "Decision Enforcement" Einheit über die getroffene Entscheidung zur Sicherstellung der Verfügbarkeit des

Gesamtsystems [5] . Aufgabe der Decision Enforcement Einheit ist es, diese Gegenmaßnahme gegenüber den betroffenen Applikationen zu realisieren. Dazu wird eine entsprechende Meldung an die als Verursacher für die eingeschränkte Verfügbarkeit ausgemachte Applikation geschickt. Bei nicht AEM-konformen Applikationen [4b] direkt (7) als System Signal, bei AEM-konformen Applikationen [4a] indirekt (6) als AEM API Meldung.

Damit eine Applikation auf eine entsprechende Meldung der

Decision Enforcement Einheit ausreichend reagiert, muß diese Einheit mit entsprechenden Systemprioritäten ausgestattet sein (z.B. dem UNIX owner "root" zugehörig und mit ausreichend hoher Process/Task Priorität, die wiederum über das "nice" UNIX Systemkommando einstellbar ist.). Fallbeispiele:

AEM-konforme Applikation:

Eine AEM-konforme Applikation [4a] fordert (1,2) über das AEM API [3a] mehr realen Speicher (RAM) an. Die AEM [3] kommt zu dem Schluß, daß dies die Verfügbarkeit des Gesamtsystems in nicht vertretbarem Rahmen beeinträchtigen würde und weist die Anforderung durch eine entsprechende AEM API Rückmeldung (6) ab. Die AEM-konforme Applikation [4a] reagiert mit ihrem Event Handler auf diese Rückmeldung, indem sie statt dem schnellen realen Speicher (RAM) , den langsameren virtuellen Speicher (in UNIX Terminologie "Swap Space") benutzt (nachdem dies vorher von der AEM genehmigt bzw. u.U. bereits als Teil der ersten AEM Rückmeldung (6) als Alternative vorgeschlagen wurde) .

Nicht AEM-konforme Applikation:

Eine nicht AEM-konforme Applikation [4b] belegt an der AEM [3] vorbei über direkten Systemaufruf erhebliche Netzwerk- Ressourcen und droht die Verfügbarkeit des Gesamtsystems [5] bzgl. der Verfügbarkeit von Netzwerk-Ressourcen (Network Connectivity) zu gefährden, da gleichzeitig alle anderen Applikationen auch Netzwerkdienste benötigen. Die AEM [3] erkennt in ihrem Ressourcen Management diesen Konflikt und die Gefahr eines Eskalierens der Anforderungen durch eine bestimmte nicht AEM-konforme Applikation [4b] zu Lasten der übrigen Applikationen [4a,b] . Über die Decision Maker und Decision Enforcement Einheiten wird daher die problematische nicht AEM-konforme Applikation [4b] temporär angehalten (z.B. über das UNIX System Signal "STOP") bis die zulässigen Anforderungen nach Netzwerkressourcen durch die übrigen Applikationen eine derart maximale Belegung durch eine einzelne Applikation erlauben. Bei einer nicht AEM-konformen Applikation bzw. einer nicht AEM-konformen Interaktion einer Applikation, die die _Verfügbarkeit des Gesamtsystems in nicht vertretbarem Maße _beeinträchtigen würden, bleibt somit als einziges Mittel vor ihrer endgültigen Terminierung nur ein temporäres Anhalten als Alternativmaßnahme, um die Systemverfügbarkeit sicherzustellen. AEM-konforme Applikationen bzw AEM-konforme Interaktionen einer Applikation können dagegen in solchen Fällen über ihren Event Handler optimaler reagieren (z.B. mit reduzierten Anforderungen nach Netzwerk-Ressourcen) . Durch die optimale wechselseitige Kommunikation (1,2,6) zwischen AEM [3] und AEM-konformen Applikationen [4a] lassen sich derart radikale Maßnahmen wie das für nicht AEM-konforme Applikationen [4b] notwendige temporäre Anhalten oder gar die endgültige Terminierung umgehen. Anhalten bzw. Terminierung zur Gewährleistung der Systemverfügbarkeit kommen für AEM- konforme Applikationen [4a] erst zum Einsatz, wenn die Behandlung über den Event Handler kein ausreichendes Ergebnis erbringt .

Das AEM Subsystem [3c] kann selbstverständlich auch die genannte Interaktion AEM-konformer Applikationen zusätzlich auf die Verwendung nicht AEM-konformer Methoden und Systemaufrufe hin überwachen oder die genannte Interaktion solcher Applikationen überwachen, die z.B unter Zuhilfenahme einer älteren Version des AEM-API programmiert wurden und nunmehr (d.h. wenn man über ein neues API programmierte Applikationen zum Vergleich betrachtet) nur noch zum Teil AEM-konform sind.

Abschließend zusammengefaßt weist die Erfindung zur Sicherung der Hochverfügbarkeit in Datenverarbeitungsanlagen folgende Merkmale/Vorteile auf:

• basierend auf allgemein verfügbarer, infolge

Massenproduktion sehr preiswerter ("off-the-shelf") Hard- und Software, Verwendung von de-facto Standards im Bereich Hard- und Software (soweit als möglich),

• Portierbarkeit, d.h. keine konzeptionelle Bindung an eine bestimmte Hard- oder Softwareplattform,

• Wegfall des Konzepts der "Verfügbarkeit durch Redundanz", d.h. z.B. der Hardware-Dopplung, Daten-Spiegelung,

• leichte Integration in existierende Systeme unter Verwendung bereits vorhandener Applikationen, d.h. Wiederverwendung der sog. "Installed Base".

Abkürzungen:

AEM Availability Enhancing Middleware API Application Programming Interface IT Informationstechnik

Claims

Patentansprüche

1. _Überwachungs-Komponente eines Rechnersystems, die Interaktionen von _Applikationen [4] mit der Rechnerplattform ü_berwacht und die Abwehrmaßnahmen ergreift, wenn durch eine Interaktion die Verfügbarkeit des gesamten Rechnersystems beeinträchtigt wird bzw. würde.

2. Überwachungs-Komponente nach Anspruch 1, gekennzeichnet durch ein Application Programming Interface (API), über das Applikationen mit der Rechnerplattform interagieren können.

3. Überwachungs-Komponente nach Anspruch 1 oder 2, gekennzeichnet durch einen Sensor, der die Interaktion von Applikationen [4] mit dem System aufnimmt, indem er Systemaufrufe von Applikationen und/oder dadurch erzeugte Systemmeldungen (5) aufnimmt.

4. Überwachungs-Komponente nach Anspruch 1, dadurch gekennzeichnet, daß die Überwachungs-Komponente die Eigenschaft einer Middleware

Layer Komponente zwischen Rechnerplattform und Applikationen

[4] aufweist.

5. Überwachungs-Komponente nach einem der Ansprüche 1 bis 4, gekennzeichnet durch

- mindestens eine Zustandsspeicher-Komponente, die Informationen über den momentanen Zustand des Gesamtsystems speichert,

- eine Monitor-Komponente, die aus einer Interaktion Zustandsänderungsinformationen gewinnt, diese der mindestens einen Zustandsspeicher-Komponente zur Aktualisierung mitteilt, und anhand der in der mindestens einen Zustandsspeicher-Komponente gespeicherten

Zustandsinformationen den Gesamtsystemzustand ermittelt, - eine Entscheidungs-Komponente, die den Gesamtsystemzustand analysiert und entscheidet, ob und wenn ja, welche Ma_ßnahmen zur Aufrechterhaltung der Verfügbarkeit ergriffen werden.

6. Verfahren zur Steigerung der Verfügbarkeit eines Rechnersystems, demgemäß

Interaktionen von Applikationen [4] mit der Rechnerplattform überwacht und Abwehrmaßnahmen ergriffent werden, wenn durch eine Interaktion die Verfügbarkeit des gesamten Rechnersystems beeinträchtigt wird bzw. würde.

7. Verfahren nach Anspruch 6, dadurch gekennzeichnet , daß Interaktionen von Applikationen mit der Rechnerplattform über ein Application Programming Interface (API) abgewickelt werden.

8. Verfahren nach Anspruch 6 oder 7, dadurch gekennzeichnet, daß

Interaktionen von Applikationen [4 ] mit der Rechnerplattform aufgenommen werden, indem Systemaufrufe von Applikationen und/oder dadurch erzeugte Systemmeldungen (5) überwacht werden.