Was ist RAID, was sind die RAID Levels? Dieser Bericht gibt Auskunft.

Inhalt

Einführung

RAID ist die Abkürzung für "Redundant Array of Inexpensive Disks", neuerdings wird es auch als "Redundant Array of Independent Disks" bezeichnet, da die Bezeichnung "inexpensive" heutzutage etwas undeutlich geworden ist; damit meinte man früher nämlich dass man auch herkömmliche Festplatten nehmen konnte, im Gegensatz zu den riesigen Datenspeichern in Mainframe Rechnern, die eine schöne Villa am See "günstig" erschienen liessen und auf die Juwelen und Smaragde "billig" wirkten.

Heute verwendet man im allgemeinen eher die "billigen" SCSI oder IDE Festplatten und auf fast jedem neuen Mainboard ist ein RAID Controller (oder so was in der Art g) schon drauf.
Das "Independent" bezeichnet hier die Speicherung auf zwei voneinander unabhängigen Festplatten, die an eigenen IDE Kanälen, Kabeln und manchmal sogar an zwei verschiedenen Controllern hängen. Die macht durchaus sinn, vor allem in einer Zeit wo es Festplatten schon fast im Terrabyte Bereich zu unter 1.- / MB gibt und die Produktionsqualität Platten z.T. schon nach wenigen Jahren zerstören kann. Auch die Performance dürfte insgesamt besser werden, wenn jede Platte separat angesteuert wird.

Allerdings gibt es einige verschiedene RAID Konfigurationen, im allgemeinen "Levels" genannt:

RAID Levels

Die gebräuchlichsten RAID-Level sind RAID 0, RAID 1 und RAID 5; die anderen Levels dagegen sind relativ bedeutungslos, werden aber der vollständigkeitshalber ebenfalls aufgeführt.

RAID 0

{IMG(fileId="48",thumb="y",rel="box[g]",imalign="left",align="left")}{IMG} RAID 0, auch "striping" genannt, bezeichnet das Verfahren indem die Daten jeweils über zwei Festplatten aufgeteilt werden, dadurch wird bei einer Datei (nennen wir sie z.B. "my_document.doc") zur Hälfe auf der einen und zur anderen Hälfte auf der anderen Platte gespeichert; dies erfordert dann pro Platte nur noch die hälfte des Schreibzugriffes und verdoppelt so theoretisch die Datenrate einer Festplatte.
Der (grosse) Nachteil dieses Systems ist jedoch, dass wenn nur eine Festplatte ausfällt, die Daten auf der anderen Platte ebenfalls gleich weg sind; denn es sind ja auf jeder Platte nur Datenfragmente vorhanden, mit denen man im Falle eines System-Crashs nicht mehr viel anfangen kann.
RAID 0 alleine ist der einzige Level, der nichts zur Datensicherheit beiträgt und man deshalb so nicht verwenden sollte.

Streng genommen ist dies auch gar kein RAID, da es keine Redundanz gibt.

RAID 1

{IMG(fileId="49",thumb="y",rel="box[g]",imalign="left",align="left")}{IMG} Bei RAID 1, oder "mirroring" werden die genau gleichen Daten parallel auf zwei Festplatten geschrieben; speichert man also die Datei "my_document.doc", ist die automatisch auf Festplatte 1 und Festplatte 2 gespeichert; das System merkt davon jedoch nichts und stellt den Verbund als 1 Festplatte dar. Fällt jedoch eine Festplatte aus, sind die Daten immer noch auf der anderen vorhanden. So kann man nach einem gefürchteten "Platten-Crash" die defekte Festplatte einfach austauschen und normal weiter Arbeiten.

RAID 1 bietet die volle Redundanz der gespeicherten Daten, während die Kapazität des Arrays höchstens so groß ist, wie die kleinste beteiligte Festplatte.

<EM>Hinweis: </EM>Ein RAID 1 sollte keine falschen Sicherheiten geben; ein RAID 1 schützt zwar von Datenverlust infolge von Festplatten-defekten, es ist aber <B>kein</B> Ersatz für ein regelmässiges Backup! Es schützt weder vor versehentlichen Lösch-Aktionen des Benutzers, noch von Schäden durch Viren, Würmer, oder Angriffen von aussen.

RAID 2

RAID 2 spielt in der Praxis keine Rolle mehr. Das Verfahren wurde nur bei Großrechnern verwendet. Die Daten werden hierbei in Bitfolgen fester Größe zerlegt und mittels eines Hamming-Codes auf größere Bitfolgen abgebildet (8 Bit für Daten noch 2 Bit für den ECC-Code). Die einzelnen Bits des Hamming-Codeworts werden dann über einzelne Platten aufgeteilt, was prinzipiell einen hohen Durchsatz erlaubt. Ein Nachteil ist jedoch, dass die Anzahl der Platten ein Vielfaches der Hamming-Codewortlänge sein muss.

Ein RAID 2 Verbund benötigt mindestens zehn Festplatten.

RAID 3

RAID 3 ist der Vorläufer des RAID 5. Im RAID 3 wird die Redundanz auf einer zusätzlichen Festplatte gespeichert. Als Redundanz bezeichnet man hier die bitweise Addition der einzelnen Bits der anderen Festplatten. Die bitweise Addition berechnet Summen von Einzelbits, die den Wert 0 und 1 enthalten können, und befolgt die Rechenregeln des mathematischen Zahlkörpers, welcher nur die Elemente 0 und 1 enthält, und bei dem die folgenden Rechenregeln gelten: 1+1=0, 0+1=1, 1+0=1, 0+0=0, und Subtraktion = Addition. In der Mikroelektronik ist dies identisch mit der XOR-Verknüpfung.

Der Gewinn durch ein RAID 3 ist folgender: Angenommen der RAID 3-Verbund besteht aus n datentragenden Festplatten und einer dedizierten Parity-Disk mit Hausnummer n+1. Bei einem Ausfall einer der ersten n Festplatten werden, nach Austausch dieser Festplatte, alle Daten auf die neue n-te Festplatte zurück synchronisiert, ausgehend von den Parity-Informationen der n+1-ten Festplatte und den übrigen, unversehrten n-1 Daten-Festplatten. Der Ausfall der Parity-Disk selbst wird, nach Ersetzen der Festplatte, repariert durch einfache Neuberechnung der Parity-Bits.

RAID 3 ist inzwischen vom Markt verschwunden, da durch RAID 5 verbessert, bei dem die Parität gleichmässig über alle Disks verteilt wird. Die dedizierte Paritätenfestplatte stellte einen Flaschenhals dar (performance bottleneck). Vor dem Übergang zu RAID 5 wurde RAID 3 zudem partiell durch RAID 4 verbessert, bei dem Ein-/Ausgabe-Operationen mit größeren Blockgrößen aus Performance-Gründen standardisiert wurden.

Zusätzlich sei hier bemerkt, dass ein RAID 3-Verbund aus lediglich zwei Festplatten identisch ist mit einem RAID 1 aus zwei Festplatten – per Definition.

RAID 4

Es werden ebenfalls Paritätsinformationen berechnet, die auf eine dedizierte Festplatte geschrieben werden. Allerdings sind die Einheiten, die geschrieben werden, größere Chunks und nicht einzelne Bytes, was die Gemeinsamkeit zu RAID 5 ausmacht.

Ein Vorteil von RAID 4 besteht darin, dass bei einem Ausfall einer Datenplatte eine "vorgenullte" Datenplatte eingesetzt werden kann. Dadurch wird eine zeit- und rechenintensive Wiederherstellung vermieden, dass RAID-4-System kann ohne Einschränkungen weiterbetrieben werden.

Ein Nachteil bei RAID 4 besteht darin, dass die Parity-Platte bei allen Schreib- und Leseoperationen beteiligt ist. Dadurch ist die maximal mögliche Performance durch die Performance der Parity-Disk begrenzt. Da bei jeder Operation immer eine der Daten-Disks und die Parity-Disk verwendet werden, fällt die Parity-Disk häufiger aus.

Wegen der fest definierten Paritätsplatte wird statt RAID 4 fast immer RAID 5 bevorzugt.

Eine Ausnahme bildet ein Systemdesign, bei dem die Lese- und Schreiboperationen auf ein NVRAM erfolgen. Das NVRAM bildet einen Puffer, der die Performance kurzfristig erhöht und die Lese- und Schreiboperationen sammelt und in Abschnitten auf das RAID 4 Plattensystem schreibt. Dadurch werden die Nachteile von RAID 4 vermieden.

RAID 5

{IMG(fileId="50",thumb="y",rel="box[g]",imalign="left",align="left")}{IMG} RAID 5 bietet sowohl gesteigerte Performance als auch Redundanz und ist damit die beliebteste RAID-Variante. Darüber hinaus ist es die kostengünstigste Möglichkeit, Daten auf mehr als 2 Festplatten mit Redundanz zu speichern. Es werden mindestens 3 Platten benötigt. Bei n Platten sind (n-1)/n der Gesamtkapazität nutzbar; das restliche 1/n wird für die Paritätsdaten (Redundanz) benötigt. Zum Vergleich: bei RAID 1 lassen sich nur ½ der realen Kapazität wirklich verwenden.

Die Nutzdaten werden wie bei RAID 0 auf alle Festplatten verteilt. Die Paritätsinformationen werden jedoch nicht wie bei RAID 4 auf einer Platte konzentriert, sondern ebenfalls verteilt. Die Berechnung der Parität erfordert leistungsfähige RAID-Controller und führt beim Schreiben zu leichter bis erheblicher Verminderung der Datentransferrate im Vergleich zu RAID 0. Da die Paritätsinformationen beim Lesen nicht benötigt werden, stehen alle Platten zum parallelen Zugriff zur Verfügung. Bei RAID 5 ist die Datensicherheit beim Ausfall einer Platte gewährleistet! Allerdings lässt nach Ausfall einer Festplatte oder während des Rebuilds auf die Hotspare-Platte (bzw. nach Austausch der defekten Festplatte) die Performance deutlich nach. Der Rebuild dauert länger als bei RAID 1, da bei RAID 5 zusätzlich Parity Informationen rekonstruiert werden müssen. Je mehr Festplatten in einem RAID 5 Verbund sind, desto länger dauert der Rebuild bzw. desto schlechter ist die Performance während eines Defekts einer Festplatte.

Kombinationen

Die RAID Level lassen sich zum Teil auch kombinieren:

RAID 0+1

Ein RAID 01 Verbund ist ein RAID 1 von mehreren RAID 0. Es werden dabei die Eigenschaften der beiden RAIDs kombiniert: Sicherheit und gesteigerte Performance.

Ein RAID 01 Verbund benötigt mindestens vier Festplatten.

RAID 0+5

Ein RAID 0+5 Verbund besteht aus einem RAID 5 Array, das aus mehreren gestripten RAID 0 besteht.

Ein RAID 0+5 Verbund benötigt mindestens sechs Festplatten.

Beispielsweise zwei Raid 0 Hardware Stripes über ein Raid 5 Block findet kaum Verwendung, da der Performancegewinn im vergleich zu RAID 5 marginal ist.

RAID 5+1

Der RAID 5+1 Verbund wird ähnlich wie RAID 1+5 gebildet, indem man die gesamte Reihe eines RAID 5 spiegelt und ist ähnlich zu RAID 0+1 ausgenommen beim Paritäts Schutz, dass die Sätze RAID 5 anstelle von RAID 0 sind.

Bei einem acht Festplatten RAID 51 können bis zu drei beliebige gleichzeitig ausfallen. Darüber hinaus können fünf Festplatten ausfallen solange keine aus dem gespiegelten RAID 5 Verbund betroffen sind.

Ein RAID 5+1 Verbund benötigt mindestens sechs Festplatten.

Die Performance ist gut, aber nicht sehr hoch. Die Kosten sind mit den anderen RAID Systemen nicht direkt vergleichbar.

RAID 5+5

Der RAID 5+5 Verbund wird ähnlich wie RAID 5+1 gebildet, indem mehrere RAID 5 Systeme zu einem RAID 5 zusammen geschaltet werden. Im Gegensatz zu RAID 5+1 ist der Overhead geringer und es ist möglich schneller die Daten zu lesen.

Die Performance ist sehr gut, aber nicht sehr hoch. Die Kosten sind mit den anderen RAID Systemen nicht direkt vergleichbar.

Bei einem neun Festplatten RAID 5+5 können bis zu drei beliebige gleichzeitig ausfallen. Darüber hinaus können fünf Festplatten ausfallen.

Ein RAID 5+5 Verbund benötigt mindestens neun Festplatten.

RAID Controller

Auch bei den Controllern gibt es grosse Unterschiede. Angefangen von reinen Software RAIDs, die keinen speziellen Controller brauchen über "halb Software" RAIDs, die über einen einfachen BIOS Controller (erhältlich ab ca. 50.- bis 100.-) verfügen, über Professionelle Controller, die völlig systemunabhängig arbeiten bis hin zu ganzen Rack-Systemen, bei denen man die Festplatten in eine Controller-Box einbauen kann und die mehrere 1000.- kosten.

Nachfolgend eine kleine Auflistung der RAID Controller:

Software RAID

Von Software-RAID spricht man, wenn das Zusammenwirken der Festplatten komplett softwareseitig organisiert wird; etwa können viele moderne Betriebssysteme, wie Microsoft Windows XP oder Linux, so die gängigsten RAID-Level zur Verfügung stellen. Die einzelnen Festplatten sind in diesem Fall über einfache Festplattencontroller am Computer angeschlossen.

Der Vorteil von Software-RAID ist die kostengünstige Einrichtung. Allerdings kann die Abhängigkeit von einem bestimmten Betriebssystem bzw. einer bestimmten Plattform auch ein Nachteil sein, und nicht zuletzt wird der Hauptprozessor (CPU) des Computers bei Festplattenzugriffen relativ stark belastet.

Die betreffende Softwarekomponente wird als Volume Management Software bezeichnet.

Hardware RAID

Von Hardware-RAID spricht man, wenn das Zusammenwirken der Festplatten von einem speziell dafür entwickelten Hardware-Baustein, dem RAID-Controller, organisiert wird.

Der Hardware-RAID-Controller befindet sich physikalisch in der Nähe der Festplatten. Er kann im Gehäuse des Computers enthalten sein. Häufiger befindet er sich aber in einem eigenen Gehäuse, einem Storage Array, in dem auch die Festplatten untergebracht sind. Vermehrt werden in den letzten Jahren auch RAID-Controller auf Mainboards für den Heimcomputer- bzw. Personal Computer-Bereich verbaut. Üblicherweise sind diese häufig auf RAID 0 und RAID 1 beschränkt.

Hybrid Software RAID (mit Controller)

Als solches "Hybrid Software RAID" oder auch bezeichnet man es, wenn es zwar ein RAID Controller auf dem Mainboard gibt, dieser aber mittels Treiber, also im prinzip auch mit Software und mit normalen IDE/SCSI befehlen gesteuert wird.

Mit der zunehmenden Verbreitung von solchen billig-RAID Controllern auf zahlreichen Mainboards wird diese Form von RAID immer häufiger, vor allem im Privat und KMU Bereich benutzt.