Radixsort

aus Wikipedia, der freien Enzyklopädie
Zur Navigation springen Zur Suche springen

Radixsort (von lateinisch radix ‚Wurzel‘, ‚Basis‘) oder auch Distributionsort (von englisch distribution ‚Verteilung‘), oder im Deutschen Fachverteilen, ist ein lineares Sortierverfahren, das auf Countingsort oder Bucketsort basiert. Das Sortierverfahren hat, unter der Voraussetzung, dass die maximale Länge der zu sortierenden Schlüssel von vornherein bekannt ist, eine lineare Laufzeit. Die Vorgehensweise eines Lochkartensortierers entspricht einem Radixsort.

Bei allen hier vorgestellten Varianten ist die erste Stelle des Schlüssels diejenige mit dem höchsten Rang. Man unterscheidet Verfahren, deren erster Schritt an dieser höchstwertigen Stelle (MSD) (engl. most significant digit) beginnt, dann können Teilstücke, die nach einem Verfahrensschritt weniger als zwei Elemente enthalten, im nachfolgenden Schritt übersprungen werden; und Verfahren, die an der niedrigstwertigen Stelle (LSD) (engl. least significant digit) beginnen und sich zur höchstwertigen Stelle vorarbeiten.

Ferner gibt es stabile out-of-place Varianten und in-place Varianten, die jedoch nicht stabil sind.

Voraussetzungen[Bearbeiten | Quelltext bearbeiten]

Bei Radixsort bestehen die Schlüssel der zu sortierenden Daten aus Zeichen eines endlichen Alphabets. Zusätzlich muss eine totale Quasiordnung zwischen den Zeichen des Alphabets bestehen, meist ist es sogar eine Totalordnung. Damit ähneln die Schlüssel Zahlen in einem Stellenwertsystem mit der Mächtigkeit des Alphabets als Basis (oder Radix). Dies bedeutet, dass vorzeichenlose Zahlen (z. B. unsigned int) direkt verwendet werden können, während bei vorzeichenbehafteten Zahlen (z. B. signed int) das höchstwertige Bit invertiert interpretiert wird. Auch Gleitkommazahlen (z. B. float) lassen sich trivial vom IEEE-Format in eine geeignete Form umwandeln.

Eine zweite Voraussetzung ist, dass die Länge der Schlüssel durch eine von vornherein bekannte Konstante begrenzt ist, dann ist das Laufzeitverhalten linear in der Anzahl der Elemente.

Vorgehensweise (mittels Listen)[Bearbeiten | Quelltext bearbeiten]

Radixsort besteht aus mehreren Schritten, und jeder Schritt aus zwei Phasen. Die Partitionierungsphase dient dazu, die Daten auf Fächer aufzuteilen, während in der Sammelphase die Daten aus diesen Fächern wieder aufgesammelt werden. Beide Phasen werden für jede Stelle des zu sortierenden Schlüssels einmal durchgeführt. Die Anzahl der Schritte ist gleich der (maximalen) Stellenanzahl.

Partitionierungsphase
In dieser Phase werden die Daten in die vorhandenen Fächer aufgeteilt, wobei für jedes Zeichen des zugrundeliegenden Alphabets ein Fach zur Verfügung steht. In welches Fach der gerade betrachtete Schlüssel gelegt wird, wird durch das an der gerade betrachteten Stelle stehende Zeichen bestimmt. So wird zum Beispiel die Zahl 352 in das Fach 3 gelegt, wenn gerade die dritte Stelle von hinten betrachtet wird (und wenn 10 die Basis (Radix) der Zahldarstellung ist).
Sammelphase
Nach der Aufteilung der Daten in Fächer in Phase 1 werden die Daten wieder eingesammelt und auf einen Stapel gelegt. Hierbei wird so vorgegangen, dass zuerst alle Daten aus dem Fach mit der niedrigsten Wertigkeit eingesammelt werden, wobei die Reihenfolge der darin befindlichen Elemente nicht verändert werden darf. Danach werden die Elemente des nächsthöheren Faches eingesammelt und an die schon aufgesammelten Elemente angefügt. Dies führt man fort, bis alle Fächer wieder geleert wurden.

Diese beiden Phasen werden nun für jede Stelle der Schlüssel wiederholt, wobei mit der letzten Stelle begonnen wird (LSD (engl. least significant digit) Radixsort). Bei jedem Schritt wird dieselbe Anzahl von Fächern benötigt. Und beim letzten Schritt wird die erste Stelle zum Aufteilen verwendet. Nach der letzten Sammelphase sind die Daten aufsteigend sortiert.

Alternativ können die Stellen des Schlüssels auch von der höchstwertigen her (MSD (engl. most significant digit) Radixsort) bearbeitet werden. Hierbei sind bei jedem Schritt zu jedem Fach Unterfächer zu bilden. Allerdings benötigen Unterfächer mit weniger als zwei Elementen keine weitere Unterteilung.

Vorgehensweise (via Countingsort)[Bearbeiten | Quelltext bearbeiten]

Darüber hinaus ist ein anderer Ansatz möglich, der ebenfalls zwei Phasen benötigt. Diese Variante erspart sich die Verwaltung von variablen Listen und benötigt zwei Arrays.

Zählphase

Zuerst werden die Füllstände der Fächer durch Zählen ermittelt. Das erste Array für stellenweises Countingsort ergibt ein Histogramm über das Alphabet. Danach wird das Histogramm in sein (linksseitiges) Integral umgewandelt (wobei das erste Element stets Null ist).

Sammelphase

Nun wird mittels Histogrammintegral jedes Datenelement einmalig an seine finale Position verschoben (final für diese Runde). Dazu muss nach jedem Zugriff auf das Histogrammintegral der jeweilige Zähler inkrementiert werden, da er als Zeiger auf die Schreibposition dient. Das zweite Array dient dem temporären Speichern der Datenelemente und hat den gleichen Speicherbedarf wie das ursprüngliche Datenarray.

Vorgehensweise (in-place)[Bearbeiten | Quelltext bearbeiten]

VerbessernKommentar: Die Funktionsweise ist unvollständig erklärt.

Eine weitere Variante ohne zusätzlichen Speicher (in-place) besteht nur aus der Sammelphase, da hier jedes Fach nur 1 Bit breit ist. Das Zählen der beiden Bitzähler entfällt, da die beiden Bitwerte simultan von den beiden Grenzen des Arrays aufgefüllt werden und die beiden Schreibpositionen dabei aufeinander zulaufen. Da dieser Vorgang nicht stabil ist, muss bei der höchstwertigen Stelle (MSB) begonnen werden.

Laufzeit[Bearbeiten | Quelltext bearbeiten]

Die Laufzeit des Algorithmus lässt sich durch (siehe Landau-Symbole) abschätzen, wobei die Länge eines Schlüssels und die Anzahl der zu sortierenden Elemente bezeichnet. Da für primitive Datentypen wie Ganzzahlen oder Gleitkommazahlen konstant ist, hat Radixsort für diese Fälle eine Laufzeit, die linear proportional mit der Anzahl der zu sortierenden Elemente zunimmt, womit es besser ist als andere, vergleichsbasierte Sortierverfahren wie beispielsweise Quicksort. Für variabel-lange Datentypen wie Listen oder Zeichenketten sind Quicksort oder Introsort jedoch u. U. die bessere Wahl. Jedoch ist der Aufwand für jeden Vergleich von Zeichenketten auch linear von ihrer (durchschnittlichen) Länge abhängig, da auch hier eine Zerlegung in die maximale Registerbreite (z. B. 64 Bit) stattfinden muss. Streng genommen ist der Aufwand für vergleichsbasierte Sortierverfahren auch proportional zu , wobei hier effektiv kleiner ist.

Besonderheit[Bearbeiten | Quelltext bearbeiten]

Der Radixsort kann entweder stabil (d. h. duplikate Schlüssel treten nach der Sortierung in der gleichen Reihenfolge auf wie in der Ursprungsmenge) oder in-place (d. h. kein zusätzlicher Speicher nötig) realisiert werden.

Beispiel[Bearbeiten | Quelltext bearbeiten]

Es sollen folgende Zahlen geordnet werden:

124, 523, 483, 128, 923, 584

Zunächst wird nach der letzten Stelle geordnet (LSD Radixsort).

Es beginnt die Partitionierungsphase:

|0| |1| |2| |3| |4| |5| |6| |7| |8| |9|
             |   |               |
            523 124             128
            483 584
            923

Für die Stabilität des Verfahrens ist es wichtig, dass die angezeigte Reihenfolge der Elemente in den Fächern |3| und |4| eingehalten wird.

Es folgt die Sammelphase (Elemente von oben nach unten, von links nach rechts aufsammeln):

523, 483, 923, 124, 584, 128

Nun wird nach der nächsten Stelle der Zahlen geordnet (zweite Stelle von hinten nach vorne).

Erneute Partitionierungsphase:

|0| |1| |2| |3| |4| |5| |6| |7| |8| |9|
         |                       |
        523                     483
        923                     584
        124
        128

Für das Funktionieren des Verfahrens ist es wichtig, dass die angezeigte Reihenfolge der Elemente in den Fächern |2| und |8| eingehalten wird. Entsprechendes gilt auch für die späteren Schritte.

Nun eine zweite Sammelphase:

523, 923, 124, 128, 483, 584

Und jetzt wird nach der ersten Stelle geordnet.

Die letzte Partitionierungsphase:

|0| |1| |2| |3| |4| |5| |6| |7| |8| |9|
     |           |   |               |
    124         483 523             923
    128             584

Es folgt die letzte Sammelphase:

124, 128, 483, 523, 584, 923

Die Zahlen sind nun aufsteigend sortiert.

Implementierung in Common Lisp[Bearbeiten | Quelltext bearbeiten]

Diese Common-Lisp-Implementierung sortiert 32-Bit-Ganzzahlen beginnend mit niederwertigsten Bit:

(defun radix-sort (list)
  (dotimes (bit 32)
    (let ((zero) (one))
      (dolist (x list)
        (if (logbitp bit x) (push x one) (push x zero)))
      (setq list (nconc (nreverse zero) (nreverse one)))))
  list)

Implementierung in C++[Bearbeiten | Quelltext bearbeiten]

Folgende Implementierung in C++ verwendet Bitschlüssel zur Partitionierung. Dabei iteriert man über alle Bits eines Integers und prüft einzeln, in welches der beiden Fächer partitioniert werden soll.

#pragma once
#include <iterator>
#include <vector>
#include <array>
#include <climits>
#include <algorithm>
#include <type_traits>

template<std::forward_iterator ForwardIt>
	requires std::is_integral_v<typename std::iterator_traits<ForwardIt>::value_type>
void radix_sort( ForwardIt begin, ForwardIt end )
{
	using namespace std;
	if( begin == end )
		return;
	using elem_t = typename iterator_traits<ForwardIt>::value_type;
	array<vector<elem_t>, 2> partitions;
	for( unsigned bit = 0; bit != sizeof(elem_t) * CHAR_BIT; ++bit )
	{
		for( ForwardIt it = begin; it != end; ++it )
			partitions[(*it >> bit) & 1].push_back( *it );
		auto end0 = copy( partitions[0].begin(), partitions[0].end(), begin );
		copy( partitions[1].begin(), partitions[1].end(), end0 );
		partitions[0].clear();
		partitions[1].clear();
	}
}

In einer weiteren Implementierung wird zuerst das größte Element im Container ermittelt. Danach werden analog zum stellenwertigen Zahlensystem zur Basis 10 alle Stellenwerte solange partitioniert, bis die größte Zahl erreicht wurde. Das algorithmische Prinzip funktioniert zu jeder Basis größer als 1.

#include <algorithm>
#include <array>
#include <cstdint>
#include <vector>

using namespace std;

// Zweierpotenzen sind schneller (z.B. 256)
constexpr int BASE = 10;

template <typename ForwardIt>
void radix_sort(ForwardIt begin, ForwardIt end) {
    // Falls Container leer ist
    if (begin == end)
        return;

    // Partitionierung
    array<vector<uint32_t>, BASE> partition;
    uint32_t maximum = *max_element(begin, end);

    // Solange höchstwertigste Ziffer noch nicht erreicht
    for (uint32_t factor = 1; factor <= maximum; factor *= BASE) {
        // Ziffer ermitteln und im Segment abbilden
        for (ForwardIt iterator = begin; iterator != end; ++iterator)
            partition[(*iterator / factor) % BASE].push_back(*iterator);

        ForwardIt copy = begin;

        // Änderungen aus jedem Segment übernehmen
        for (auto& segment: partition) {
            for (uint32_t element: segment) {
                *copy = element;
                ++copy;
            }

            segment.clear();
        }
    }
}

Über folgende main Funktion können beide Implementierungen zum Sortieren von Containern wie Arrays von Integern ohne Vorzeichen genutzt werden, die ein Forward-Iterator anbieten.

#include <cstdint>
#include <iostream>
#include <vector>

using namespace std;

int main() {
    vector<uint32_t> range = { 523, 923, 128, 124, 483, 584 };
    radix_sort(range.begin(), range.end());

    for (auto element: range)
        cout << element << endl;

    return 0;
}

Siehe auch[Bearbeiten | Quelltext bearbeiten]

Literatur[Bearbeiten | Quelltext bearbeiten]

Weblinks[Bearbeiten | Quelltext bearbeiten]