Lexikographische_Ordnung

Die lexikographische Ordnung ist eine Methode, um aus einer linearen Ordnung für einfache Objekte, beispielsweise alphabetisch angeordnete Buchstaben, eine lineare Ordnung für zusammengesetzte Objekte, beispielsweise aus Buchstaben zusammengesetzte Wörter, zu erhalten. Das namengebende Beispiel ist die Anordnung der Wörter in einem Lexikon: Sie werden zunächst nach ihren Anfangsbuchstaben sortiert, dann die Wörter mit gleichen Anfangsbuchstaben nach dem jeweils zweiten Buchstaben usw. Ist ein Wort ganz in einem anderen als Anfangsteil enthalten (wie beispielsweise „Tal“ in „Talent“), so wird das kürzere Wort zuerst aufgeführt.

Die lexikographische Ordnung über dem Standard-Alphabet wird generell als derart selbstverständlich angesehen, dass man kurz und einfach von der alphabetischen Ordnung spricht. Ein Suchbegriff kann außerordentlich schnell in einer sehr großen Menge von Suchbegriffen gefunden werden, wenn diese (nach einer totalen Ordnungsrelation) sortiert ist.

Definition

Gegeben sei ein quasigeordnetes Alphabet , d. i. eine Menge von Zeichen mit der Relation [1] Eine Zeichenkette aus Zeichen dieses Alphabets[2] ist lexikographisch kleiner als eine Zeichenkette , das heißt liegt in der Sortierung vor , wenn beim komponentenweisen Vergleich Zeichen für Zeichen

  • Maßgabe (A):
das Zeichen von mit dem niedrigsten Index , in dem sich die beiden Zeichenketten unterscheiden, (echt) kleiner ist als das entsprechende Zeichen von , also ,
oder, wenn
  • Maßgabe (B):
ein Anfang von (d. h. für alle verfügbaren ), aber kürzer ist.

Meist wird für die zusammengesetzte Relation dasselbe Vergleichszeichen (resp. für die zugehörige Striktordnung) wie im Alphabet verwendet, da letztere Relation eine Einschränkung der ersteren ist und so Widersprüche nicht entstehen können.

Durch die lexikographische Zusammensetzung wird aus einer Quasiordnung im Alphabet eine Quasiordnung auf der Menge der Zeichenketten, aus einer totalen Quasiordnung wieder eine totale Quasiordnung, aus einer Halbordnung wieder eine Halbordnung und aus einer Totalordnung wieder eine Totalordnung (der häufigste Fall).

Ein Spezialfall dieser Zusammensetzung ist die lexikographische Ordnung von Folgen einer festen endlichen Länge. Dann wird die Maßgabe (B) nicht benötigt. Beispielsweise ist ein geordnetes Paar lexikographisch kleiner als ein Paar , wenn

  • entweder
  • oder und

gilt.

Beispiele

Ein Beispiel für eine derartige Ordnung ist die zeitliche Reihenfolge für Zahlentripel (Jahr, Monat, Tag): Ein Datum X ist früher als ein anderes Datum Y, wenn

  • entweder die Jahreszahl von X kleiner ist als die Jahreszahl von Y
  • oder die Jahreszahlen gleich sind, aber X in einem im Jahresverlauf früheren Monat liegt
  • oder die Jahreszahlen und Monate gleich sind, aber der Tag von X kleiner als der Tag von Y ist.

Ein weiteres Beispiel ist die übliche Rangfolge innerhalb eines Medaillenspiegels, bei der als erstes Kriterium die Anzahl der Goldmedaillen ausschlaggebend ist, bei gleicher Goldmedaillenzahl die Anzahl der Silbermedaillen und bei nochmaligem Gleichstand die Anzahl der Bronzemedaillen:

Land Gold Silber Bronze
Land 1 10 5 7
Land 2 8 7 4
Land 3 8 5 7
Land 4 5 3 7
Land 5 5 3 2

Mathematische Verwendung

Unendliche Folgen

Die lexikographische Ordnung lässt sich auf unendliche Folgen fortsetzen:[3] Eine Folge ist lexikographisch kleiner als eine Folge wenn beide Folgen vor einem Index gleich sind, aber ist. Besteht das Alphabet z. B. aus den Ziffern , so kann die Folge als ein Dezimalbruch interpretiert werden, der eine reelle Zahl zwischen und darstellt. Die lexikographische Ordnung der Folgen entspricht im Wesentlichen der reellen Ordnung im Intervall . Allerdings haben die (abzählbar unendlich vielen) abbrechenden Dezimalbrüche, die also an ihren Enden nur Ziffern oder haben, zwei lexikographisch verschiedene Urbilder, bspw. , aber lexikographisch .

Weitere Verallgemeinerung

Das Prinzip kann weiter ausgedehnt werden auf Folgen, in denen der Indexbereich eine beliebige wohlgeordnete Menge ist. In diesem Fall definiert man für Funktionen (wobei linear geordnet ist), falls für das minimale Element des Definitionsbereiches , für das sich und unterscheiden, gilt. Die so entstandene Ordnung auf den Funktionen ist wieder linear geordnet.

Anwendung: Ketten in der Potenzmenge einer Ordinalzahl

In der Mengenlehre wird oft der Spezialfall betrachtet, bei dem die Indexmenge eine Ordinalzahl ist und die Folgenglieder nur die Werte oder annehmen. Diese Grundmenge wird mit bezeichnet und sie steht in einer bijektiven Beziehung zu der Potenzmenge von . Eine Ordinalzahl wird immer als die Menge ihrer Vorgänger-Ordinalzahlen gesehen. Einer Teilmenge von kann man die Funktion zuordnen für die , wenn und , wenn . Umgekehrt kommt man von einer Funktion mit der Menge wieder zu einer Teilmenge von . Wir betrachten jetzt mit der lexikographischen Ordnung, wie sie oben definiert wurde. Diese lineare Ordnung kann für kombinatorische Fragen über unendliche Kardinalzahlen verwendet werden. Es gilt:

Für jede wohlgeordnete Teilmenge von gilt .

Zum Beweis durch Induktion nehmen wir an, dass die Aussage für alle Ordinalzahlen bereits gegeben ist. Ist so betrachten wir die Einschränkungen der Funktionen auf die Teilmenge . Die Mengen sind dann wohlgeordnete Teilmengen der lexikographisch geordneten Mengen . Aus der Induktionsvoraussetzung folgt, dass . Jetzt nehmen wir wieder ein f in der wohlgeordneten Menge und betrachten auch den direkten Nachfolger . Wir definieren als das kleinste mit . Dann gilt für stets sowie und . Zwei Funktionen und in mit müssen sich schon unterhalb von unterscheiden. Nehmen wir an, dass gilt. Dann ist , , und . Daraus folgt, dass in der lexikographischen Ordnung auch und gilt und folglich und , also . Die Mengen für ein gegebenes werden also jeweils durch die Einschränkung auf injektiv auf eine Teilmengen von abgebildet und haben somit auch nur eine Mächtigkeit . Da aber , ist bewiesen.

Verwendung in der Informatik

Der Arbeitsspeicher eines Computers kennt eine kleinste adressierbare Einheit, auch „Speicherstelle“ genannt. Ein Beispiel ist das Byte bestehend aus 8 Bits, sie kann aber auch aus einer anderen Anzahl von Bits bestehen, oder, wenn die Maschine im Dezimalsystem rechnet, eine Dezimalziffer beherbergen.

Zweckmäßigerweise sind die Inhalte zweier Speicherstellen (Bytes) auf der untersten Maschinenebene immer miteinander (im Sinne einer Totalordnung) vergleichbar. Zweckmäßigerweise sind die Ziffern resp. Buchstaben den Bitkombinationen eines Bytes so zugeordnet, dass diese Ordnung mit der üblichen Ordnung im Ziffernsystem resp. Alphabet übereinstimmt. Aufbauend auf diesem Grundbaustein eines Vergleichs lassen sich durch lexikographische Zusammensetzung zusammengesetzte Datentypen, beispielsweise mehrstellige Zeichenketten, miteinander vergleichen.

Korreliert die lexikographische Indizierung mit den Speicheradressen, hat also das beim Vergleichen höherrangige Byte die niedrigere Adresse, dann geschieht der Vergleich im Big-Endian-Stil, und im Little-Endian-Stil, wenn das höherrangige Byte die höhere Adresse hat. Da sich der lexikographische Vergleich im günstigsten Fall schon im ersten, höchstrangigen Byte entscheidet, ist er schneller, wenn dieses erste Byte im unmittelbaren Zugriff liegt.

Vergleich langer numerischer Daten

Auf vielen neueren Maschinen werden numerische Datentypen fester Länge (hardware-mäßig) im Little-Endian-Format gespeichert. (Für die Motivation und die Maschinen-Typen siehe den Artikel Byte-Reihenfolge.) Für diese kurzen Aggregate (meist in der Länge 2, 4, 8 oder 16 Bytes) gibt es entsprechende Maschineninstruktionen für die Vergleiche. Diese Instruktionen sind nicht zusammengesetzt, so dass das lexikographische Prinzip nicht zum Zuge kommt.

Die Langzahlarithmetik unterstützt das Rechnen mit ganzen Zahlen beliebiger Länge, einer Länge, die nur durch den verfügbaren Arbeitsspeicher begrenzt ist. Der numerische Vergleich beginnt wie der lexikographische bei beiden Operanden am höchstrangigen Ende. Dabei wird der Rang einer Stelle nicht von ihrem Abstand von diesem bestimmt, sondern von ihrem Abstand vom niedrigstrangigen Ende, der »Einerstelle«. Vor dem Vergleich müssen also die Längen der beiden Operanden durch Auffüllen mit führenden Nullen angeglichen werden. Danach werden (beim numerischen wie beim lexikographischen Vergleich) gleiche Ränge in beiden Operanden miteinander verglichen.[4]

Eine Auswahl von Langzahlarithmetik-Implementierungen findet sich im Abschnitt Langzahlarithmetik#Programmiersprachen. Das Vergleichen ist in diesen Softwarepaketen verglichen mit den vier Grundrechenarten aber eher ein Abfallprodukt. Die Verarbeitungsrichtung ist wie bei der Division von hochrangig zu niedrigrangig, bei Addition, Subtraktion und Multiplikation jedoch umgekehrt. Beide Arten der Speicherung, Big- und Little-Endian, können bei diesen fünf Operationen gut unterstützt werden, sofern auf beide Enden der Kette effizient zugegriffen werden kann.

Verwendung bei Bitketten

Konzeptionell sind Bitketten nichts anderes als Zeichenketten über dem zweiziffrigen Alphabet . Wird eine Bit-Ziffer in (mindestens) einem Byte gespeichert, dann entspricht die Implementierung (und der lexikographische Vergleich) den üblichen Zeichenketten.

Bei einer kompakteren Implementierung mit 1 Bit pro Ziffer, also bspw. 8-Bit-Ziffern pro Byte oder 32 pro Wort, kann es, da alle Wörter genau gleich viele Bits enthalten und eine Kette eine beliebige nicht-negative Länge haben kann, passieren, dass im letzten (niedrigstrangigen) Wort unspezifizierte Bits anfallen, sog. Füllbits.

Wie bei den Zeichenketten startet der lexikographische Vergleich von Bitketten am Kettenanfang, bei der höchstrangigen Komponente (das ist Big-Endian-Stil und ist unabhängig von der Endianness der Maschine). Auf Big-Endian-Maschinen hat das höchstrangige Wort den niedrigsten Index und der Vergleich geht in die höheren Adressen wie bei den Zeichenketten. Auf Little-Endian-Maschinen müssen jedoch, wenn (pro Wort) die von der Maschine angebotenen Vergleichsinstruktionen verwendet werden sollen, die Komponenten genau umgekehrt angeordnet sein und das höchstrangige Wort den höchsten Index haben: der lexikographische Vergleich muss dort beginnen und sich zu den Bits niedrigeren Ranges (und niedrigerer Adresse) fortsetzen.[5]

Verwendung bei Zeichenketten

Beim Datentyp Zeichenkette ist die höchstrangige Komponente auf jedem Maschinentyp die (erste) mit der niedrigsten Adresse. Zeichenketten sind also auch auf Little-Endian-Maschinen im Big-Endian-Stil gespeichert.

Recht gute Unterstützung für den lexikographischen Vergleich von Zeichenketten gibt es in C, C++ mit:

  • strcmp,[6] lexikographischer Vergleich unter Berücksichtigung unterschiedlicher Längen im Sinn der Maßgabe (B), aber Einschränkung auf einen Zeichensatz (Alphabet) ohne das Abschlusszeichen null.
  • memcmp,[7] lexikographischer Vergleich mit gleichen (Byte-)Längen der beiden Zeichenketten, voller Zeichensatz.[8]
  • wcscmp,[9] lexikographischer Vergleich von 16-Bit wide strings[10] mit dem Basistyp wchar_t unter Berücksichtigung unterschiedlicher Längen im Sinn der Maßgabe (B), aber Einschränkung auf einen 2-Byte-Zeichensatz (Alphabet) ohne das Abschlusszeichen (wide) null.

Anwendung in der Mikroökonomik

→ Siehe auch: Präferenzrelation

Sei durch mit das Güterbündel / die Alternative gegeben und mit die Alternative ( ist entsprechend beispielsweise die Menge von Gut 2 im Güterbündel ). Man bezeichnet eine Präferenz-Indifferenz-Relation R als lexikographisch, wenn dann und nur dann, wenn entweder oder und zugleich .[11] Mit anderen Worten wird bei einer lexikographischen Präferenz-Indifferenz-Relation ein Güterbündel nur dann schwach gegenüber einem zweiten vorgezogen (das heißt als mindestens so gut wie dieses angesehen), wenn es mehr Einheiten vom ersten Gut enthält oder hilfsweise, falls beide Güterbündel gleich viele Einheiten von diesem Gut umfassen, wenn es mehr Einheiten vom zweiten Gut beinhaltet.

Eigenschaften der lexikographischen Präferenzenordnung:[12]

  1. Eine lexikographische Präferenzenordnung ist vollständig, asymmetrisch (und folglich auch antisymmetrisch), negativ transitiv und transitiv. (Zur Definition der Eigenschaften wird auf den Artikel Präferenzrelation verwiesen.)
  2. Eine lexikographische Präferenzenordnung kann nicht durch eine Nutzenfunktion repräsentiert werden. (Debreu 1959)[13]

Siehe auch

Literatur

Anmerkungen

  1. In der Regel wird meist eine Totalordnung vorliegen. Eine Quasiordnung ist lediglich die Minimalanforderung hier.
  2. D. h. mengentheoretisch ist ein »Wort« der Kleeneschen Hülle des Alphabets , ebenso wie .
  3. Die abzählbar unendlichen Folgen von Zeichen aus dem Alphabet werden mit bezeichnet, siehe: = .
  4. Unter der Voraussetzung, dass führende Nullen unterdrückt sind, entspricht die (vorzeichenlose) numerische Ordnung der quasi-lexikographischen (im Englischen quasi-lexicographic, radix, length-plus-lexicographic oder shortlex order).
  5. Die Umwandlung einer Bitkette in eine binäre Langzahl (mit dem niedrigstrangigen Bit an der Einerstelle) bedingt auf Seite der Daten einen Rechts-Shift um die Anzahl der Füllbits. Ansonsten ist nur die Beschreibung zu ändern. Wie bei den binären Langzahlen können bei Bitketten Verschiebungen und logischen Verknüpfungen definiert werden; dazu noch die Kettenoperationen wie Verketten, Umkehren und Bildung von Teilketten.
  6. strcmp. en.cppreference.com, abgerufen am 31. März 2017.
  7. memcmp. en.cppreference.com, abgerufen am 31. März 2017.
  8. Auf vielen binär orientierten Big-Endian-Maschinen kann eine Zeichenkette auch als vorzeichenlose unsigned Binärzahl aufgefasst werden. Der zugehörige numerische Vergleich ordnet die Inhalte aber in etwas anderer Weise als der lexikographische der Zeichenketten (s. #Vergleich langer numerischer Daten).
  9. wcscmp. en.cppreference.com, abgerufen am 31. März 2017.
  10. The C99 standard draft + TC3. Abgerufen am 31. März 2017.
  11. Vgl. Mas-Colell/Whinston/Green 1995, S. 46.
  12. Vgl. Moore 2007, S. 14.
  13. Gerard Debreu: Theory of value. An axiomatic analysis of economic equilibrium. John Wiley & Sons, New York 1959.