Info2go

Hier gibt ́s Videos über spannende Experimente, Aufnahmen von wissenschaftlichen Phänomenen und Reportagen über nordbord-Projekte sowie interessante Unternehmen. Das Beste: Du kannst auch deine eigenen Filme drehen und hier mit anderen nordbordern teilen.

Was ist eigentlich ein Zeichensatz?

Vermutlich bist du schonmal über Webseiten, Textnachrichten oder Emails gestolpert, in denen man bestimmte Buchstaben vermi t, einige Zeichen fehlerhaft repräsentiert werden oder pl�tzlich ein Fragezeichen im Text auftaucht. Aber woran liegt das?

Vielleicht hast du schonmal gehört, dass der Computer eigentlich nur Zahlen speichert und jeder Buchstabe den du auf dem Bildschirm siehst ist einer Zahl zugeordnet. Weil in den Anfangszeiten der Computer der Speicher aber ein knappes gut war, konnte man nicht alle möglichen Zeichen in einem Zahlenraum von 0 bis 255 zuordnen. Und weil die ersten Programme alle auf Englisch bedient werden mussten, hat man das Problem der Ausgabe von Umlauten erstmal vertagt. Später stellte man dann fest, dass mit nur 256 möglichen Zeichen nicht alle Sprachen gleichzeitig abgebildet werden könnte und hat verschiedene sogenannte "Zeichensätze" für verschiedene Sprachen definiert. Einer dieser Zeichensätze heißt IEC_8859-1 (Latin 1), auf welchem auch heute noch die meisten Zeichensätze aufbauen. Dort ist zum Beispiel definiert, dass die Zahl 228 den Buchstaben ä darstellt. Als Deutscher hat man mit diesem Zeichensatz keine Probleme, er definiert alle für uns relevanten Umlaute. Wenn man aber z.B. das türkische Zeichen Ş darstellen möchte hat man ein Problem: Für diesen Buchstaben ist keine Zahl definiert. Man hat dann keine andere Möglichkeit als auf einen anderen Zeichensatz auszuweichen. Im Umkehrschluss heißt das auch: Ohne den Zeichensatz zu einem Text (also streng genommen einer Serie von Zahlen) zu kennen, kann man ihn nicht vernünftig lesen. Der Computer versucht dann möglicherweise zu raten, was mit welcher Zahl gemeint sein könnte und hat damit schlichtweg nicht immer recht. Heutzutage ist Speicher nicht mehr so knapp, was zu dem Unicode Zeichensatz geführt hat. Er kennt aktuell 120.737 verschiedene Buchstaben, inklusive z.B. 1.071 ägyptischer Hyroglyphen. Bei den Fehlern im Text zu Beginn sind aber zwei verschiedene Ding passiert:
  • Fehlende Buchstaben oder Fragezeichen können vorkommen, wenn bei dem verwendeten Font für einen bestimmten Buchstaben keine Zahl hinterlegt ist. Bei einem Font handelt es sich gewissermaßen um die visuelle Darstellung der Buchstaben.
  • Wenn für einen Buchstaben mehrere falsche Buchstaben dargestellt werden benutzt der Computer einen zu "kleinen" Zeichensatz und stellt eine große Zahl fälschlicherweise als eine Kombination von zwei Buchstaben dar.

Zurück