Codierung globaler digitaler Kommunikation
Codes wie der UTF-8 oder der Unicode sind aus der heutigen Zeit kaum wegzudenken und finden sich auch als Bestandteil in Ihrem ERP-System (enterprise resource planning-System) wieder.* Nun stellen Sie sich vielleicht folgende Fragen: Was ist UTF-8 überhaupt? Welche Alternativen gibt es? Wieso ist es so wichtig und wie funktioniert es? Im heutigen Blogbeitrag liefern wir Ihnen allgemeine Informationen rund um das Thema Zeichenformate, Unterschiede als auch Möglichkeiten zur Nutzung.
Was ist UTF-8 überhaupt?
UTF-8 ist die Abkürzung für 8-bit UCS Transformation Format, was zu Deutsch soviel wie “universelles 8-Bit-Zeichensatz-Umwandlungs-Format” heißt und ist auch in unserem ERP-System möglich.* Es handelt sich um eine Codierung mit der Buchstaben, Zahlen, Symbole, Satzzeichen etc. dargestellt werden können. Somit ist es in der heutigen Zeit relativ unvermeidbar, darauf zu treffen. Das allgemeine Ziel ist es, sämtliche Sprachen sowie Sonderzeichen unter einer Codierung unterzubringen. Außerdem gehört es zu den sogenannten Formaten mit variabler Codierung. Das heißt, dass häufig vorkommende Zeichen mit möglichst wenig Bytes codiert werden und seltene Zeichen mit 2 bis 4 Bytes.
Was ist der Unicode?
Der Unicode ist ein Einheitsschlüssel und ein alphanummerischer Zeichensatz. Dieser wurde von der internationalen Standardisierungsorganisation (ISO) entwickelt. Um genau zu sein ist der Unicode ein genormtes System zur Codierung von allen möglichen Textzeichen. Er umfasst Buchstaben, Silbenzeichen, Ideogramme wie Hieroglyphen, Satzzeichen, Sonderzeichen und Ziffern. Das Ziel des Unicodes ist es alle existierenden Textzeichen unter einen Zeichensatz zusammenzufassen. Darunter fallen unter anderem das lateinische Alphabet, das griechische, kyrillische, arabische, hebräische und das thailändische Alphabet. Dazu kommen noch japanische, chinesische und koreanische Schriftzeichen. Mathematische, technische und kaufmännische Sonderzeichen sind auch mit inbegriffen. Wie Sie sehen, kommt einiges an Material, dass unter einer Codierung untergebracht werden muss, zusammen. Um das zu ermöglichen gibt es eine genormte Zuordnungsregel, die es ermöglicht, Unicode Zeichen in binären Zahlen wiederzugeben. Zudem legt es fest welcher Byte-Wert, welchem Zeichen zugeschrieben wird.
Für wen ist UTF-8 von Nutzen?
Nun stellt sich die Frage, wer dieses Format überhaupt benutzt. Die Antwort wird Sie sicher erstaunen: So liefen im April 2016 86,7% aller Websites auf der Basis des Codes. UTF-8 auch im ERP-System zu nutzen ist hingegen keine Selbstverständlichkeit. Derzeit sind außer der SoftENGINE nur wenige ERP-Hersteller dazu in der Lage, diese Programmierung umzusetzen. Der Code ist nach einer Implementierung unserer Techniker auch in Ihrer WEBWARE nutzbar, jedoch nicht im Standard enthalten. Im Standard ist innerhalb der BüroWARE/WEBWARE die ANSII Codierung aktiv. Derzeit ist nur innerhalb der WEBWARE eine Umsetzung von UTF-8 möglich.
Eine Nutzung vom UTF-8 ERP-System ist insbesondere dann von Vorteil, wenn Sie Kunden aus dem Ausland bedienen – z. B. Russland. Die kyrillischen Schriftzeichen sind dann nach einer Shop-Bestellung auch auf Ihrem Belegformular abbildbar. Um diese Codierung zu nutzen, muss es zuerst von autorisierten SoftENGINE Partnern wie uns eingerichtet werden. Sonst ist das System nicht in der Lage essentielle Grundlagen, wie verschiedene Sprachen, sowie Adressen richtig darzustellen.
Mögliche Alternativen zu den Formaten
Neben der UTF-8 Codierung gibt es noch einige weitere Codierungen. Zu den bekanntesten zählen: UTF-16, UTF-32, ANSI und ASCII. Was sind die Besonderheiten und wie unterscheiden sich die Codierungen? ASCII Systeme beherrschten noch vor einigen Jahren den Markt. Innerhalb von ASCII stehen 128 Zeichen zur Verfügung. Von diesen 128 Zeichen sind aber nur 96 sichtbar. Diese verbrauchen sich jedoch sehr schnell. Das reicht gerade so aus, um das lateinische Alphabet in großen und kleinen Buchstaben, die Ziffern 0-9 und einige Sonderzeichen darzustellen und reicht deswegen nicht mehr für Umlaute und die restlichen Sonderzeichen. Dadurch ist es für den englischen Sprachraum geeignet, da es dort keine Umlaute gibt. Für den deutschen Bereich, Geschweige denn den Internationalen Raum reicht die Codierung jedoch in der Regel nicht aus.
ASCII im Detail erklärt
Die American Standards Association (ASA oder heutzutage ANSI) gab im Jahr 1963 wichtige Vorgaben und damit auch den Startschuss, wie Zeichen auf elektronischen Geräten den eigentlich abgebildet werden sollten. Deswegen spricht man oft von US-ASCII. Das liegt daran, dass es ein rein US-amerikanisches Standard ist. Dieses System wurde eingeführt, weil Computer nicht mit zum Beispiel dem deutschen Alphabet arbeiten können. Diese Arbeiten indes mit einen binären System. Um ein Zeichen dazustellen, wird diesem eine Abfolge von Nullen und Einsen zugewiesen. Das ist nötig, damit der Computer weiß, welcher Buchstabe angezeigt werden soll. ASCII ist im Grunde nur ein kleiner Teil des UTF-8 Codes und kann somit komplett übertragen werden. Deswegen nutzt man ASCII kaum noch für größere Angelegenheiten. Allerdings findet es immer noch Anwendung bei z. B. E-Mails und URLs.
Wieso ist das UTF-8 Format in der ERP-Software besser als der UTF-16 Code?
UTF-16 ist bezüglich der Geschwindigkeit und des Speicherbedarfs besser als sein Gegenstück. UTF-16 konnte sich trotz dessen nicht durchsetzten. Das liegt vor allem an der Kompatibilität von UTF-8 zu ASCII. Denn beide Codes besitzen die gleichen 128 Zeichen. Daher können die beiden Codes miteinander verbunden werden. Somit müssen bei der Übertragung von Daten zwischen den beiden Codierungen keine Änderungen vorgenommen werden. Der Speicherbedarf des UTF-8 ist nur geringfügig höher, als der des ASCII Zeichensatzes. Der Code kann nämlich bis zu 1.000.000 Zeichen speichern. Dies sollte für alle Sprachen der Welt inklusive sämtlichen Sonderzeichen reichen. Das kommt uns aufgrund der steigenden Globalisierung besonders zu Gute. Eine weitere Alternative wäre noch die UTF32-Codierung, die allerdings aufgrund enormer benötigter Speicherkapazität ebenfalls nicht in Frage kommt.
Welche Probleme könnten beim Wechsel der Codierung auftreten?
Haben Sie beispielsweise einen Kunden aus dem Ausland, der die Codierung vorher noch nicht genutzt hat, können ein paar Probleme auftreten. Ein mögliches Problem wäre die Uneinstimmigkeit des Zeichensatzes. Dieses Problem kann auftreten, wenn ein Browser Daten ungeprüft als UTF-8 Datei übermittelt. Das zweite Problem wäre eine Verdoppelung oder Verfälschung von Daten. Diese übermittelt man als der UTF-8 Zeichensatz. Dann setzt man sie in ein Feld ein, dass der gleichen Codierung entspricht. Wurde nun ein falscher oder gar kein Charset definiert, dann kommt es zu einer erneuten Konvertierung des Formats. Bei sehr ungünstigen Fällen, ist es daher möglich, dass alle Zeichen zerstört werden, die nicht der ASCII Codierung entsprechen. Natürlich sind dies äußerst seltene Fälle und werden vor Einführung in Ihr Live-System auf Herz und Nieren innerhalb eines Testsystems geprüft. Dennoch – die Umstellung sollte nicht unterschätzt werden, da diese allgemein äußerst komplex sein kann. Aber keine Angst: wir unterstützen Sie dabei und sind für Sie da.
Falls Sie noch weitere Informationen bezüglich der unterschiedlichen Codierungen benötigen oder eine Umstellung auf UTF-8 wünschen, kontaktieren Sie uns gerne jederzeit.
*nicht im Standard aktiviert. Diese Funktion muss durch einen autorisierten BüroWARE Partner programmiert und implementiert werden.