ENCODING, Unterbefehl (Befehl SAVE TRANSLATE)

Der Unterbefehl ENCODING gibt die Zeichencodierung für SAS-, Stata-, Tabulator-und CSV-Datendateien an.

  • Der Unterbefehl ENCODING ist nur mit TYPE=SAS, TYPE=STATA, TYPE=TABund TYPE=CSVgültig.
  • Dem Unterbefehlsnamen wird ein Schrägstrich vorangestellt, gefolgt von einem optionalen Gleichheitszeichen und einem Wert in Anführungszeichen.
  • Für SAS-und Stata-Dateien kann der Wert in Anführungszeichen LOCALE oder SYSTEM oder einer der Werte in der Spalte 'Codierungen' der Tabelle 'Zeichencodierung' sein. Für SAS 9-Dateien kann der Wert auch UTF8lauten.
  • Bei tabulatorgetrennten Textdateien und CSV-Dateien kann der Wert in Anführungszeichen LOCALE, UTF8, UTF16, UTF16BE, UTF16LE, ein numerischer Windows-Codepagewert (z. B. '1252') oder ein IANA-Codepagewert (z. B. 'iso8859-1' oder cp1252) sein.
  • Für SAS 9, Text mit Tabulatoren als Trennzeichen und CSV-Dateien ist der Standardwert UTF8 im Unicode-Modus und LOCALE im Codepagemodus. Für Stata und frühere Releases von SAS ist der Standardwert immer LOCALE.
  • Die Einstellung ENCODING gilt auch für die im optionalen Unterbefehl VALFILE für TYPE=SASangegebene Wertbeschriftungsdatei.

Beispiel

SAVE TRANSLATE
  /OUTFILE='/data/sasdata.sas7bdat'
  /VALFILE='/data/saslabels.sas'
  /TYPE=SAS /VERSION=7 /PLATFORM=WINDOWS
  /ENCODING='Windows-1252'.

BOM-Schlüsselwort

Standardmäßig enthalten Dateien, die in einem der UTF-Formate codiert sind, eine Byteanordnungsmarkierung (BOM). Einige Anwendungen können die Byteanordnungsmarkierung nicht interpretieren. Sie können das Schlüsselwort BOM verwenden, um die Byteanordnungsmarkierung zu unterdrücken.

BOM=JA
Die Byteanordnungsmarkierung in UTF-Dateien einschließen. Dies ist die Standardoption.
BOM=NEIN
Keine Byteanordnungsmarkierung in UTF-Dateien einschließen.

Zeichencodierungswerte für SAS und Stata

Tabelle 1. Zeichenkodierung
Zeichensatz Codierung
IBM® SPSS® Statistics Ländereinstellung Ländereinstellung
Ländereinstellung des Betriebssystems Systemberechtigung
West ISO-8859-1
West ISO-8859-15
West IBM850
West Windows-1252
Keltisch ISO-8859-14
Griechisch ISO-8859-7
Griechisch Windows-1253
Skandinavien ISO-8859-10
Baltisch Windows-1257
Mitteleuropa IBM852
Mitteleuropa ISO-8859-2
Kyrillisch IBM855
Kyrillisch ISO-8859-5
Kyrillisch Windows-1251
Kyrillisch/Russisch CP-866
Chinesisch – vereinfacht GBK
Chinesisch – vereinfacht ISO-2022-CN
Chinesisch – traditionell Big5
Chinesisch – traditionell EUC-TW
Japanisch EUC-JP
Japanisch ISO-2022-JP
Japanisch Shift-JIS
Koreanisch EUC-KR
Thailändisch Windows-874
Türkisch IBM857
Türkisch ISO-8859-9
Arabisch Windows-1256
Arabisch IBM864
Hebräisch ISO-8859-8
Hebräisch Windows-1255
Hebräisch IBM862