ENCODING 하위 명령 (SAVE TRANSLATE 명령)

ENCODING 하위 명령은 SAS, Stata, 탭으로 구분된 텍스트 및 CSV 데이터 파일의 문자 인코딩을 지정합니다.

  • ENCODING 하위 명령은 TYPE=SAS, TYPE=STATA, TYPE=TABTYPE=CSV에서만 유효합니다.
  • 하위 명령 이름 앞에는 슬래시가 오고 뒤에는 선택적 등호와 따옴표로 묶인 값이 옵니다.
  • SAS및 Stata 파일의 경우 따옴표로 묶인 값은 LOCALE 또는 SYSTEM 이거나 문자 인코딩 테이블의 인코딩 열에 있는 값 중 하나일 수 있습니다. SAS 9파일의 경우 값은 UTF8일 수도 있습니다.
  • 탭으로 구분된 텍스트 파일 및 CSV 파일의 경우 따옴표로 묶인 값은 LOCALE, UTF8, UTF16, UTF16BE, UTF16LE, 숫자 Windows 코드 페이지 값 (예: '1252') 또는 IANA 코드 페이지 값 (예: 'iso8859-1' 또는 cp1252) 이 될 수 있습니다.
  • SAS 9, 탭으로 구분된 텍스트 및 CSV 파일의 경우 기본값은 유니코드 모드의 경우 UTF8 이고 코드 페이지 모드의 경우 LOCALE 입니다. SAS의 Stata및 이전 릴리스의 경우 기본값은 항상 LOCALE입니다.
  • ENCODING 설정은 TYPE=SAS에 대한 선택적 VALFILE 하위 명령에 지정된 값 레이블 파일에도 적용됩니다.

SAVE TRANSLATE
  /OUTFILE='/data/sasdata.sas7bdat'
  /VALFILE='/data/saslabels.sas'
  /TYPE=SAS /VERSION=7 /PLATFORM=WINDOWS
  /ENCODING='Windows-1252'.

BOM 키워드

기본적으로 UTF 형식으로 인코딩된 파일에는 바이트 순서 표시 (BOM) 가 포함됩니다. 일부 애플리케이션은 바이트 순서 표시를 해석할 수 없습니다. BOM 키워드를 사용하여 바이트 순서 표시를 억제할 수 있습니다.

BOM=예
UTF 파일에 바이트 순서 표시를 포함하십시오. 이것은 기본 옵션입니다.
BOM=없음
UTF 파일에 바이트 순서 표시를 포함하지 않습니다.

SAS및 Stata에 대한 문자 인코딩 값

표 1. 문자 인코딩
문자 세트 인코딩
IBM® SPSS® Statistics 로케일 로케일
운영 체제 로케일 시스템
서부 ISO-8859-1
서부 ISO-8859-15
서부 IBM850
서부 Windows-1252
켈트어 ISO-8859-14
그리스어 ISO-8859-7
그리스어 Windows-1253
스칸디나비아반도 국가 ISO-8859-10
발트어 Windows-1257
중앙 유럽어 IBM852
중앙 유럽어 ISO-8859-2
키릴 문자 IBM855
키릴 문자 ISO-8859-5
키릴 문자 Windows-1251
키릴어/러시아어 CP-866
대만어 GBK
대만어 ISO-2022-CN
중국어 Big5
중국어 EUC-TW
일본어 EUC-JP
일본어 ISO-2022-JP
일본어 Shift-JIS
한국어 EUC-KR
태국어 Windows-874
터키어 IBM857
터키어 ISO-8859-9
아랍어 Windows-1256
아랍어 IBM864
히브리어 ISO-8859-8
히브리어 Windows-1255
히브리어 IBM862