데이터 추출
추출이 필요할 때마다 추출 결과 분할창은 노란색이 되고 개념을 추출하려면 추출 단추를 누르십시오 메시지가 이 분할창에서 도구 모음 아래에 나타납니다.
추출 결과가 아직 없거나, 언어학적 자원을 변경했거나, 추출 결과를 업데이트해야 하거나, 추출 결과를 저장하지 않은 세션을 다시 연 경우에() 추출해야 할 수도 있습니다.
추출을 실행하면 진행 표시기가 나타나서 추출 상태에 대한 피드백을 제공합니다. 이번에는 추출 엔진은 모든 텍스트 데이터를 읽고 관련 용어와 패턴을 식별하고 이를 추출하고 이를 유형에 지정합니다. 그런 다음 엔진은 동의어를 개념이라고 불리는 하나의 리드 용어 아래에 그룹화하려고 시도합니다. 프로세스가 완료되면 결과로 나오는 개념, 유형 및 패턴이 추출 결과 분할창에 나타납니다.
추출 프로세스는 개념 및 유형 세트뿐만 아니라 텍스트 링크 분석(TLA) 패턴(사용 가능한 경우)을 결과로 생성합니다. 이러한 개념과 유형을 범주 및 개념 보기의 추출 결과 분할창에서 보고 작업할 수 있습니다. TLA 패턴을 추출한 경우에는 이를 텍스트 링크 분석 보기에서 볼 수 있습니다.
데이터 추출 방법
- 메뉴에서 을 선택하십시오. 또는 추출 도구 모음 단추를 클릭하십시오.
- 추출 설정 대화 상자를 항상 표시하도록 선택하면 이는 사용자가 변경할 수 있도록 나타납니다. 각 설정의 디스크립터에 대해서는 이 주제를 추가로 참조하십시오.
- 추출을 클릭하여 추출 프로세스를 시작하십시오. 추출이 시작되면 진행 대화 상자가 열립니다. 추출 후에는 결과가 추출 결과 분할창에 나타납니다. 기본적으로, 개념은 소문자로 표시되고 문서 개수(문서 열) 의 내림차순으로 정렬되어 있습니다.
결과를 다르게 정렬하고, 결과를 필터링하거나 다른 보기(개념 또는 유형)로 전환하려면 도구 모음 옵션을 사용하여 결과를 검토할 수 있습니다. 언어학적 자원에 대해 작업하여 추출 결과를 세분화할 수도 있습니다. 자세한 정보는 추출 결과 세분화 주제를 참조하십시오.
잠재적 추출 문제
다중 대화형 워크벤치 세션으로 인해 작동이 느려질 수 있습니다. SPSS® Modeler Text Analytics 및 SPSS Modeler는 대화형 워크벤치 세션이 시작될 때 공통 Java 런타임 엔진을 공유합니다. SPSS Modeler 세션 동안 호출하는 대화형 워크벤치 세션의 수에 따라 동일한 세션을 열고 닫는 경우에도 시스템 메모리로 인해 애플리케이션이 느려질 수 있습니다. 이 효과는 대형 데이터로 작업하거나 권장되는 RAM 설정(4GB) 이하의 시스템으로 작업하는 경우에 특히 두드러집니다. 시스템 응답이 느려지는 경우, 모든 작업을 저장하고 SPSS Modeler를 종료한 다음 애플리케이션을 다시 시작하도록 권장합니다. 권장 메모리 미만의 시스템에서 SPSS Modeler Text Analytics를 실행하는 경우, 특히 대형 데이터 세트로 작업하거나 장기간 작업하는 경우, Java 메모리가 부족하거나 종료될 수 있습니다. 대형 데이터에 대해 작업하는 경우 권장 메모리 설정 이상으로 업그레이드하거나 SPSS Modeler Text Analytics 서버를 사용하도록 강력히 권장합니다.
네덜란드어, 영어, 프랑스어, 독일어, 이탈리아어, 포르투갈어 및 스페인어 텍스트의 경우
추출 설정 대화 상자에는 몇몇 기본 추출 옵션이 포함됩니다.
텍스트 링크 분석 패턴 추출을 사용으로 설정하십시오.텍스트 데이터에서 TLA 패턴을 추출하려 함을 지정합니다. 또한 자원 편집기에서 사용자의 라이브러리 중 하나에 TLA 패턴 규칙이 있다고 가정합니다. 이 옵션은 추출 시간을 현저하게 늘릴 수 있습니다. 자세한 정보는 텍스트 링크 분석 탐색의 내용을 참조하십시오.
구두점 오류를 조정하십시오. 이 옵션은 추출 중에 구두점 오류가 있는 텍스트(예를 들어, 부적절한 사용법)를 일시적으로 표준화하여 개념의 추출 가능성을 향상시킵니다. 이 옵션은 텍스트가 짧고 품질이 저조한 경우(예를 들어, 개방형 설문조사 반응, 이메일 및 CRM 데이터) 또는 텍스트에 많은 약어가 포함된 경우에 특히 유용합니다.
최소 단어 문자 길이([n])에 대한 맞춤법 수용
이 옵션은
맞춤법이 자주 틀리는 단어나 맞춤법이 유사한 단어를 하나의 개념으로 그룹화하는 퍼지 그룹화 기술을 적용합니다. 퍼지 그룹화 알고리즘은 일시적으로 모든 모음(맨 처음 것은 제외)을 지우고
추출된 단어에서 이중/삼중 자음을 지운 다음 modeling과
modelling이 함께 그룹화될 수 있도록 이들이 동일한지 비교합니다. 그러나 각 용어가 <Unknown> 유형을
제외하고 서로 다른 유형에 지정된 경우에는 퍼지 그룹화 기술은 적용되지 않습니다.
퍼지 그룹화를 사용하기 전에 필요한 루트 문자의 최소 수를 정의할 수도 있습니다.
용어에서 루트 문자의 수는 모든 문자를 합한 후 굴절접사를 형성하는 문자와 복합어의 경우에는 한정사 및
전치사를 형성하는 문자를 빼서 계산합니다. 예를 들어, exercises 용어는 "exercise" 양식의 8개 루트 문자가 있는 것으로
간주됩니다. 단어 끝의 s자는 굴절(복수형)이기 때문입니다.
마찬가지로, apple sauce는 10개의 루트 문자로 간주되고("apple sauce") manufacturing of cars는
16개의 루트 문자("manufacturing car")로 간주됩니다. 이 계산 방법은 퍼지 그룹화를 적용해야 하는지 여부를 확인하는 데에만
사용되고 단어가 매치하는 방법에는 영향을 미치지 않습니다.
단일어 추출 이 옵션은 단어가 복합어의 일부가 아니거나 명사이거나 인식되지 않은 품사인 경우에만 단일어를 추출합니다.
비언어 엔티티 추출 이 옵션은 전화 번호, 주민등록번호, 시간, 날짜, 통화, 숫자, 백분율, 이메일 주소 및 HTTP 주소 등과 같은 비언어 엔티티를 추출합니다. 고급 자원 탭의 비언어 엔티티: 구성 섹션에서 비언어 엔티티의 특정 유형을 포함하거나 제외할 수 있습니다. 불필요한 엔티티를 사용 안함으로 설정하면 추출 엔진은 처리 시간을 낭비하지 않습니다. 자세한 정보는 구성의 내용을 참조하십시오.
대문자 알고리즘 이 옵션은 용어의 첫 글자가 대문자인 한 내장된 사전에 없는 단순 및 복합어를 추출합니다. 이 옵션은 가장 적합한 명사를 추출하기 위한 좋은 방법을 제공합니다.
가능한 경우 부분 및 전체 사람 이름을 함께 그룹화 이 옵션은 텍스트에 다르게 나타나는 이름을
그룹화합니다. 이름은 종종 시작부에는 전체 이름이 언급되고 나중에는 약어로만 표시되기 때문에 이 기능이 유용합니다.
이 옵션은 <Unknown> 유형의 단일어를
<Person>으로 입력되는 복합어와 매치시키려고 시도합니다. 예를 들어, doe가
있고 처음에는 <Unknown>으로 입력되는 경우에는, 추출 엔진은
<Person> 유형에 있는 복합어가 doe를 마지막 단어로 포함하는지 여부를 확인합니다(예: john doe).
이 옵션은 이름에는 적용되지 않습니다. 이름의 대부분은 단일어로 추출되지 않기 때문입니다.
최대 비기능 단어 순열 이 옵션은 순열 기술을 적용할 때 존재할 수 있는
비기능 단어 최대 수를 지정합니다.
이 순열 기술은 서로 굴절과는 관계없이 포함된 비기능 단어(예: of 및 the)만 다른
유사한 구를 그룹화합니다. 예를 들어, 이 값을 최소 두 개의 단어로 설정하고
company officials 및 officials of the company 둘 모두가 추출되었다고 해 봅시다.
이 경우, 추출된 두 용어는 모두 마지막 개념 목록에 그룹화됩니다. 두 용어 모두 of the가 무시될 때 동일한 것으로 간주되기 때문입니다.
다항어를 그룹화할 때 파생 사용 빅 데이터를 처리할 때 파생 규칙을 사용하여 다항어를 그룹화하려면 이 옵션을 선택하십시오.
개념 맵의 색인 옵션 개념 맵을 나중에 빠르게 그릴 수 있도록 추출 시에 맵 색인 작성을 지정합니다. 색인 설정을 편집하려면 설정을 클릭하십시오. 자세한 정보는 개념 맵 지수 작성의 내용을 참조하십시오.
추출을 시작하기 전에 이 대화 상자 항상 표시 추출할 때마다 추출 설정 대화 상자를 표시하려는지 여부를 지정합니다. 도구 메뉴로 돌아가지 않는 한 이를 표시하지 않거나, 추출할 때마다 추출 설정을 편집하려는지 요청할지 여부를 지정합니다.