시작하기 전에
IBM InfoSphere eDiscovery Analyzer, 버전 2.1.1은 조사자, 감사자 또는 법률적 전문가들이 케이스 통찰력을 얻고 전자 검색 검토 비용을 줄이기 위해 ESI(Electronically Stored Information)를 신속하게 개량하고 분석하며 우선순위화하는 데 도움을 준다. 이 튜토리얼에서는 사용자 정의된 패턴과 개념으로 IBM InfoSphere eDiscovery Analyzer에서 케이스 통찰력을 확장할 수 있는 툴링을 설명한다. 제품 기능에 대해 자세히 배우려면 IBM InfoSphere eDiscovery Analyzer, 버전 2.1.1 홈 페이지를 참조하자(참고자료 참조).
IBM InfoSphere eDiscovery Analyzer용 TAP(Text Analysis Perspective)은 이미 설치된 Eclipse 3.5로 통합할 수 있는 Eclipse Perspective이다. 이를 통해 사용자는 간단한 텍스트 분석 엔진인 텍스트에서 사용자 정의 패턴과 엔티티를 발견하는 모듈을 빠르고 간편하게 구성할 수 있다. 분석 엔진은 eDiscovery Analyzer로 배치될 수 있으므로, 사용자 정의된 검색 카테고리에서 사용할 수 있다.
IBM InfoSphere eDiscovery Analyzer는 텍스트 분석을 기반으로 하는 몇 가지의 바로 사용 가능한 검색 카테고리를 지원한다. 이러한 검색 카테고리는 법률적 검색 프로세스에서 케이스를 조사할 때에 통찰력을 추가로 제공한다. 예를 들어, eDiscovery Analyzer는 텍스트에서 사람, 조직 또는 위치의 발생을 통해 문서를 발견하고, UI에서 검색 카테고리로 이를 보여준다. eDiscovery Analyzer용 Text Analysis Perspective를 사용하면 이 기능은 간단한 사용자 정의된 개념으로 확장될 수 있다. 이에 대한 예제는 회사별 일련 번호 또는 일람표 번호의 발생을 통해 문서를 표시하는 검색 카테고리를 포함하거나, 회사별 제품 또는 프로젝트 이름 목록에 대한 제품 또는 프로젝트의 발생을 통해 문서를 표시하는 검색 카테고리를 포함한다.
eDiscovery Analyzer용 Text Analysis Perspective는 개발 환경으로 쓰인다. 이 환경에서는 사용자 정의된 검색 카테고리의 단위가 되는 패턴 또는 목록이 eDiscovery Analyzer의 인스턴스로 배치되기 전에 테스트 문서의 샘플 세트에서 양방향의 방식으로 작성되고 테스트된다.
eDiscovery Analyzer에 대한 Text Analysis Perspective는 다음의 주요 이점을 제공한다.
- 분석 엔진 내에서 빌드된 정규식 규칙과 사전의 품질을 평가하기 위해 테스트 문서의 사용자 정의 콜렉션에서 분석 엔진을 테스트하는 기능. 이러한 문서는 샘플 이메일 및 이메일 외의 컨텐츠를 표현하는 파일 시스템으로부터의 텍스트 문서가 될 수 있다.
- 분석 엔진에서 변경의 영향을 결정하도록 테스트 실행에 걸쳐서 분석 결과를 비교하는 기능.
- 사전에 포함되도록 적합한 용어를 식별하거나 정규식 규칙에 사용되도록 적합한 컨텍스트 용어를 찾도록 테스트 문서에서 텍스트 검색을 사용하는 기능.
eDiscovery Analyzer용 Text Analysis Perspective는 비즈니스 문제에 대한 정규식 규칙과 사전을 구성하기 위한 모든 필수 단계에서 사용자를 지원한다. 이러한 단계는 다음과 같다.
- 텍스트 분석 구성 태스크에 맞춘 구조와 조치가 들어있는 "텍스트 분석 프로젝트(Text Analysis Project)"를 작성하기.
- 어노테이터 구성을 테스트하기 위해 샘플 텍스트 문서 또는 데이터베이스 열의 콜렉션을 가져오기.
- 문서에 존재하는 정보를 이해하기 위해 자주 나오는 용어 분석에 대해 Lucene 기반 텍스트 검색 및 Eclipse 플러그인을 사용하여 이러한 문서를 탐색하기.
- 추출 태스크를 위해 올바른 분석 엔진을 선택하기. eDiscovery Analyzer용 Text Analysis Perspective는 정규식과 단어 목록을 기반으로 정보의 추출을 허용하는 두 개의 내장 분석 엔진을 포함한다. 이러한 어노테이터는 "텍스트 분석 플러그인(Text Analysis Plug-ins)"으로 패키지화되어, 텍스트 분석 기술 없이 이러한 어노테이터로 작업하기 위해 필요한 모든 편집기와 뷰어도 포함한다.
- 문서를 분석하고 정보를 추출하기 위해 문서 콜렉션에서 분석 엔진을 실행하기. 결과는 결과 평가를 위해 임베드된 Derby 데이터베이스에 저장된다.
- 결과를 이해하고 비교하기. eDiscovery Analyzer용 Text Analysis Perspective는 문서 콜렉션에서 결과를 보고 구성 변경(예: 정규식 규칙으로의 변경)의 영향을 이해하기 위해 다른 실행에 걸쳐서 결과를 비교하기 위한 Eclipse 뷰어가 들어있다.
- 기존 eDiscovery Analyzer 설치 내에 구성된 분석 엔진(규칙/사전)을 사용하기. 규칙과 사전은 InfoSphere eDiscovery Analyzer에 배치하는 간단한 마우스 오른쪽 단추 클릭 조치로 eDiscovery Analyzer에 배치될 수 있다.
시스템에 TAP을 설치할 수 있으려면 다음 사항이 필요하다.
- 동일한 시스템에 IBM eDiscovery Analyzer(eDA)의 작업 중인 설치 또는 TAP을 설치하려는 시스템에 마운트된 다른 시스템에서 eDiscovery Analyzer의 설치 디렉토리. 이는 두 가지 이유에서 필요하다. 먼저, TAP을 설치할 Eclipse 환경은 eDiscovery Analyzer와 함께 제공되는 Java™ 가상 머신을 사용할 것이다. 두 번째로, TAP에서부터 eDiscovery Analyzer 설치로 분석의 배치는 파일 시스템을 통해 발생한다. 따라서, 설치는 파일 시스템에서 가시적이어야 한다.
- Eclipse 3.5의 설치. 이미 보유하거나 Eclipse 웹 사이트에서부터 새 것을 확보한 Eclipse의 설치를 사용할 수 있다. 설치하는 Eclipse 패키지의 종류는 중요하지 않다. 중요한 것은 Eclipse가 eDiscovery Analyzer와 함께 제공되는 JVM을 사용한다는 것이다. 이는
TAP의 특정 부분이기 때문에, 즉 개체명 사전 컴파일은 Java 기술 1.5용 IBM Developer Kit로만 작동할 것이다. 사용자의
eDiscovery Analyzer 설치가 EDA_HOME에 있다고 가정하자. 그러면
eclipse.exe -vm "%EDA_HOME%\_jvm\jre\bin\java.exe"로 Eclipse를 시작해야 한다. 독자 스스로에 해당하는 바로 가기를 작성하려 할 수도 있다. - 현재로서는 Microsoft® Windows® 32비트만 TAP에 대해 지원된다. 따라서, eDA와 Eclipse 설치 둘 다 Windows에서 실행되어야 한다.
