메인 컨텐츠로 가기

developerWorks 이용 약관에 동의하시는 경우 제출을 클릭하십시오. 이용 약관 보기.

developerWorks에 처음 로그인하면 developerWorks프로파일이 생성됩니다.귀하의 프로파일에서 동의하신 내용이 공개되지만 이 사항은 언제든지 변경 가능합니다. 귀하의 성명(숨김으로 체크되어 있어도 표시됩니다)과 디스플레이 이름은 게시한 컨텐츠나 사이트 엑세스시 표시됩니다.

모든 정보가 안전하게 전송되었습니다.

  • 닫기 [x]

처음 developerWorks에 로그인할 때 프로파일이 작성되므로, 이를 위해 디스플레이 이름을 선택해야 합니다. 선택하신 디스플레이 이름은 developerWorks에 게시한 컨텐츠에 표시됩니다.

3글자 이상 31글자 이하의 길이로 사용 가능합니다. dW커뮤니티 내에서는 보안상 이메일주소를 제외한 다른 이름을 지정하셔야 합니다.

developerWorks 이용 약관에 동의하시는 경우 제출을 클릭하십시오. 이용 약관 보기.

모든 정보가 안전하게 전송되었습니다.

  • 닫기 [x]

IBM InfoSphere eDiscovery Analyzer V2.1.1용 Text Analysis Perspective

사용자 정의된 개념으로 법률적 검색 프로세스에 대한 통찰력을 확장하십시오

Thomas Hampp, Senior Software Engineer, IBM
Thomas Hampp is a leading expert on Text Analysis in the IBM Software Group, with a special focus on text analysis, text mining, and language processing. He has been working in these areas for several years, both in IBM research and development. During his years in research, he developed and patented the first version of a text analysis framework that has now developed into UIMA. He is a member of the architecture boards for UIMA, WebSphere II OmniFind, and Content Management. His current responsibility is defining and extending the integration architecture of UIMA into OmniFind.
Prasad Balunaini, Software Engineer, IBM
Balunaini Prasad is a software developer in the InfoSphere eDiscovery Analyzer product at the India Software Labs. He has developed an Eclipse plug-in that adds new dictionaries and rules from TAP to eDA. Prior to this work, he was involved in the development of ICA, DB2 V9 and level 3 support for the AIX operating system. He holds a masters degree in Electrical Engineering from the Indian Institute of Technology, Kanpur.
Thilo Goetz, Software Engineer, IBM
Thilo Goetz
Thilo Goetz joined IBM Watson Research in 1997, where he worked on various projects related to text analysis. In 2003, he moved to the IBM development lab in Germany, joining the group that develops OmniFind and UIMA. He has been a UIMA developer since its inception and is currently helping to establish UIMA as an Apache project.

요약:  Text Analysis Perspective 및 IBM® InfoSphere® eDiscovery Analyzer, 버전 2.1.1과의 통합에 대한 이해를 높이십시오. 이 기능을 사용하면 간단한 텍스트 분석 엔진을 빠르고 간편하게 구성하고 IBM InfoSphere eDiscovery Analyzer에 배치할 수 있습니다. 이 튜토리얼에서는 샘플 시나리오를 사용하여 IBM InfoSphere eDiscovery Analyzer에서 새로운 패싯으로 텍스트 분석 엔진을 배치하는 데 필요한 설치 단계와 프로시저를 논의합니다.

원문 게재일:  2010 년 1 월 14 일
난이도: 중급 PDF:  A4 and Letter (2297 KB | 62 pages)Get Adobe® Reader®

페이지뷰: 2392 회
의견: 

시작하기 전에

개요

IBM InfoSphere eDiscovery Analyzer, 버전 2.1.1은 조사자, 감사자 또는 법률적 전문가들이 케이스 통찰력을 얻고 전자 검색 검토 비용을 줄이기 위해 ESI(Electronically Stored Information)를 신속하게 개량하고 분석하며 우선순위화하는 데 도움을 준다. 이 튜토리얼에서는 사용자 정의된 패턴과 개념으로 IBM InfoSphere eDiscovery Analyzer에서 케이스 통찰력을 확장할 수 있는 툴링을 설명한다. 제품 기능에 대해 자세히 배우려면 IBM InfoSphere eDiscovery Analyzer, 버전 2.1.1 홈 페이지를 참조하자(참고자료 참조).

IBM InfoSphere eDiscovery Analyzer용 TAP(Text Analysis Perspective)은 이미 설치된 Eclipse 3.5로 통합할 수 있는 Eclipse Perspective이다. 이를 통해 사용자는 간단한 텍스트 분석 엔진인 텍스트에서 사용자 정의 패턴과 엔티티를 발견하는 모듈을 빠르고 간편하게 구성할 수 있다. 분석 엔진은 eDiscovery Analyzer로 배치될 수 있으므로, 사용자 정의된 검색 카테고리에서 사용할 수 있다.

IBM InfoSphere eDiscovery Analyzer는 텍스트 분석을 기반으로 하는 몇 가지의 바로 사용 가능한 검색 카테고리를 지원한다. 이러한 검색 카테고리는 법률적 검색 프로세스에서 케이스를 조사할 때에 통찰력을 추가로 제공한다. 예를 들어, eDiscovery Analyzer는 텍스트에서 사람, 조직 또는 위치의 발생을 통해 문서를 발견하고, UI에서 검색 카테고리로 이를 보여준다. eDiscovery Analyzer용 Text Analysis Perspective를 사용하면 이 기능은 간단한 사용자 정의된 개념으로 확장될 수 있다. 이에 대한 예제는 회사별 일련 번호 또는 일람표 번호의 발생을 통해 문서를 표시하는 검색 카테고리를 포함하거나, 회사별 제품 또는 프로젝트 이름 목록에 대한 제품 또는 프로젝트의 발생을 통해 문서를 표시하는 검색 카테고리를 포함한다.

eDiscovery Analyzer용 Text Analysis Perspective는 개발 환경으로 쓰인다. 이 환경에서는 사용자 정의된 검색 카테고리의 단위가 되는 패턴 또는 목록이 eDiscovery Analyzer의 인스턴스로 배치되기 전에 테스트 문서의 샘플 세트에서 양방향의 방식으로 작성되고 테스트된다.

eDiscovery Analyzer에 대한 Text Analysis Perspective는 다음의 주요 이점을 제공한다.

  • 분석 엔진 내에서 빌드된 정규식 규칙과 사전의 품질을 평가하기 위해 테스트 문서의 사용자 정의 콜렉션에서 분석 엔진을 테스트하는 기능. 이러한 문서는 샘플 이메일 및 이메일 외의 컨텐츠를 표현하는 파일 시스템으로부터의 텍스트 문서가 될 수 있다.
  • 분석 엔진에서 변경의 영향을 결정하도록 테스트 실행에 걸쳐서 분석 결과를 비교하는 기능.
  • 사전에 포함되도록 적합한 용어를 식별하거나 정규식 규칙에 사용되도록 적합한 컨텍스트 용어를 찾도록 테스트 문서에서 텍스트 검색을 사용하는 기능.

작동 방식

eDiscovery Analyzer용 Text Analysis Perspective는 비즈니스 문제에 대한 정규식 규칙과 사전을 구성하기 위한 모든 필수 단계에서 사용자를 지원한다. 이러한 단계는 다음과 같다.

  • 텍스트 분석 구성 태스크에 맞춘 구조와 조치가 들어있는 "텍스트 분석 프로젝트(Text Analysis Project)"를 작성하기.
  • 어노테이터 구성을 테스트하기 위해 샘플 텍스트 문서 또는 데이터베이스 열의 콜렉션을 가져오기.
  • 문서에 존재하는 정보를 이해하기 위해 자주 나오는 용어 분석에 대해 Lucene 기반 텍스트 검색 및 Eclipse 플러그인을 사용하여 이러한 문서를 탐색하기.
  • 추출 태스크를 위해 올바른 분석 엔진을 선택하기. eDiscovery Analyzer용 Text Analysis Perspective는 정규식과 단어 목록을 기반으로 정보의 추출을 허용하는 두 개의 내장 분석 엔진을 포함한다. 이러한 어노테이터는 "텍스트 분석 플러그인(Text Analysis Plug-ins)"으로 패키지화되어, 텍스트 분석 기술 없이 이러한 어노테이터로 작업하기 위해 필요한 모든 편집기와 뷰어도 포함한다.
  • 문서를 분석하고 정보를 추출하기 위해 문서 콜렉션에서 분석 엔진을 실행하기. 결과는 결과 평가를 위해 임베드된 Derby 데이터베이스에 저장된다.
  • 결과를 이해하고 비교하기. eDiscovery Analyzer용 Text Analysis Perspective는 문서 콜렉션에서 결과를 보고 구성 변경(예: 정규식 규칙으로의 변경)의 영향을 이해하기 위해 다른 실행에 걸쳐서 결과를 비교하기 위한 Eclipse 뷰어가 들어있다.
  • 기존 eDiscovery Analyzer 설치 내에 구성된 분석 엔진(규칙/사전)을 사용하기. 규칙과 사전은 InfoSphere eDiscovery Analyzer에 배치하는 간단한 마우스 오른쪽 단추 클릭 조치로 eDiscovery Analyzer에 배치될 수 있다.

선수조건

시스템에 TAP을 설치할 수 있으려면 다음 사항이 필요하다.

  • 동일한 시스템에 IBM eDiscovery Analyzer(eDA)의 작업 중인 설치 또는 TAP을 설치하려는 시스템에 마운트된 다른 시스템에서 eDiscovery Analyzer의 설치 디렉토리. 이는 두 가지 이유에서 필요하다. 먼저, TAP을 설치할 Eclipse 환경은 eDiscovery Analyzer와 함께 제공되는 Java™ 가상 머신을 사용할 것이다. 두 번째로, TAP에서부터 eDiscovery Analyzer 설치로 분석의 배치는 파일 시스템을 통해 발생한다. 따라서, 설치는 파일 시스템에서 가시적이어야 한다.
  • Eclipse 3.5의 설치. 이미 보유하거나 Eclipse 웹 사이트에서부터 새 것을 확보한 Eclipse의 설치를 사용할 수 있다. 설치하는 Eclipse 패키지의 종류는 중요하지 않다. 중요한 것은 Eclipse가 eDiscovery Analyzer와 함께 제공되는 JVM을 사용한다는 것이다. 이는 TAP의 특정 부분이기 때문에, 즉 개체명 사전 컴파일은 Java 기술 1.5용 IBM Developer Kit로만 작동할 것이다. 사용자의 eDiscovery Analyzer 설치가 EDA_HOME에 있다고 가정하자. 그러면 eclipse.exe -vm "%EDA_HOME%\_jvm\jre\bin\java.exe"로 Eclipse를 시작해야 한다. 독자 스스로에 해당하는 바로 가기를 작성하려 할 수도 있다.
  • 현재로서는 Microsoft® Windows® 32비트만 TAP에 대해 지원된다. 따라서, eDA와 Eclipse 설치 둘 다 Windows에서 실행되어야 한다.

18 | 다음

의견



static.content.url=http://www.ibm.com/developerworks/js/artrating/
SITE_ID=20
Zone=Information Management
ArticleID=660180
TutorialTitle=IBM InfoSphere eDiscovery Analyzer V2.1.1용 Text Analysis Perspective
publish-date=01142010
author1-email=thomas.hampp@de.ibm.com
author1-email-cc=
author2-email=balunaini@in.ibm.com
author2-email-cc=
author3-email=tgoetz@de.ibm.com
author3-email-cc=

태그

Help
검색 필드를 사용하여 My developerWorks 내에서 해당 태그가 사용된 모든 종류의 컨텐츠를 검색하십시오.

태그를 더 많이 보거나 적게 보기 위해 슬라이더 막대를 사용하십시오.

인기 태그는 특정 컨텐츠 존(예를 들어, 자바, 리눅스, WebSphere)의 최고 인기 태그를 보여줍니다.

내 태그는 특정 컨텐츠 존(예를 들어, 자바, 리눅스, WebSphere)의 귀하의 태그를 보여줍니다.

검색 필드를 사용하여 My developerWorks 내에서 해당 태그가 사용된 모든 종류의 컨텐츠를 검색하십시오. 인기 태그는 특정 컨텐츠 존(예를 들어, 자바, 리눅스, WebSphere)의 최고 인기 태그를 보여줍니다. 내 태그는 특정 컨텐츠 존(예를 들어, 자바, 리눅스, WebSphere)의 귀하의 태그를 보여줍니다.