환경 문제 Hadoop 해결
환경을 Hadoop 사용할 때 발생할 수 있는 문제를 해결하려면 이 해결책을 사용하십시오.
- 관리자에서 Cloudera 서비스를 다시 Execution Engine for Apache Hadoop 시작하거나 Ambari
- 통합 Hadoop 시스템을 참조하는 프로젝트의 내보내기 및 가져오기
- 원격 Execution Engine for Apache Hadoop 세션에서 dist-keras를 가져올 때 오류 발생
- 원격 시스템 재설치 시 Hadoop 설정
- 클러스터에서 Hadoop 데이터 정제 시 발생하는 오류
- 클러스터 Cloud Pak for Data 등록 실패
관리자에서 Cloudera 서비스를 다시 Execution Engine for Apache Hadoop 시작하거나 Ambari
관리자( CDH ) 또는 AmbariCloudera ( HDP )에서 서비스를 Execution Engine for Apache Hadoop 재시작해야 하는 경우, 다음 명령을 실행하여 모든 서비스를 Execution Engine for Apache Hadoop 재시작하십시오:
cd /opt/ibm/dsxhi/bin
./stop.py
./start.py
프로젝트 내보내기 및 가져오기
통합 Hadoop 시스템에 대한 참조를 포함하는 프로젝트 자산을 내보낸 후 다른 Cloud Pak for Data 클러스터로 프로젝트를 가져올 경우, 노트북, 연결 및 정제 작업이 실패하는 문제가 발생할 수 있습니다.
이유는 프로젝트를 내보낼 때 전역으로 정의된 등록 Hadoop 정보가 전역 속성이기 때문에 내보내기 대상에 포함되지 않기 때문입니다.가져온 프로젝트가 제대로 작동하도록 하려면 다음 단계를 수행하십시오.이러한 단계는 필수적입니다. 통합 정보는 프로젝트 내보내기의 일부가 아니며, Hadoop Cloud Pak for Data 클러스터의 일부로 전역적으로 정의되기 때문입니다.
관리자가 통합 Hadoop 페이지에서 항목을 삭제할 때, 해당 항목이 사용자의 환경에서도 참조되고 있는 경우에도 이 시나리오가 발생할 수 있습니다.관리자가 동일한 항목을 다시 추가하더라도, 문제를 해결하기 위해 반드시 다음 단계를 수행해야 합니다.
문제점 및 해결 방법
수입 및 수출 프로젝트 문제는 다음에 영향을 미칩니다:
이 문제를 해결하려면 해결 방법을 참조하십시오. 대응 조치를 완료한 후 추가 단계를 수행해야 할 수 있습니다. 다음 섹션에는 추가 정보가 포함되어 있습니다.
환경
환경은 전체 Hadoop 세부 사항을 보여주지 않습니다.
노트북
노트북의 내용은 여전히 볼 수 있지만, 편집 모드로 실행하려고 하면 실패합니다. 또한 활성 런타임을 삭제할 수 없습니다. 런타임 환경 삭제도 실패합니다.
유효하지 않은 환경이 삭제되면, 자산 페이지에 아이콘이 표시되어 해당 환경이 노트북에서 제거되었음을 나타냅니다.
- 작업 버튼에서 환경 변경을 선택한 후, 환경 작업around에서 최근 생성된 환경을 선택하십시오.
- '연결'을 클릭한 후 노트북을 실행하여 해결 방법이 성공적인지 확인하십시오.
작업
작업이 Failed to find remote host for id 오류로 실패할 것입니다.
이것은 및 Data Refinery 노트북 작업에 적용됩니다.무효화된 환경이 삭제되면 작업 UI에서 해당 작업에 환경 템플릿이 누락되었음을 표시합니다.
- 환경 템플릿 옆의 편집을 클릭하고, 환경 템플릿 탭에서 새 환경을 선택한 후 제출을 클릭합니다.
- 작업을 실행하십시오.
커넥터
연결된 데이터가 이상한 오류로 실패합니다. 다음 태스크 중 하나를 수행하십시오.
- 관리자가 Cloud Pak for Data 이전에 정의된 것과 동일한 이름으로 통합 등록 Hadoop 항목을 생성한 경우, 연결에 대한 변경 사항은 필요하지 않습니다.
- 관리자가 Cloud Pak for Data 통합 등록 Hadoop 이름을 변경한 경우, 연결 항목으로 이동하여 연결 편집 페이지를 실행한 후, 이름이 변경된 등록 항목에 따라 / HiveHDFS URL을 업데이트해야 합니다.
임시 해결책
환경, 노트북, 작업 및 커넥터에 대한 각 문제를 해결하려면 다음 해결 방법을 사용하십시오:
- 관리자는 Cloud Pak for Data 동일한 시스템을 통합 Hadoop 페이지에 등록해야 합니다. 이 등록에는 동일한 이름을 사용하는 것이 좋습니다.
- 사용자는 새로운 Hadoop 등록 항목을 참조하는 새 환경 템플릿을 생성해야 합니다.
- 사용자는 유효하지 않은 환경을 삭제해야 합니다.
- 사용자는 새 환경을 참조하도록 작업 또는 노트북을 업데이트해야 합니다.
원격 Execution Engine for Apache Hadoop 세션에서 dist-keras를 가져올 때 오류 발생
dist-keras 패키지는 Power PC HadoopPython3.7 클러스터에서 지원되지 않습니다.
플랫폼 구성을 통해 Jupyter Python3.7 이미지를 등록된 Execution Engine for Apache Hadoop 시스템에 푸시하는 경우, Power 시스템에서 dist-keras의 이미지 내 설치가 실패합니다. 이미지 푸시 로그에 다음과 같은 경고가 발생합니다:
Attempting to install HI addon libs to active environment ...
==> Target env: /opt/conda/envs/Python-3.7-main ...
====> Installing conda packages ...
====> Installing pip packages ...
==> WARNING: HI addons could not be installed:
----------------------------------------------
Collecting package metadata: ...working... done
Solving environment: ...working... done
.
.
.
File "/opt/conda/envs/Python-3.7-main/lib/python3.7/site-packages/typing.py", line 1003, in __new__
self._abc_registry = extra._abc_registry
AttributeError: type object 'Callable' has no attribute '_abc_registry'
.
.
.
----------------------------------------------
A Hadoop admin may need to manually install some libraries
into the remote image after it is pushed ...
이미지 푸시 작업은 계속 진행되어 결국 성공해야 하지만, 원격 Execution Engine for Apache Hadoop 세션( Livy 또는 JEG)에서 distkeras 가져오기를 시도하면 다음과 같은 오류로 No module named 'distkeras' 실패합니다.
에 대한 지원이 부족하다는 dist-keras 점을 제외하면, Power용으로 푸시된 Python3.7 이미지는 다른 푸시된 이미지와 마찬가지로 원격 Execution Engine for Apache Hadoop 세션에서 사용할 수 있습니다.
원격 시스템 재설치 시 Hadoop 설정
시스템에 Hadoop 실행 엔진 Apache Hadoop (dsxhi) RPM을 재설치해야 하는 시나리오입니다.해당 시스템 재설치 후에는 연결이 계속 정상적으로 Hadoop 작동하도록 보장하기 위해 추가 단계가 필요합니다.
Hadoop 시스템
에 대한 새로운 노출된 Hadoop 엔드포인트를 추가한 경우, 이 Hadoop 시스템에 등록된 Cloud Pak for Data 클러스터를 재등록하는 것이 좋습니다.등록 Cloud Pak for Data 정보는 와 를 ./uninstall.py 사용하여 ./install.py 애플리케이션을 재설치할 경우 유지됩니다. 설치를 실행한 경우 이 yum erase dsxhi단계는 yum install dsxhi-*rpm 필요하지 않습니다. 후자의 옵션은 등록 데이터를 삭제합니다.
목록을 표시하려면 를 ./manage_known_dsx.py -l 사용하고, 등록을 새로 고치려면 옵션을 ./manage_known_dsx.py -r <host> 사용하십시오.
Cloud Pak for Data
관리자는 Cloud Pak for Data 등록 Hadoop 정보도 새로 고쳐야 합니다.
등록이 삭제되면 수행해야 할 몇 가지 사용자 작업이 있습니다. 자세한 내용은 프로젝트 내보내기 및 가져오기를 참조하십시오.
- 통합 Hadoop 패널로 이동하여 업데이트된 시스템을 선택하십시오.
- 상세 정보 페이지에서 를 클릭하세요
Update Certificate. 업데이트가 처음에 실패한 경우, 인증서가 업데이트되지 않았을 가능성이 높습니다. 다시 시도하십시오.
클러스터에서 Hadoop 데이터 정제 시 발생하는 오류
클러스터에서 Hadoop 데이터를 정제할 때 발생하는 오류를 해결하려면 다음 정보를 사용하십시오.
- 오류: "연결 URL 및 환경이 Hadoop 동일한 URLLivyspark2 경로를 참조하는지 확인하십시오"
- 업그레이드 후 이 오류가 발생할 Cloud Pak for Data 수 있습니다. 이
오류를 해결하려면 연결 URL 및 환경이 Hadoop 동일한 URL 경로를 참조하는지 Livyspark2 확인하십시오. 관리자는 관리 > 구성 및 설정 > Hadoop 실행 엔진 에서 URL을 확인할 수 있습니다. URL이 동일하지 않은 경우 연결 URL 및 인증서 정보를 업데이트하십시오. - 오류: "환경에서 Hadoop 데이터 셰이핑에 '<type>' 연결 유형이 지원되지 않습니다."
- 환경에서 Hadoop 작업을 Data Refinery 실행하기 위해서는 실행 엔진 Hadoop 연결만 지원됩니다. 클러스터에서 Hadoop 데이터 정제 시 실행 엔진 연결 Hadoop 목록을 참조하십시오.
- 오류: " HDFS 읽기/쓰기에 '<format>' 형식이 지원되지 않습니다."
- 데이터 HDFS 정제용으로 지원되지 않는 데이터 형식을 선택하셨습니다. 지원되는 데이터 형식 목록은 연결을 HDFS via Execution Engine for Hadoop 참조하십시오.
클러스터 Cloud Pak for Data 등록에 실패했습니다
클러스터 Cloud Pak for Data 등록에 실패한 경우 다음 세부 사항을 확인하십시오:
- 등록 시 제공된 URL 정보가 정확한지 확인하십시오. . Cloud Pak for Data 에 대한 액세스 관리 참조
- 클러스터에 Hadoop 서비스를 설치한 관리자에게 Hadoop 연락하여 등록 과정에서 제공된 서비스 사용자 ID가 정확한지 확인하십시오.
- 등록 과정에서 URL 제공된 호스트명을 성공적으로 해결하도록 Openshift DNS 오퍼레이터가 구성되었는지 확인하십시오.
- 추가 진단 정보를 확인하려면 OpenShift
utils-api pod관리자에게 문의하여 해당 서비스의 로그를 검사하십시오.