텍스트마이닝 예제

용어 문서 매트릭스에서 생성되고 표시되는 통계에는 문서 컬렉션에 나타나는 용어의 빈도에 대한 기본 정보가 포함되어 있습니다. 이 정보를 통해 컬렉션 및 특정 문서와 관련하여 이러한 용어의 중요성을 평가할 수 있습니다. 이에 비해 LSI는 단수 값 분해(SVD)를 사용하여 용어와 문서를 공통 공간으로 매핑하여 패턴과 관계를 찾습니다. 예를 들어 문서 수집을 검사한 경우 자동차 문서에 교류 발전기라는 용어가 표시될 때마다 배터리와 헤드라이트라는 용어도 포함되어 있는 것을 확인할 수 있습니다. 또는 자동차 문서에 브레이크라는 용어가 등장할 때마다 패드와 삐걱거리는 용어도 나타났습니다. 그러나 교류 발전기 및 브레이크라는 용어의 사용에 대해서는 감지 가능한 패턴이 없습니다. 교류 발전기를 포함한 문서에는 브레이크가 포함되지 않을 수 있으며 브레이크를 포함한 문서에는 교류 발전기가 포함되지 않을 수 있습니다. 배터리, 헤드라이트, 패드, 삐걱거리는 네 가지 용어는 브레이크 고장과 잘못된 발전기의 두 가지 자동차 수리 문제를 설명합니다. LSI는 시도합니다 : 1) 이 두 가지 다른 주제를 구별; 2) 결함이있는 브레이크, 교류 발전기 문제 또는 둘 다처리하는 문서를 식별합니다. 및 3) 단수 값 분해를 사용하여 공통 의미 체계 공간에 용어를 매핑합니다. SVD는 텍스트 광부가 컬렉션에서 문서의 의미의 주요 차원을 설명하는 개념을 추출하는 데 사용하는 도구입니다. LSA의 결과는 개념 표현의 구성이 완전히 설명되지 않기 때문에 일반적으로 검토하기가 어렵습니다.

이러한 결과를 해석하는 것은 실제로 과학보다 예술에 더 가중됩니다. 그러나 XLMiner는 이 프로세스를 크게 단순화하는 몇 가지 시각화를 제공합니다. 텍스트 광부 대화 상자에서 사전 처리 탭을 클릭합니다. 기존 모델이 없으므로 이 탭의 옵션을 비워 둡니다. 텍스트 마이닝은 마케팅에도 사용되기 시작했으며, 특히 분석적인 고객 관계 관리에도 사용되고 있습니다. [24] Coussement 및 Van den Poel(2008)[25][26]을 적용하여 고객 이탈(고객 감소)에 대한 예측 분석 모델을 개선합니다. [25] 텍스트 마이닝도 주식 반품 예측에 적용되고 있습니다. [27] 유럽 저작권 및 데이터베이스 법의 유연성이 부족하기 때문에 저작권 소유자의 허가없이 저작권 저작물(예: 웹 마이닝)을 채굴하는 것은 불법입니다.

Posted in Uncategorised