tf idf 예제

예를 들어, 100단어 문서에 “cat”이라는 단어가 12번 포함되어 있는 경우, `고양이`라는 단어에 대한 TF는 한 달 전에 우리 가족이 모아나의 캐릭터 마우이의 이름을 따서 명명된 Mawi라는 새로운 개를 입양했다는 점을 감안할 때 모아나의 위키백과 페이지를 사용합니다. 더 명확한 이해를 얻기 위해 예를 들어 봅시다. 예를 들어 “cat”이라는 용어가 문서 크기의 모음(예: 웹)에서 x 배로 나타난다고 가정해 보겠습니다. “cat”이라는 용어가 포함된 문서가 0.3백만 개라고 가정해 보겠습니다. TF-IDF의 작동 방식을 더 잘 설명하기 위해 몇 가지 예제를 살펴보겠습니다. TF*IDF는 저평가된 콘텐츠를 더 잘 이해하기 위해 검색 엔진에서 사용됩니다. 예를 들어 Google에서 “콜라”라는 용어를 검색하려는 경우 Google에서 “COKE”라는 제목의 페이지가 있는지 알아낼 수 있습니다. 예를 들어 Cosine 유사성 방법을 사용하여 유사성을 찾은 다음 각도가 가장 작으면 유사성이 더 많이 됩니다. 이 예제에서 각 문장은 별도의 문서입니다. 이전 코드 조각으로, 우리는 그들의 메서드를 사용 하 여 모듈을 추가 하 여 다시 시작 합니다. 이 예제에서는 Numpy, 팬더 및 정규 표현 외에 Scikit 학습을 활용합니다.

Scikit-learn은 파이썬을위한 무료 기계 학습 라이브러리입니다. CountVectorizer를 사용하여 텍스트 문서 컬렉션을 토큰 개수 행렬로 변환합니다. TfidfTransformers정규화된 TF 또는 TF-IDF 표현으로 개수 행렬의 변환을 처리합니다. 단어 “예”는 더 재미있다 – 그것은 세 번 발생하지만, 두 번째 문서에서만 : TF-IDF와 좋은 결과를 얻기 위해, 거대한 코퍼스가 필요합니다. 내 예에서, 난 그냥 작은 크기의 코퍼스를 사용했다. 중지 단어를 제거했기 때문에 결과가 즐거웠습니다. 많은 용어 가중치 체계가 tf-idf에서 파생되었습니다. 그 중 하나는 TF-PDF (용어 주파수 * 비례 문서 빈도)입니다. [14] TF-PDF는 미디어에서 새로운 주제를 식별하는 맥락에서 2001년에 도입되었습니다. PDF 구성 요소는 용어가 다른 도메인에서 발생하는 빈도의 차이를 측정합니다.

또 다른 파생은 TF-IDuF입니다. TF-IDuF에서[15] idf는 검색하거나 권장할 문서 모음을 기반으로 계산되지 않습니다. 대신 idf는 사용자의 개인 문서 컬렉션에서 계산됩니다. 저자는 TF-IDuF가 tf-idf와 동등하게 효과적이지만 사용자 모델링 시스템이 글로벌 문서 모음에 액세스 할 수없는 상황에서도 적용 될 수 있다고 보고합니다. “the”, “의” 또는 “a”와 같은 중지 단어가 많은 문서에서 매우 자주 발생하는 경향이 있기 때문에 관련 단어가 반드시 가장 빈번한 단어는 아닙니다. 계산 방법: tf-idf는 문서의 각 용어를 해당 용어 빈도(tf) 및 역문서 빈도(idf)에 따라 가중치를 할당하는 가중치 체계입니다. 체중 점수가 높은 용어는 더 중요한 것으로 간주됩니다. 이 표현식은 가능한 모든 용어와 문서의 Tf-idf를 합산하면 공동 배포의 모든 구체성을 고려하여 문서와 용어 간의 상호 정보를 복구한다는 것을 보여줍니다(자세한 내용은[9]를 참조하십시오.]

This entry was posted in Geen categorie. Bookmark the permalink.

Comments are closed.