숭실대학교 정보검색연구실 - 정보검색론(2003) 이준호 교수님 교제를 메모하기 위한 글입니다.

제 16장. 확률 모델

이진 독립 모델은 문서 검색을 위한 준비로서 "적합성 정보"를 요구한다. 즉, 전체 문서 집합을 대상으로 질의에 대한 적합 문서 또는 부적합 문서 판정이 검색 이전에 수행되어 있음을 가정하고 있다.

벡터 X로 표현되는 문서가 특정한 질의에 대한 적합 문서로 검색되기 위해서는 이 문서의 적합 확률이 부적합 확률보다 높아야 한다.

일반적으로 검색의 결과로서 단순히 적합 문서들의 집합을 사용자에게 제공하는 것보다 질의와 문서들 사이의 유사도를 기준으로 문서들을 내림차순으로 정렬하여 사용자에게 제공하는 것이 바람직하다.

벡터 X로 표현된 문서가 적합 문서 집합에 많이 포함될수록, 그리고 부적합 문서 집합에 적게 포함될수록 유사도 함수 g(x)의 값도 증가한다.

pi : 색인어 xi가 적합 문서에 존재할 확률

qi : 색인어 xi가 부적합 문서에 존재할 확률

R : 전체 문서 집합에서 적합 문서들의 수

ri : 색인어 xi를 포함하는 적합 문서의 수

ni : 색인어 xi를 포함하는 문서들의 수

N : 전체 문서 집합에 포함되어 있는 문서들의 수

새 보다 자유롭게 - 자바 프로그래머 갈매기S(Jonathan Livingston Seagull)