숭실대학교 정보검색연구실 - 정보검색론(2003) 이준호 교수님 교제를 메모하기 위한 글입니다.


제 11장. 적합성 피드백


  적합성 피드백이란 보다 많은 적합 문서 그리고 보다 적은 비적합 문서를 검색할 수 있도록 불완전한 초기 질의를 보완하여 질의를 자동으로 재성성하는 기법이다.

  

  사용자들이 검색 할 때 그들이 지니고 있는 문제점조차도 정확하게 표현할 줄 모른다.

  이러한 상태를 "비정상적인 지식의 상태"라고 불렀다.

  이러한 불확실성은 정보 검색 과정의 본질인 것.

  따라서 불완전한 초기 질의는 보완되어야 한다.


  적합성 피드백에 대부분의 연구들은 질의를 가중치가 부여된 검색어들의 벡터로서 표현하는 벡터 질의 환경에서 수행되었다.

  이러한 연구들은 새로운 질의의 재구성과정에서 적합 문서들에 출현한 검색어들의 가중치를 높이고, 부적합 문서들에 출현한 검색어들의 가중치를 낮춘다는 원칙을 기초로 한다.

 불리안 검색이 개발하기 편리하나 불리안 검색이 가지는 한계점을 때문에 질의를 가중치가 부여된 검색어들의 벡터로서 표현하는 벡터 질의 환경에서 수행되었다. 그리하여 적합성 피드백에 관한 대부분의 연구들도 벡터 질의 수정을 목표로 수행되었다.

  백터 질의 환경에서 개발된 적합성 피드백 방법들은

  1. 질의 벡터를 수정하는 방법들
  2. 확률 검색에 근거한 방법들
이 두개로 구분 될 수 있다.
이 두 가지 방법들은 새로운 질의를 생성하기 위한 초기 질의의 사용 유무에 차이점이 있다.

질의 벡터를 수정하는 방법들 => 초기 질의를 수정
확률 검색에 근거한 방법들 => 초기 질의와 무관하게 적합성 정보를 기반으로 새로운 질의를 생성. 

11.1 활용 분야


 
정보 검색 시스템은 축적된 문서들의 집합으로부터 사용자의 정보 요구를 만족하는 문서들을 검색하여 사용자에게 전달.

정보 필터 시스템은 사용자의 정보 요구를 질의 DB에 수록해 두고, 새로운 문서가 들어오게 되면 질의 DB에 저장된 질의와 비교하여 질의를 만족하는 문서를 사용자에게 전달한다.


11.2 질의 벡터 수정

질의를 확장하고 검색어 가중치를 재산정하는 2개의 과정으로 구성되어 있다.


11.2.1 질의 확장

질의 확장은 적합 문서에 출현할 가능성이 높은 검색어들을 질의 벡터에 추가하는 과정

예) 

조건 

초기 질의어 : 정보

검색된 적합 문서 집합에 총 3개의 색인어가 존재 : 정보, 검색, 시스템

적합 문서 빈도 순위 : 정보, 시스템, 검색 

적합 문서 합 벡터에서 가중치 순위 : 정보, 검색, 시스템

색인어 추가 방법

적합 문서에 출현하는 모든 색인어 추가 방법 : 정보, 검색, 시스템

적합 문서 빈도가 높은 색인어 추가 방법 : 정보, 시스템

 적합 문서 합 벡터에서 가중치가 높은 색인어 추가 방법 : 정보, 검색


질의 확장을 했을 때 높은 검색 효과를 기대할 수 있는 조건들

  1. 초기 질의에 포함된 검색어 수가 적음

  2. 초기 질의가 제공하는 검색 효과가 낮음

  3. 광범위한 내용의 문서 집합보다 전문적이고 기술적인 내용의 문서 집합의 검색


11.2.2 검색어 가중치 재산정

검색어 가중치 재산정 과정은 질의 확장 과정 이후에 질의 벡터에 포함된 검색어들의 가중치를 재산정하는 과정이다.

 즉, 가중치 재산정 이전의 질의에 대하여 

적합 문서에 빈번하게 출현하는 검색어에 대한 가중치 증가

비적합 문서에 비번하게 출현하는 검색어에 대한 가중치 감소






'정보검색론' 카테고리의 다른 글

정보검색론 제 11장. 정합성 피드백  (0) 2018.04.18

+ Recent posts

티스토리 툴바