숭실대학교 정보검색연구실 - 정보검색론(2003) 이준호 교수님 교제를 메모하기 위한 글입니다.


제 17장. 질의 확장


지금까지 보다 높은 검색 효과를 제공하기 위하여 불완전한 초기 질의를 보완하는 다양한 방법들이 연구되어 왔다. "질의 확장(query expansion)"이라는 용어에 의해 지칭되는 이러한 방법들은 초기 질의와 관련이 높은 단어들을 선정한다.  정보 검색 시스템은 선정된 단어들을 모두 질의에 추가하거나, 또는 선정된 검색어들 중에서 사용자에 의해 선택된 일부 단어만을 질의에 추가함으로써 초기 질의를 보완할 수 있다.


17.1 수작업 시소러스 

시소러스는 분류 구조(classification structure), 제한된 어휘 사전(controlled vacabulary), 순서화 체계(ordering system)라고도 불린다.

시소러스는 개념을 표시하는 노드와 개념들 사이의 관계를 표시하는 링크로 구성된다.


개념들 사이의 관계로는 광의어(broader term), 협의어(narrower term)와 같은 'is-a' 관계와 동의어(synonym), 관련어(related term) 등이 있다.

일반적으로 개념은 단일 단어로서 표현되며, 단일 단어로서 개념을 표현할 수 없는 경우에는 구가 대신 사용된다.


컴퓨터를 이용하여 자동으로 수행하기 어려운 작업이기 때문에 수작업으로 수행되었다. 그러나 많은 언어학자 및 분야별 전문가들에 의해 수작업으로 작성되는 시소러스는 개발에 많은 비용이 소비됨에도 불구하고, 일관된 검색 효과의 향상을 보여주지 못 하고 있다.


17.2 색인어 클러스터링 

색인어들이 동일한 문서에 출현하는 빈도, 즉 동시 출현 빈도(co-occurrence frequency)를 이용하여 색인어-색인어 유사도 행렬을 구성하고, 이러한 행렬에 클러스터링 알고리즘을 적용하여 유사성이 높은 색인어들로 구성된 클러스터들을 생성한다. 하나의 클러스터에 포함된 다수의 색인어들은 동의어로 간주되며, 질의에 포함된 검색어의 동의어들로서 질의를 확장한다.


17.3 색인어-색인어 유사도 행렬 

위에서 설명된 질의 확장 방법들에서처럼 질의에 포함된 각각의 검색어에 대한 동의어들로서 질의를 확장할 경우, 초기 질의 "power plant(발전소)" 에 대하여 "tree(나무)" 나 "crop(농작물)"과 같은 단어들이 확장될 검색어로서 선정될 수 있다. 이처럼 초기 질의와 관계가 없는 "tree"와 "crop"이 확장될 용어들로서 선정될 수 있는 이유는 "plant(공장, 식물)" 라는 용어의 의미가 모호하기 때문이다. 이러한 문제를 해결하기 위하여 Qiu & Frei는 질의에 포함된 각각의 용어에 대하여 확잘될 용어들을 선정하는 대신 질의 전체와 유사도가 높은 용어들을 선정하여 질의를 확장하였다. 즉, 용어-용어 유사도 행렬을 기반으로 질의에 포함된 모든 용어들과 유사도가 높은 용어들을 확장될 용어로서 선정하였다.


17.4 연관 시소러스 

문서들의 수가 많을 경우 문서들에 포함된 단어들의 수도 증가하기 때문에 색인어-색인어 유사도 행렬의 생성이 매우 어려워진다. 이러한 문제점을 해결하기 위해 Jing & Croft는 문서들을 분석하여 개념과 연관어 2개의 필드들로 구성된 가상 문서들을 생성하였다. 그리고, 추기 질의에 대하여 연관어 필드들을 검색하여, 상위에 검색된 가상 문서들의 개념 필드에 포함된 개념을 초기 질의의 확장을 위해 사용하였다.


+ Recent posts

티스토리 툴바