숭실대학교 정보검색연구실 - 정보검색론(2003) 이준호 교수님 교제를 메모하기 위한 글입니다.
제 17장. 질의 확장
지금까지 보다 높은 검색 효과를 제공하기 위하여 불완전한 초기 질의를 보완하는 다양한 방법들이 연구되어 왔다. "질의 확장(query expansion)"이라는 용어에 의해 지칭되는 이러한 방법들은 초기 질의와 관련이 높은 단어들을 선정한다. 정보 검색 시스템은 선정된 단어들을 모두 질의에 추가하거나, 또는 선정된 검색어들 중에서 사용자에 의해 선택된 일부 단어만을 질의에 추가함으로써 초기 질의를 보완할 수 있다.
17.1 수작업 시소러스
시소러스는 분류 구조(classification structure), 제한된 어휘 사전(controlled vacabulary), 순서화 체계(ordering system)라고도 불린다.
시소러스는 개념을 표시하는 노드와 개념들 사이의 관계를 표시하는 링크로 구성된다.
개념들 사이의 관계로는 광의어(broader term), 협의어(narrower term)와 같은 'is-a' 관계와 동의어(synonym), 관련어(related term) 등이 있다.
일반적으로 개념은 단일 단어로서 표현되며, 단일 단어로서 개념을 표현할 수 없는 경우에는 구가 대신 사용된다.
컴퓨터를 이용하여 자동으로 수행하기 어려운 작업이기 때문에 수작업으로 수행되었다. 그러나 많은 언어학자 및 분야별 전문가들에 의해 수작업으로 작성되는 시소러스는 개발에 많은 비용이 소비됨에도 불구하고, 일관된 검색 효과의 향상을 보여주지 못 하고 있다.
17.2 색인어 클러스터링
색인어들이 동일한 문서에 출현하는 빈도, 즉 동시 출현 빈도(co-occurrence frequency)를 이용하여 색인어-색인어 유사도 행렬을 구성하고, 이러한 행렬에 클러스터링 알고리즘을 적용하여 유사성이 높은 색인어들로 구성된 클러스터들을 생성한다. 하나의 클러스터에 포함된 다수의 색인어들은 동의어로 간주되며, 질의에 포함된 검색어의 동의어들로서 질의를 확장한다.
17.3 색인어-색인어 유사도 행렬
17.4 연관 시소러스
'정보검색론' 카테고리의 다른 글
정보검색론 16장. 확률 모델 (10) | 2018.05.10 |
---|---|
정보검색론 제 15장. 확장 불리안 모델 (12) | 2018.05.03 |
정보검색론 제 13장. 한글 색인어 추출 (12) | 2018.04.26 |
정보검색론 제 12장. 유사도 계산 (3) | 2018.04.18 |
정보검색론 제 11장. 정합성 피드백 (2) | 2018.04.18 |
댓글