본문 바로가기

정보검색론6

제 17장. 질의 확장 숭실대학교 정보검색연구실 - 정보검색론(2003) 이준호 교수님 교제를 메모하기 위한 글입니다. 제 17장. 질의 확장 지금까지 보다 높은 검색 효과를 제공하기 위하여 불완전한 초기 질의를 보완하는 다양한 방법들이 연구되어 왔다. "질의 확장(query expansion)"이라는 용어에 의해 지칭되는 이러한 방법들은 초기 질의와 관련이 높은 단어들을 선정한다. 정보 검색 시스템은 선정된 단어들을 모두 질의에 추가하거나, 또는 선정된 검색어들 중에서 사용자에 의해 선택된 일부 단어만을 질의에 추가함으로써 초기 질의를 보완할 수 있다. 17.1 수작업 시소러스 시소러스는 분류 구조(classification structure), 제한된 어휘 사전(controlled vacabulary), 순서화 체계(ord.. 2018. 5. 10.
정보검색론 16장. 확률 모델 숭실대학교 정보검색연구실 - 정보검색론(2003) 이준호 교수님 교제를 메모하기 위한 글입니다. 제 16장. 확률 모델 오늘날 주로 사용되고 있는 확률 검색 모델은 Robertson & Sparck Jones에 의해 정립되었으며 이진 독립 모델이라고 불리고 있다. 이진 독립 모델은 문서 검색을 위한 준비로서 "적합성 정보"를 요구한다. 즉, 전체 문서 집합을 대상으로 질의에 대한 적합 문서 또는 부적합 문서 판정이 검색 이전에 수행되어 있음을 가정하고 있다.벡터 X로 표현되는 문서가 특정한 질의에 대한 적합 문서로 검색되기 위해서는 이 문서의 적합 확률이 부적합 확률보다 높아야 한다.일반적으로 검색의 결과로서 단순히 적합 문서들의 집합을 사용자에게 제공하는 것보다 질의와 문서들 사이의 유사도를 기준으로 .. 2018. 5. 10.
정보검색론 제 15장. 확장 불리안 모델 숭실대학교 정보검색연구실 - 정보검색론(2003) 이준호 교수님 교제를 메모하기 위한 글입니다. 제 15장. 확장 불리안 모델 퍼지 집합, Waller-Kraft, Paice, P-Norm, Infinite-One 과 같은 확장 불리안 모델은 기존의 불리안 검색 시스템에 순위 결정 기능을 부여하기 위하여 개발되어 왔다.이들은 문서 내에서 색인어의 중요성을 반영하는 색인어 가중치를 이용하는 공통된 특성을 지니고 있다.확장 불리안 모델을 기반으로 하는 정보 검색 시스템은 다음 에 의해 정의 된다.T : 질의와 문서를 표현하기 위해 사용되는 색인어들의 집합Q : 시스템이 인식할 수 있는 질의들의 집합. Q에 속하는 각각의 질의 q는 색인어들과 논리 연산자 AND, OR, NOT 으로 구성된 불리안 수식D : .. 2018. 5. 3.
정보검색론 제 13장. 한글 색인어 추출 숭실대학교 정보검색연구실 - 정보검색론(2003) 이준호 교수님 교제를 메모하기 위한 글입니다. 제 13장. 한글 색인어 추출 색인어의 단위에 따라 어절 단위 색인법형태소 단위 색인법n-Gram 기반 색인법으로 분류될 수 있다. 각각의 장단점에 대해서 알아 보겠다. 13.1 어절 단위 색인법문서나 질의로부터 어절들을 인식하고, 각 어절로부터 색인어의 부분으로서 무의미한 비색인 분절을 제거한 나머지 색인 분절을 색인어 후보로 선정한 후, 이들로부터 불용어를 제거하는 방법이다.한글에서 문서나 질의를 표현할 수 있는 체언이나 용언의 명사형 뒤에 조사나 접미사 등이 붙는다는 특성에 근거하여 어절로부터 조사나 접미사 등을 제거하는데 중점을 둔다.비색인 분적이란 체언의 뒤에 붙여 쓰이지만 색인어에 포함시키기에는 무.. 2018. 4. 26.