반응형

웹 검색 엔진 6

4. WSE Core 설계 및 구현

4. WSE Core 설계 및 구현 이번에는 EH WSE 솔루션의 여러 컴포넌트에서 공통적으로 사용할 형식들을 제공하는 WSE Core 라이브러리를 설계하고 구현합시다. WebCollect 시퀀스 다이어그램과 NeedGetUrls에서는 수집할 대상 사이트를 얻어오는 부분이 있습니다. 이를 Candidate 형식으로 정의합시다. 웹 로봇은 웹 사이트를 수집하였을 때 이를 DBM ForAll을 통해 DBMS에 저장을 요청합니다. 이를 위해 PostedUrl 형식을 정의합시다. 웹 사이트의 내용이나 검색 질의는 형태소 분석기에 의해 분석하고 이 결과를 사용하여 역 파일을 만드는 작업이나 검색에 사용합니다. 이를 Morpheme 형식으로 정의합시다. 검색 요청 시에 랭커는 검색 결과에 순위를 부여합니다. 이 때..

3. 3 DB 설계

3. 3 DB 설계 일반적으로 아키텍쳐링 단계에서 DB설계를 진행합니다. 여기에서도 시퀀스 다이어그램을 통해 DBMS에 관리해야 할 것들이 무엇인지를 분석하여 DB 설계합시다. 3.3.1 웹로봇에서 수집해야 할 대상 웹 로봇에서는 관리자에 의해 Seed 사이트를 추가하면 이를 수집해야 할 대상으로 등록합니다. 그리고 웹 로봇은 주기적으로 수집해야 할 대상을 얻어와서 웹 페이지를 수집한 이후에 수집한 웹 페이지에 있는 링크를 다시 수집해야 할 대상으로 등록합니다. 여기에서는 Seed 사이트에서 특정 depth 내에 있는 웹 페이지를 수집할 수 있게 합시다. 이와 같은 정보를 반영하여 CandidateTable을 만들기로 합시다. 테이블의 컬럼에는 사이트 주소와 Seed 사이트에서의 상대적 깊이가 있어야겠죠..

3. 2 시퀀스 다이어그램

3. 2 시퀀스 다이어그램 이번에는 EH WSE 솔루션에서 요구하는 기능이 어떠한 컴포넌트와 관계가 있고 어떠한 흐름으로 수행하는지를 파악합시다. 이 과정을 통해 컴포넌트에서 외부 컴포넌트에 제공할 인터페이스를 약속하며 DB 설계를 위한 데이터를 정의합니다. 구현할 프로그램의 종류에 따라 어떠한 다이어그램을 작성할 것인지 선택할 수 있는데 여기에서는 시퀀스 다이어그램을 사용할게요. 여러분께서는 시퀀스 다이어그램과 비슷한 작업에 사용하는 상태 다이어그램, 협력 다이어그램, 액티비티 다이어그램도 있으니 관련 레퍼런스를 살펴보시기 바랍니다. 여기에서는 웹 수집에 관한 시퀀스 다이어그램부터 작성할 것입니다. 주의할 점은 앞쪽의 작업은 언제나 완벽하다는 생각에 빠지지 말아야 한다는 것입니다. 그리고 이번 작업을 ..

3. 1 컴포넌트 다이어그램

3. 1 컴포넌트 다이어그램 EH WSE 솔루션은 크게 일반 사용자가 검색 서비스를 사용하는 EH 응용 프로그램과 이를 위해 제공하는 WSE 패키지로 나눌게요. 그리고 WSE 패키지는 관리자가 사용하는 WSEManager 응용 프로그램과 다양한 엔진들과 서비스로 이루어진 WSE 엔진과 라이브러리로 구분하겠습니다. 특히 WSE 엔진과 라이브러리는 관리자와 일반 사용자가 검색에 사용하는 부분에서 필요한 부분과 그렇지 않은 부분으로 분리할게요. 여기에서는 검색에 필요한 부분을 WSE For Search라 부르고 나머지 부분을 WSE Robot이라고 부르기로 합시다. EH 응용 프로그램은 윈도우즈 응용 프로그램 형태로 일반 사용자가 검색 질의할 수 있고 원하는 결과 페이지로 이동할 수 있습니다. WSE Mana..

1. 1 검색 엔진

1. 1 검색 엔진 여러분도 잘 아시는 것처럼 검색 엔진은 사용자가 원하는 정보를 검색해 주는 도구나 서비스를 말합니다. 특히 웹 검색 엔진은 웹 상에 게시되어 있는 수 많은 웹 페이지의 내용에서 원하는 정보를 검색해 주는 엔진입니다. 이러한 검색 엔진은 방대한 자료에서 빠르고 정확하게 원하는 정보를 검색하는 것이 중요합니다. 만약 자료의 양이 많지 않다면 굳이 고사양의 검색 엔진은 필요하지 않을 것입니다. 따라서 검색 엔진은 방대한 자료를 수집하는 작업이 필요합니다. 그리고 수집한 자료를 분석하는 작업, 분석한 결과를 검색하기 쉽게 가공하는 작업, 검색 작업과 검색한 결과를 선별 및 순위를 정하는 등의 작업이 필요합니다. 웹 검색 엔진의 구성을 살펴보면 게시한 웹 페이지를 수집하는 웹 로봇과 수집한 웹..

1. 검색 엔진 소개 및 개요

1. 검색 엔진 소개 및 개요 최근 인터넷의 발달로 다양한 정보를 웹을 통해 얻습니다. 특히 개인 블로그 및 커뮤니티 사이트, 소셜 사이트의 증가로 정보 공급자와 정보 사용자의 경계가 사라져가고 있습니다. 이처럼 다양한 형태의 방대한 자료가 웹 상에 만들어지고 있어 효과적인 검색을 위한 검색 엔진들을 연구하고 만들어지고 있습니다. 특히 검색 엔진은 기존의 포털 사이트에서 제공하는 서비스였지만 소셜 사이트 및 다양한 정보 서비스를 위해 필요한 곳이 많아집니다. 이 책에서는 기존 웹 검색 엔진을 만드는 전체 공정을 순서대로 하나 하나 설명하고 궁극적으로 서비스 목적에 맞는 검색 엔진을 만들 수 있게 할 것입니다. [그림 1.1] 정보의 바다

반응형