반응형

웹 검색 엔진 만들기 46

5.1.7 GetCandidateBySeqNo 저장 프로시저

5.1.7 GetCandidateBySeqNo 저장 프로시저 CandidateTable에서 특정 일련 번호의 항목을 얻어오는 저장 프로시저를 만듭시다. 저장 프로시저 이름은 GetCandidateBySeqNo으로 정할게요. 입력 인자로 일련 번호를 받고 OUTPUT 유형의 인자로 페이지 주소와 Seed 사이트에서의 상대적 깊이를 선언합니다. CREATE PROCEDURE dbo.GetCandidateBySeqNo ( @SeqNo int, @Url varchar(200) OUTPUT, @Depth int OUTPUT ) select문을 이용하여 CandidateTable에서 입력 인자로 받은 일련 번호와 같은 항목의 정보를 OUTPUT 유형의 인자에 설정합니다. select @Url=Url, @Depth=..

5.1.5 GetCountCandidate 저장 프로시저

5.1.5 GetCountCandidate 저장 프로시저 웹 로봇은 웹 페이지를 수집하려면 먼저 수집해야 할 후보 사이트를 얻어와야 합니다. 이 부분은 CollectWeb 시퀀스 다이어그램에서 약속하였습니다. 약속한 문서를 보면 GetFrontCandidate 저장 프로시저를 이용하여 CandidateTable에 저장한 후보 사이트 중에 맨 앞의 항목을 얻어오게 약속하였습니다. 이를 효과적으로 사용할 수 있게 CandidateTable에는 후보 사이트를 추가할 때 일련 번호를 자동으로 부여하게 테이블을 설계했어요. GetFrontCandidate 저장 프로시저에서는 일련 번호가 가장 작은 항목을 얻어오고 해당 항목을 삭제하면 되겠죠. 이를 위해 CandidateTable에서 일련 번호가 가장 작은 번호를..

5.1.4 AddCandidate 저장 프로시저

5.1.4 AddCandidate 저장 프로시저 이제 수집 대상 페이지 주소를 추가하는 AddCandidate 저장 프로시저를 만듭시다. 입력 인자로 수집 대상 페이지 주소와 Seed 사이트에서의 상대적 깊이를 인자로 받습니다. CREATE PROCEDURE dbo.AddCandidate ( @Url varchar(200), @Depth int ) 그리고 저장 프로시저에서는 NeedCollectUrl 저장 프로시저를 이용하여 수집이 필요한 페이지인지 확인하여 필요하면 CandidateTable에 추가합니다. Declare @Need int Exec NeedCollectUrl @Url, @Need OUTPUT if @Need = 1 begin insert into CandidateTable values(@..

5.1.3 NeedCollectUrl 저장 프로시저

5.1.3 NeedCollectUrl 저장 프로시저 이번에는 수집할 필요가 있는 페이지인지 확인하는 NeedCollectUrl 저장 프로시저를 만듭시다. 입력 인자로 페이지 주소와 OUTPUT 유형으로 수집할 필요가 있는지 여부를 결정하는 인자가 필요하겠죠.CREATE PROCEDURE dbo.NeedCollectUrl ( @Url varchar(200), @Need int OUTPUT ) 저장 프로시저의 알고리즘은 이미 작성한 ExistedCandidate 저장 프로시저를 이용해 존재하는 페이지 주소인지 확인합니다. 존재 여부를 확인하기 위한 변수를 선언해야겠죠.Declare @Existed intExec ExistedCandidate @Url, @Existed OUTPUT 만약 존재하지 않으면 Exi..

5.1.2 ExistedPostedUrl 저장 프로시저

5.1.2 ExistedPostedUrl 저장 프로시저 이번에는 이미 수집한 페이지인지 확인하는 저장 프로시저를 만들어 봅시다. 저장 프로시저 이름은 ExistedPostedUrl로 합시다. 입력 인자로 페이지 주소를 받고 OUTPUT 유형의 인자로 존재 여부가 필요합니다. CREATE PROCEDURE dbo.ExistedPostedUrl ( @Url varchar(200), @Existed int OUTPUT ) 저장 프로시저 내부에서는 PostedUrlTable에 입력 인자로 받은 Url이 있는지 확인한 결과를 존재 여부를 결정하는 인자에 설정합니다. 앞에서 작성한 ExistedCandidate 저장 프로시저와 테이블 이름만 차이가 있어 하나의 저장 프로시저로 일반화할 수 있지만 여기에서는 일반화하..

5.1.1 ExistedCandidate 저장 프로시저

5.1.1 ExistedCandidate 저장 프로시저 ExistedCandidate 저장 프로시저는 입력 인자로 사이트 주소와 OUTPUT 형태의 인자로 존재 여부가 있습니다. CREATE PROCEDURE dbo.ExistedCandidate ( @Url varchar(200), @Existed int OUTPUT ) 존재하는지 확인은 Select 쿼리문의 결과를 이용합시다. SQL 쿼리문을 사용해 본 적이 없다면 별도의 레퍼런스를 통해 학습이 필요합니다. if exists (select * from CandidateTable where Url=@Url) begin set @Existed = 1 end else begin set @Existed = 0 end 다음은 ExistedCandidate 저장..

5. DBM 설계 및 구현

5. DBM 설계 및 구현 이번에는 DBMS에 정보를 저장하거나 검색할 때 사용하는 컴포넌트를 설계 및 구현합시다. 이와 같은 컴포넌트에는 DBM ForAll과 DBM ForSearch가 있습니다. 이번 작업에서는 DBMS에 자주 사용하는 쿼리를 저장 프로시저 형태로 만드는 작업도 진행합니다. 5.1 DBM ForAll필요한 저장 프로시저 구현 DBM ForAll은 웹 로봇과 형태소 분석기, 역 파일 생성기 등에서 수집 결과나 분석 결과 등을 저장하는 작업을 수행하는 컴포넌트입니다. 검색 서비스에서 검색 결과를 얻어오는 부분은 DBM ForSearch 컴포넌트가 담당하기로 하였습니다. 여기에서는 DBM ForAll 컴포넌트를 설계하고 이를 구현할 것입니다. 그리고 구현에 필요한 저장 프로시저가 있으면 같..

4. 5 RankedUrl 클래스 구현

4. 5 RankedUrl 클래스 구현 검색 요청이 오면 랭커는 검색 결과에 점수를 부여하여 점수 순으로 정렬한 결과 컬렉션을 제공합니다. 이 때 검색 결과를 RankedUrl 형식으로 표현합시다. Search 시퀀스 다이어그램에서 RankedUrl 형식이 있는데 멤버로 수집한 웹 페이지와 점수를 갖고 있어야 합니다. RankedUrl에는 PostedUrl 개체 정보를 멤버 필드로 갖고 멤버 속성으로 이를 참조할 수 있게 제공합시다.PostedUrl postedurl;public PostedUrl PUrl{ get { return postedurl; }} 그리고 웹 사이트 주소를 참조할 수 있는 속성을 제공합시다. 웹 사이트 주소는 따로 기억할 필요는 없습니다. 멤버 개체인 postedurl의 Url 속..

4. 4 InvertedElem 클래스 구현

4. 4 InvertedElem 클래스 구현 역 파일 생성기에 의해 DBMS에 저장한 정보로 사이트 주소와 참조 개수를 멤버로 갖는 역 파일의 항목 형식을 InvertedElem이라 합시다. InvertedElem클래스를 추가하세요. InvertedElem은 형태소 분석기에 의해 분석한 결과로 사이트 주소와 참조 개수를 멤버로 하여 특정 형태소 테이블의 항목으로 저장한 내용을 프로그램 데이터로 가져와 사용하는 형식입니다. 따라서 형태소 분석기에 의해 분석한 결과를 역 파일 생성기에 의해 DBM ForAll에게 저장 요청할 때 사용합니다. 그리고 검색 요청할 때 랭커에 의해 DBM ForSearch에게 검색 질의에 포함한 형태소를 역 파일 테이블에서 포함하는 사이트 주소와 참조 개수를 알아낼 때 결과로 얻..

4. 3 Morpheme 클래스 구현

4. 3 Morpheme 클래스 구현 분석한 형태소를 표현할 Morpheme 클래스를 추가하세요. 분석한 형태소는 형태소 별로 페이지에 나타난 개수를 포함하여 기록합니다. 이는 역 파일 생성기에 의해 DBMS에 저장하며 랭커에 의해 검색 결과를 순위화할 때 사용합니다. MophemeParse와 MakeInvertedFile 시퀀스 다이어그램을 보면 어떠한 멤버가 필요한 지 확인할 수 있습니다. Morpheme 형식에는 형태소 이름과 참조 개수를 멤버 속성으로 추가하고 기본 생성자, 정보를 입력 인자로 받는 생성자를 추가하고 ToString 메서드를 재정의합니다. 마찬가지로 형식과 멤버를 public으로 지정하여 외부에 노출하고 Serializable 특성을 지정합니다. [Serializable]publi..

반응형