아이팟 터치용 사전 만들기 작업
아이팟 터치에 사용하기 위해 Dictionary Universal을 구입해서 쓰고 있다.
사실 해킹된 아이팟을 사용하고 있어서 모 사이트를 통해서 최신 버전은 아니지만 Dictionary Universal을 공짜로 구해서 사용할 수도 있었지만, 좋은 프로그램이라고 생각했기 때문에 애플 앱스토어에서 구입을 했다.
몇 가지 사전이 필요해서 데이터를 수집하여 stardict 포맷의 사전 데이터를 작성하기 시작했는데, 일단 네이버 영어사전 데이터를 모아서 사전 파일을 만들었다. 그런데 네이버 영어사전 페이지는 모양만 XHTML를 따랐을 뿐, 데이터의 배치는 XML 스타일로 되어 있지 않았기 때문에 어려움이 많았다. (혹시 네이버 영어사전 담당하시는 분이 이 글을 보시더라도 기분나빠하지 않으셨으면 좋겠습니다. 저도 제 업무를 제대로 하는 편이 아니라서 위 내용은 누굴 비난하려고 쓴 것은 아닙니다.)
수많은 편집 작업 끝에 불필요한 HTML 태그를 정리하고 발음기호 이미지를 다운로드하여 21만 여개의 표제어에 대한 데이터를 얻을 수 있게 되었다. 웹서버에 부하를 주지 않고 다운로드받느라 다운로드에만 며칠이 걸렸고, 웹페이지를 가공하는데 한 2주 넘게 걸린 것 같다.
J.Nik님께서 만드셨다는 영한한영사전은 내용을 보아하니 두산동아의 사전 데이터인 것 같다. 내가 원본으로 삼은 네이버 영어사전과 데이터가 거의 유사하다.
앞으로 작업할 사전은 국어 사전과 라틴어 사전이다. 국어 사전은 1차 가공을 끝내놓은 상태라서 가공만 하면 될 것 같은데, 영어 사전 정리 작업에서 고생을 해서 흥미를 잃은 상태이고, 라틴어 사전은 여러 소스를 구해서 1차 가공을 끝내고 동일한 표제어에 대해 병합 작업을 하는 것을 남겨두었다.
여러 종류의 사전이 있지만, 개인적으로 이 3가지이면 충분할 것 같다. 영영 사전이라면 J.Nik님께서 Longman Comtemporary와 Oxford English 두 가지 사전을 공개하셨으니 쉽게 구해서 설치할 수 있다.
* 사전 데이터는 저작권 상의 문제로 인해서 공개하지 않습니다. 제가 NHN에 서 근무하는 터라 더 문제가 커질 수 있거든요. 게다가 사전 데이터는 NHN이 자체적으로 확보한 게 아니라 두산동아나 코빌드같은 전문 컨텐츠 업체와 계약을 통해 제공하는 거라서 사실상의 저작권은 컨텐츠 업체에 속해 있습니다.
댓글 2개
J.Nik
엇 제블로그를 언급해주셨네요^^ 감사합니다
이번에 사전제작하셨네요?^^ 제가 제작한 영한사전은 두산 프라임사전은 맞아요^^
웹사전으로 서비스하는업체별로 조금씩 다르더라고요(표제어부분, 삽화부분등)
삽화부분을 잘표현해주고 표제어쪽도 상대적으로 최근것으로 업데이트한 ㅇ이트영한한영사전을 클리핑했습니다^^
오늘도 이곳저곳 둘러보다 갑니다^^ 편안한 저녁되세요
terzeron
저는 집에서 받기가 부담스러워서 회사 서버에서 직접 받았거든요. 다음이나 네이트 사전의 경우에는 문제가 될 수 있어서 그냥 네이버 사전으로 했습니다. 그리고 저는 사전 파일의 크기를 최소화하는 것을 가장 중요한 원칙으로 삼았기 때문에 삽화에는 별로 관심이 없었습니다.