김광현 NHN 검색연구실 박사가 유사문서 판독 시스템에 대해 설명하고 있다. |
아주경제 박현준 기자=네이버는 검색 결과에서 펌글보다 원본이 우선 노출되도록 하는 검색 개편안을 공개하고 30일부터 시행에 들어갔다.
NHN은 이날 오전 서울 소공동 웨스틴조선호텔에서 기자간담회를 개최하고 유사문서 판독 시스템인 프로젝트 바이오(BiO, Better is Original)의 결과물을 소개하고 검색통계 서비스인 ‘네이버 트렌드’를 공개했다.
바이오는 NHN이 20006년부터 시행한 프로젝트로 펌글 등 유사문서가 검색 결과에서 원본보다 우선 노출되는 것을 제어한다.
바이오는 뉴스·카페·블로그 등의 글을 대상으로 청크(Chunk)추출-문서 간 유사도 비교-창작본·유사본 판독-오리지널리티(Originality) 계산 순으로 진행된다.
청크는 문서 내 포함된 문장의 구나 절, 이미지를 판독해 창작한 부분과 복사한 부분을 구분하는 방식으로 집계된다.
청크를 바탕으로 계산된 오리지널리티가 높은 순으로 검색 결과에서 우선 노출된다.
김광현 검색연구실 박사는 “ 복사 문장이 많을수록 패널티를 받는다”며 “생성시간이 빠르고, 외부에서 복사한 양이 많을수록 높은 오리지널리티 점수를 받는다”고 설명했다.
기사를 그대로 가져간 블로그가 기사 원본보다 우선 검색되는 것도 개선된다.
사용자들이 ‘서울 전세값 소폭 올라’, ‘구미 불산 누출 피해 보상’ 등 뉴스를 검색하려는 의도가 분명한 경우 기사가 블로그 등의 펌글보다 우선 노출된다.
기사가 아닌 블로그에 창작 문서를 실었는데 유사문서로 판독된 경우, 사용자는 ‘블로그 검색 반영 센터’에 검색·원본 반영을 요청하거나 자신의 글을 무단으로 복제한 경우를 신고할 수도 있다.
아울러 NHN은 검색 통계 서비스인 네이버 트렌드(trend.naver.com)도 공개했다.
네이버 트렌드는 검색어의 기간별 검색 추이를 확인할 수 있는 서비스로 과거와 현재의 관심사와 그 추이를 알 수 있도록 지원한다.
네이버 트렌드는 특정 키워드가 통합검색에서 많이 검색된 횟수를 기준으로 나머지 기간의 검색횟수를 상대값으로 환산해 보여주며 최대 5개의 키워드간 상대적 검색 추이를 비교할 수 있다.
검색 통계 결과 그래프에서 상위 7개의 검색 피크(Peak) 지점에는 관련 뉴스도 함께 보여준다.
김유원 데이터정보센터 박사는 “최근 좋지 않은 일로 화제가 됐던 모 걸그룹의 경우 당시 검색양이 급증했다”며 “트렌드를 해석할 때 검색양을 인기도와 연결 짓는 것은 옳지 않다”고 지적했다.
©'5개국어 글로벌 경제신문' 아주경제. 무단전재·재배포 금지