벨로e

효과적인 구글 검색방법 본문

효능

효과적인 구글 검색방법

벨로e 2013. 5. 16. 19:21

이 문서는 구글 검색엔진을 이용해서 문서를 더 잘 찾을 수 있는 기술들에 대한 내용을 담고 있다. 구글은 상당히 복잡한 검색옵션을 제공하는데, 여기에서는 그 중에서 간단하면서도 효율적인 몇 가지 방법에 대해서 소개할 것이다.

1. 쌍 따옴표
2개 이상의 쿼리 문장이 주어졌을 경우, 구글은 각 쿼리 글자간의 거리를 검사해서 score를 계산한다.
만약 socket api를 검색어로 입력했다면, socket 과 api 가 동시에 발견된 문서 중에서, 가능한한 가까이 붙어있는 문서가 우선 노출되는 방식이다. 그러나 노래 가사와 같은 경우에는 거리에 상관없이 반드시 붙어있어야 할 것이다.
예를 들어 harry potter를 검색할 경우, "harry potter" 로 검색하는게 원하는 결과를 얻을 확률이 높다.
harry potter를 검색어로 입력할 경우에는 [harry potter], [harry ant potter], [Im potter. your harry?] 등등이 검색될 수 있는데, 쌍따옴표로 묶어줄 경우 harry 다음에 potter이 포함된 문서만 검색하기 때문이다.
2. 키워드의 포함과 제외

Wireless Networking 로 검색을 한다고 가정해 보자. 우리가 원하는 정보는 무선 네트워크 기술이다.
이경우 Wireless와 Networking가 모두 포함된 문서가 상위에 검색될 확률이 높지만, 문서자체의 가중치에 의해서 Wireless와 Networking 둘 중 하나만 포함된 문서가 상위에 검색될 수도 있다. 그렇다면 가장 확실한 검색 방법은 따옴표로 묶는 방법이 될 것이다.

"Wireless Networking"

그러나 이 경우에는 검색되는 문서의 양이 너무 적어져서, 중요한 문서가 빠질 수도 있다. 그렇다면 쌍따옴표를 빼고 검색어를 만드는 방법이 있다.

Wireless NetWorking

이 경우에는 다양한 문서가 검색 되겠지만, Wireless와 NetWorking 둘 중 하나만 포함되어도 검색결과에 노출되므로, 쓸데 없는 문서까지 검색될 수 있다. 이를테면 Wireless phone, Wireless PDA 등이 무선 네트워크 장비 관련 정보들 까지 떠버린다. 우리가 중요한건 네트워크 기술이므로, Networking를 반드시 포함시키도록 하면, 좀더 좋은 결과를 얻을 수 있을 것이다. 이렇게 해당 검색어를 반드시 포함시키고자 할때에 +를 검색어 앞에 붙여주면 된다.

Wireless +NetWorking

키워드를 제외할 필요도 있을 것이다. 이경우에는 -를 사용하면 된다.

"Wireless NetWorking" -wired +routers

3. 필드 명령

검색엔진들은 필드검색이 가능하도록 색인테이블을 지원한다. 즉 site, contents (본문), link, title 별로 검색이 가능하도록 색인테이블을 작성한다. 이를 이용하면 특정 site내에서의 검색이라든지, 사이트의 제목에서만 검색하는 등의 검색작업을 수행할 수 있다. 다음은 www.joinc.co.kr 사이트내에서 "socket api" 문장을 포함한 문서를 찾는다.

site:www.joinc.co.kr.co "socket api"

또한 상위 도메인명을 필드로 지정할 수도 있다. 아래와 같이 하면 .co.kr 도메인을 가진 문서에 대해서 검색을 수행하게 된다.

site:.co.kr "socket api"

intitle: 를 이용하면 문서의 제목을 기준으로 검색을 한다. title에 joinc가 포함된 문서 중에서 wiki가 검색된 문서를 찾는다면 다음과 같이 하면 된다.

intitle:joinc wiki

filetype:를 이용하면 해당 파일타입을 기준으로 검색을 할 수 있다. 다음과 같이 하면 파일 타입이 xml인 문서중에서 pthread를 포함한 것을 검색하게 된다.

filetype:xml pthread

이러한 필드들은 몇개를 조합해서 사용할 수도 있다.

site:joinc.co.kr filetype:html 하드웨어

4. 기타

구글은 웹문서를 수집할 때, 해당 사이트에 있는 ROBOTS 파일을 읽어서 그 정책에 따라서 행동한다. 이 로봇파일에는 웹문서를 수집할 수 있는지, 수집하기 위해서 아이디와 패스워드가 필요한지 등에 대한 정보를 담고 있다.

http://www.joinc.co.kr/robots.txt

위 문서를 보면, 문서 수집을 허락하지 않는 파일과 디렉토리에 대한 정책이 있음을 확인할 수 있다.
아래와 같이 검색어를 입력하면, 각 사이트에 대한 robots.txt 정보를 검색할 수 있다.

inurl:"robots.txt" filetype:txt