지난시간에 클로링이란 단어를 썼는데 한번 해보고 싶어서 잘 알려진 뉴스 기사 웹크로링을 해보고 싶어지더군요. 일반적인 언어로 접근 하려면 파싱부터 시작해야 좀 코딩이 복잡해지는데 구글스프레드시트에서는 간단한 함수 하나를 통해 웹글로링이 가능합니다. IMPORTFEED()함수를 이용하녀 쉽게 뉴스 기사들을 읽어 올 수 있습니다. 다른 함수들이 있긴 하지만 이 함수를 통해 한번 실험을 해보도록 하겠습니다.
구글 스프레드시트에 함수명을 치시면 위와 같은 기본 정보 창이 뜹니다.
=IMPORTFEED("주소","items",true,10)
검색 할 주소는 네이버를 활용하여 실습을 하였습니다.
읽어 올 웹페이지를 찾아야 합니다.
위 그림처렁 뉴스 검색 RSS를 클릭합니다.
그 다음 url 정보를 복사한 뒤에 구글 스프레드시트에 복사해 오면 됩니다.
복사해 오면 구글 스프레드시트에 A1셀에 붙여넣고
IMPORTFEED(A1,"items",true,10)
IMPORTFEED()함수를 이용하면 아래와 같이 뉴스 정보를 읽어 옵니다.
http://newssearch.naver.com/search.naver?where=rss&query=%EC%8A%A4%ED%8C%80%EC%9E%87&field=0&nx_search_query=&nx_and_query=&nx_sub_query=&nx_search_hlquery=&is_dts=0
특정 주제로 검색한 뉴스 경로를 복사하여 붙여 넣기를 하면 위와 같은 형태로 붙여넣기가 됩니다.
query=%EC%8A%A4%ED%8C%80%EC%9E%87
스팀잇이라는 검색어의 대한 정보가 query의 값을 갖게 되는데 복사해놓으면 이상한 문자와 기호로 이게 무슨 검색인지 알 수 없습니다.
복사 한뒤에
query=스팀잇&field=0&nx_search_query
이렇게 해당 위치에 검색 단어만 직접적으로 표현 해 주셔도 됩니다. 나중에 해당 위치에 다른 검색을 할 때 해당 위치의 글자만 바꾸면 쉽게 검색을 할 수 있게 됩니다.
오늘은 간단히 뉴스 기사를 웹클로링 하는 방법을 살펴 보았습니다. 나중에 query의 값만 바꾸어 검색하면 되기 때문에 스크립트 언어 코딩에서 검색 단어를 특정 셀에서 입력 받은 값으로 하여 표현하면 괜찮은 웹클로링을 할 수 있을 것에요. 추가로 일정 시간 단위로 뉴스 기사들을 웹클로링을 한다면 특정 정보를 또 자동으로 알람으로 해당 정보를 확인 할 수 있도록 바꾸고 싶다면 지난 시간에 배운 내용을 기준으로 코딩을 수정하면 쉽게 응용 할 수 있을 거에요.