Skip to content

기능 설명

Chan-Yub Park edited this page Apr 30, 2017 · 8 revisions

N2H4 기능 설명(v0.4.3)

a-z 순입니다.


getComment

getComment(turl = url, pageSize = 10, page = 1, sort = c("favorite", "reply", "old", "new"))

네이버뉴스 페이지 내에 댓글이 있을 때 관련 댓글 정보를 가져오는 기능입니다.

turl

Target url 의 줄임말로 한개의 네이버 뉴스 페이지를 뜻합니다. url에 aid가 있으면 얼추 맞습니다. 예시: http://news.naver.com/main/read.nhn?mode=LS2D&mid=shm&sid1=105&sid2=731&oid=031&aid=0000393444

pageSize

댓글 페이지의 크기를 의미합니다. 네이버의 댓글 데이터 정책에 따른 이름으로 한번에 가져오는 갯수라고 이해하시면 좋겠습니다. 최대 100개까지 가능합니다.

page

위의 페이지 크기에 대한 것으로 한번에 10개 들고 오고, 총 30개가 있으면 2번째, 3번째 페이지의 정보를 가져올 수 있습니다. 물론 한번에 pageSize=30을 하시는 것도 방법이 됩니다.

sort

좋아요갯수, 대댓글수, 오래된 순, 최신 순의 순서로 댓글을 정렬합니다.


getContent

getContent(turl = url, col=c("url","datetime","press","title","content"))

네이버뉴스 페이지 내에 url, 기사입력시간, 수정시간, 신문사, 제목, 내용 정보를 가져오는 기능입니다.

turl

Target url 의 줄임말로 한개의 네이버 뉴스 페이지를 뜻합니다. url에 aid가 있으면 얼추 맞습니다. 예시: http://news.naver.com/main/read.nhn?mode=LS2D&mid=shm&sid1=105&sid2=731&oid=031&aid=0000393444

col

위에 설명된 정보중 필요한 부분만 선택할 수 있습니다. 기본으로 모두 가져오는 것으로 되어 있습니다.


getMainCategory

getMainCategory()

네이버뉴스의 메인 카테고리를 가져오는 기능입니다. 2016년 11월 17일 기준 정치 / 경제 / 사회 / 생활문화 / 세계 / IT과학 / 오피니언이 있습니다.


getMaxPageNum

getMaxPageNum(turl = url, max = 100)

메인 카테고리의 전체 페이지나 세부 카테고리 페이지에서 마지막 페이지수를 가져옵니다. 한번에 100페이지씩 뛰어넘어 마지막 페이지인지 확인합니다.

turl

Target url 의 줄임말로 네이버 뉴스 리스트 페이지의 url을 뜻합니다. url에 list.nhn 가 들어 있으면 얼추 맞습니다. 예시: http://news.naver.com/main/list.nhn?mode=LS2D&mid=shm&sid1=100&sid2=264

max

네이버뉴스는 url 뒤에 page= 으로 페이지수를 지정합니다. 그래서 실제로 있는 것보다 크게 들어가도 마지막 페이지를 보내줍니다. 그걸 이용해서 처음에 page=100을 호출해서 마지막 페이지인지 확인합니다. max는 그 숫자를 지칭하는 것으로 기본으로는 100이 들어가 있습니다.


getNewsTrend

getNewsTrend(query, startDate, endDate, onlyPaper=FALSE, ...)

네이버뉴스에서 검색시 검색 결과에 나오는 총 검색량을 가져오는 기능입니다.

query

검색량을 가져오기 위한 검색어입니다. 한글을 지원하고, windows10에서 기능을 확인했습니다. 추가적인 os 기능 동작을 확인하면 보고하겠습니다. character 자료형으로 vector는 지원하지 않습니다.

startDate

검색어 기준 가져오고 싶은 날짜에서 시작 날짜를 뜻합니다. character 자료형으로 YYYY-MM-DD 형식만 지원합니다.

endDate

검색어 기준 가져오고 싶은 날짜에서 끝 날짜를 뜻합니다. character 자료형으로 YYYY-MM-DD 형식만 지원합니다.

onlyPaper

신문에 게재된 뉴스만 가져올지를 결정하는 옵션입니다. 기본값은 FALSE고 네이버 뉴스에서 검색되는 인터넷 뉴스 포함 모든 뉴스의 검색량을 가져옵니다. TRUE로 하면 신문 게재 뉴스만 숫자에 반영됩니다.

...

getNewsTrend 함수는 getQueryUrl 함수에 의존적입니다. 위에 언급한 옵션 이외에도 getQueryUrl에서 사용하는 옵션을 사용할 수 있습니다.


getQueryUrl

getQueryUrl(query, st="news.all", q_enc="EUC-KR", r_enc="UTF-8", r_format="xml", rp="none", sm="all.basic", ic="all", so="datetime.dsc", startDate=as.Date(Sys.time())-3, endDate=as.Date(Sys.time()), stPaper="exist:1", detail=1, pd=1, dnaSo="rel.dsc")

검색 결과를 보여주는 페이지 url을 조합해서 만드는 함수입니다. 네이버 뉴스 검색시 나오는 url을 분석했으며, 아직 모든 옵션의 기능을 확인하지 못했습니다.

query

검색어를 뜻합니다. character 자료형으로 받으며 vector는 못 받습니다.

startDate

검색시 시작날짜를 뜻합니다. 기본 값은 기능을 사용하는 날로 3일 전입니다. Date 자료형을 받습니다.

endDate

검색시 끝날짜를 뜻합니다. 기본 값은 기능을 사용하는 당일입니다. Date 자료형을 받습니다.

stPaper

모든 인터넷 뉴스를 결과물로 받을지, 신문에 게재된 기사만 결과물로 받을지 결정합니다. 신문에 게재된 기사만 결과물로 받는 것이 기본값이며, 모든 인터넷 뉴스를 결과물로 받고 싶으면 stPaper="" 로 입력해주시면 됩니다.

다른 인자들

하나하나 확인하면서 어떤 인자인지 알아가야 합니다만, 다 파악하지 못했습니다.


getSubCategory

getSubCategory(sid1 = 100, onlySid2 = TRUE)

네이버뉴스의 서브 카테고리를 가져오는 기능입니다. 각 메일 카테고리별로 다양한 서브카테고리가 있습니다.

sid1

네이버뉴스에서 지칭하는 메인카테고리의 id 이름이며 보통 100, 101 등으로 표현되어 있습니다. getMainCategory 기능을 활용하면 확인할 수 있습니다. sid1은 하나의 숫자만 입력으로 받으며 vector는 받지 않습니다.

onlySid2

네이버뉴스는 서브 카테고리를 sid2라고 지칭하는데 그렇지 않은 서브 카테고리(예: 속보)도 있습니다. 그래서 sid2가 있는 서브카테고리만 가져올 것인지를 결정하는 것이 필요해 추가했습니다. 기본은 TRUE로 되어 있습니다. onlySid2=TRUE 인 경우 data.frame(str:sub_cate_name, str:sid2) 인 결과물이, onlySid2=FALSE인 경우 data.frame(str:sub_cate_name, str:url) 인 결과물이 나옵니다.


getUrlListByCategory

getUrlListByCategory(turl = url, col=c("titles", "links"))

메인 카테고리의 전체 페이지나 세부 카테고리 페이지에서 뉴스 페이지의 제목과 url들을 가져옵니다. data.frame(str:news_title, str:news_links)의 결과물을 얻을 수 있습니다.

turl

Target url 의 줄임말로 네이버 뉴스 리스트 페이지의 url을 뜻합니다. url에 list.nhn 가 들어 있으면 얼추 맞습니다. 예시: http://news.naver.com/main/list.nhn?mode=LS2D&mid=shm&sid1=100&sid2=264

col

위에 설명된 정보중 필요한 부분만 선택할 수 있습니다. 기본으로 모두 가져오는 것으로 되어 있습니다.


getUrlListByQuery

getUrlListByQuery(turl = url)

메인 카테고리의 전체 페이지나 세부 카테고리 페이지에서 네이버뉴가 있는 기사들의 url을 가져옵니다. data.frame(str:news_title, str:news_links)의 결과물을 얻을 수 있습니다.

뉴스 제목 가져오기와 묶음기사들 내의 기사들을 가져오기는 개발해야 합니다.

turl

Target url 의 줄임말로 네이버 뉴스 리스트 페이지의 url을 뜻합니다. url에 list.nhn 가 들어 있으면 얼추 맞습니다. 예시: http://news.naver.com/main/list.nhn?mode=LS2D&mid=shm&sid1=100&sid2=264


Clone this wiki locally