
Содержание статьи
от Deepal Dsilva
Эксперимент Wordcloud в R

Вы когда-нибудь задумывались, о чем вы чаще всего твитите? Или вы посещаете свою любимую конференцию и хотите знать, что вокруг нее ажиотаж?
Или, возможно, вы хотите знать, что говорят о последнем фильме, вышедшем на экраны?
Что ж, WordCloud – это место, где вам следует искать. Они просты в настройке, обеспечивают потрясающие визуализации и легко настраиваются.
Подождите! Но прежде, что такое WordCloud?
Это изображение, состоящее из слов, используемых в определенном тексте или теме, в котором размер каждого слова указывает его частоту или важность.
Теперь, когда вы знаете основы, давайте начнем работать с R.
Загрузите необходимые библиотеки
library(twitteR)library(ROAuth)library(stringr)library(tm)library(wordcloud2)library(tidytext)
Настройка приложения Twitter
Мы собираемся использовать данные Twitter для создания нашего облака слов, поэтому создайте аккаунт Twitter, если у вас его нет. Я подожду…
Дальше нам понадобится приложение Twitter. Это одноразовая настройка.
Вам нужно пройти аутентификацию в Twitter, чтобы вы могли посылать запросы на твиты и чтобы Twitter отправлял их вам.
Я не буду вдаваться в подробные шаги. Вы можете использовать это руководство, чтобы настроить его.
Далее мы передаем токен функции setup_twitter_oauth для аутентификации.
consumer_key <- "xxxx" #Your Consumer Key (API Key)consumer_secret <- "xxxx" #Your Consumer Secret (API Secret)access_token <- "xxxx" #Your Access Tokenaccess_secret <- "xxxx" #Your Access Token Secretsetup_twitter_oauth(consumer_key, consumer_secret, access_token, access_secret)
Вы можете получать твиты на основе пользовательского профиля или любых ключевых слов/хештегов. Вот оба примера.
#Query a hashtagtweets <- searchTwitter("#rstats",n=3000,lang="en", resultType = "popular")
#OR
#Query a user you follow or yourselftweets <- userTimeline("dsilvadeepal",n=3200,includeRts = FALSE)
Текстовый анализ ваших твитов
Теперь нам нужно извлечь текст из твитов в вектор.
И поначалу мы удалим графические параметры. Это удаляет видимые символы (все кроме пробелов и контрольных символов), чтобы избежать ошибок при вводе.
tweets.txt <- sapply(tweets, function