Простой способ создать облака слов для ученых из данных

1656515413 prostoj sposob sozdat oblaka slov dlya uchenyh iz dannyh

Кавита Ганнессон

1*1fdLDXvHcBf_wvpwZCf3bQ
библиотека word_cloud python

Около года назад я искал библиотеку облака слов Python, которую я мог бы использовать из своего блокнота Jupyter. Мне нужно было, чтобы он был достаточно гибок для использования counts или tfidf когда это необходимо или просто примите набор слов и соответствующие весы.

Я был немного удивлен, что ничего подобного еще не существовало в таких библиотеках, как plotly. Все, что я хотел сделать это быстро понять мои текстовые данные и векторы слов. Я подумал, что это, наверное, не слишком много спрашивать…

Вот я год спустя, используя свою собственную библиотеку визуализации word_cloud. Он не самый красивый или сложный, но в большинстве случаев работает. Я решил поделиться им, чтобы другие могли им воспользоваться. После установки несколько способов его использования.

Создавайте облака слов с помощью одного текстового документа

Этот пример показывает примеры того, как можно создать облака слов только с помощью одного документа. Хотя цвета можно изменять случайным образом, в этом примере цвета основаны на параметрах цвета по умолчанию.

По умолчанию слова взвешиваются по количеству слов, если вы явно не спросите взвешивания tfidf. Взвешивание Tfidf имеет смысл только если у вас есть много документов для начала.

1*HYtC28uzCWtTK2r_cR_3CA
облако слов на основе одного документа

Создавайте облака слов из нескольких документов

Скажем, у вас есть 100 документов из одной категории новостей, и вы просто хотите увидеть, какие упоминания наиболее часто встречаются.

1*lKQBi3n4OfjawldVtXrU5g
облако слов на основе нескольких документов

Создайте облака слов из имеющихся весов

Скажем, у вас есть набор слов с весом, и вы просто хотите его представить. Все, что вам нужно сделать, это убедиться, что весы нормализуются между ними [0 — 1].

1*NyGmBmZ4OOiOPLir9h4doA
облако слов из имеющихся весов

Надеюсь, вы найдете это полезным! Пожалуйста, не стесняйтесь предложить изменения, чтобы улучшить выход – просто откройте запрос на выписку со своими изменениями.

Добавить комментарий

Ваш адрес email не будет опубликован.