Как предсказать оценки «нравится» и «распространяться» на основе названия вашей статьи с помощью машинного обучения

1656532819 kak predskazat oczenki nravitsya i rasprostranyatsya na osnove nazvaniya vashej

Флавио Х. Фрейтас

1*bNrELKY03PmFSGqjf8OHlg
Фото Мэтью Гуая на Unsplash

Выбор хорошего названия статьи является важным шагом в процессе написания. Чем интереснее кажется заголовок, тем выше шанс, что читатель взаимодействует со всем. Кроме того, показ содержимого пользователя, который они предпочитают (с которым взаимодействовать), повышает удовлетворение пользователя.

Так начался мой последний проект по специализации «Инженер по машинному обучению Nanodegree». Я только что кончил и чувствую такой гордый и счастливый ? что я хотел поделиться с вами некоторыми мыслями обо всем потоке. Кроме того, я пообещал Куинси Ларсону статью, когда закончил проект.

Если вы хотите увидеть окончательный технический документ, щелкните здесь. Если вы хотите реализовать код, проверьте его здесь или разделите мой проект на GitHub. Если вы просто хотите получить обзор, используя термины для неспециалистов, это правильное место – продолжайте читать эту статью.

1*gQRQ6x29YFA_ngSpaoDCUw
Сообщение FreeCodeCamp Medium в Twitter

Одними из наиболее используемых платформ для распространения идей сегодня являются Twitter и Medium (вы здесь!). В Twitter обычно публикуются статьи, включая внешние URL-адреса и заголовок, где пользователи могут получить доступ к статье и продемонстрировать свое удовольствие, поставив лайк или ретвит оригинальной публикации.

Medium показывает полный текст с тегами (чтобы классифицировать статью) и хлопками (подобно ругательствам в Twitter), чтобы показать, насколько пользователи ценят содержимое. Соотношение между этими двумя платформами может принести нам ценную информацию.

Проект

Проблема, которую я определил, заключалась в задаче классификации с использованием контролируемого обучения: Спрогнозируйте количество лайков и ретвитов, которые получает статья на основе названия.

Соотношение количества лайков и ретвитов из Twitter со статьей Medium – это попытка выделить влияние количества охваченных читателей и количества хлопов Medium. Потому что чем больше статьей распространяют на разных платформах, тем больше читателей она охватит и тем больше средних аплодисментов она (вероятно) получит.

Используя только статистику Twitter, мы ожидаем, что сначала статьи охватили почти одинаковое количество читателей (эти читатели являются последователями аккаунта freeCodeCamp в Twitter). Таким образом, их производительность и взаимодействие будут ограничены характеристиками твита, например, названием статьи. И это именно то, что мы хотим измерить.

Я выбрал учетную запись freeCodeCamp для этого проекта, поскольку идея заключалась в том, чтобы ограничить область тематики статей и лучше предусмотреть ответ в определенном поле. Одно и то же название может хорошо работать в одной категории (например, технологии), но не обязательно в другой (например, кулинария). Кроме того, эта учетная запись публикует название оригинальной статьи и URL-адреса Medium как содержимое твита.

Как выглядят данные?

Первым шагом этого проекта было получение информации из Twitter и Medium, а затем ее соотнесение. Набор данных можно найти здесь и содержит 711 точек данных. Вот как выглядит набор данных:

Анализ и обучение с данными

Проанализировав набор данных и построив некие графики, я отыскал увлекательную информацию о нем. Для этих анализов, выбросы были удалены, и я просто рассмотрел 25% лучших результатов для каждой функции (ретвит, лайк и хлопок).

Давайте посмотрим, что говорят цифры для статей freeCodeCamp, написанных на Medium и опубликованных в Twitter.

Что такое хорошая длина заголовка?

1*Mm7zCNram85z-qmQ2PYGgA
Выполнение длины заголовка

Написание заголовков, имеющих длину больше 50 и менее 110 символов помогает увеличить шансы на успешную статью.

Какое количество слов в заголовке?

1*fQ1kXH82jeikkfUtsl7baA
Выполнение количества слов

Наиболее эффективное количество слов в названии 9 к 17. Чтобы оптимизировать количество ретвитов и лайков, попробуйте от 9 до 18 слов, а для хлопов от 7 до 17 слов.

Какие категории лучше всего обозначать?

1*NNmbj8LjKK4Mj1eBvRD2wQ
1*spIxtLO9qD042AP-XFiicA
1*WSluJ1QtQNwukYnW60TU1A

Программирование, техн, Технология, JavaScript и Веб-разработка это категории, которые вы должны учитывать, обозначая тегами свою следующую статью. Они появляются для всех трех функций в качестве хорошего показателя.

Какие слова лучше использовать?

1*f1vJmkiXf0Nlxc9nCU0Vrw
1*vKj2TVnOSgLHWuv3WiAZUA
1*Y4PqnyR2dF4da5WWKuqS1g

В этом лексическом анализе вы заметите, что некоторые слова привлекают гораздо больше внимания в сообществе freeCodeCamp, чем другие. Если намерение состоит в том, чтобы статьи расширились в цифрах, разговор о JavaScript, React или CSS повысит оценку. Использование слов «обучаться» или «руководство» для описания также увеличит вероятность.

Использование машинного обучения

В ПОРЯДКЕ! Просмотрев данные и извлекая из них некоторую информацию, цель заключалась в том, чтобы создать модель машинного обучения, прогнозирующую количество ретвитов, лайков и хлопаний на основе названия статьи.

Прогнозирование количества ретвитов, лайков и лоскутов статьи можно рассматривать как проблему классификации, и это общая задача машинного обучения (ML). Но для этого нам нужно использовать исходные данные в качестве дискретных значений (диапазон чисел). Входными будут название статей с каждым словом как лексема (t1, t2, t3, …tn), длина заглавия и количество слов в названии.

Диапазон наших функций:

  • Ретвиты: 0-10, 10-30, 30+
  • Лайки: 0–25, 25–60, 60+
  • Поплески: 0–50, 50–400, 400+

И, наконец, после предварительной обработки нашего набора данных и оценки некоторых моделей (все описано здесь полностью), мы сделали вывод, что модель MultinomialNB работала лучше для ретвитов с точностью 60,6%. Логистическая регрессия достигла 55,3% для лайков и 49% для шлепков.

В качестве эксперимента для этой статьи я провел прогноз названия этой статьи, и модель предусмотрела, что:

Он будет иметь 10-30 ретвитов и 25-60 избранных в Twitter и более 400 аплодисментов на Medium.

Как это предсказание? ?

Следи за мной если вы хотите читать больше моих статей ? И если вам понравилась эта статья, обязательно поставьте мне лайк, дайте мне много аплодисментов – значит весь мир для писателя.

Флавио Х. де Фрейтас является предпринимателем, инженером, любителем технологий, мечтателем и путешественником. Работал как технический директор в Бразилия, Силиконовая долина и Европа.

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *