Как легко получить информацию на веб-сайтах с помощью стандартной библиотеки и Node.js

1656581417 kak legko poluchit informacziyu na veb sajtah s pomoshhyu standartnoj biblioteki

Автор: Janeth Ledezma

Веб-скребок – это инструмент, который позволяет выбирать и преобразовывать неструктурированные данные веб-сайта в структурированную базу данных. Так где бы понадобился веб-скребок? Я перечислил мои любимые варианты использования, чтобы вы были в восторге от запуска собственного!

sjGtkAW7bu3T6pLz1Vv4oXLwUmpk8IZUiObt
Этот вопрос на Quora побудил меня создать свой веб-скребок.
  • Сохраняйте списки недвижимости — компании используют веб-скрейпинг для сбора уже перечисленных объектов
  • Собирайте отзывы о продуктах/продуктах с веб-сайтов розничных продавцов или производителей, чтобы отображать их на своем сайте, предоставьте характеристики/сравнение цены
  • Сохраняйте новостные веб-сайты, чтобы применить специальный анализ и курацию (ручную или автоматическую), предоставьте вашей аудитории лучше нацеленные новости
  • Сбор электронных адресов для создания потенциальных клиентов

Вы можете прочитать другие удобные случаи использования веб-скребка здесь.

Теперь начнем! Как простой пример – мы очистим первую страницу Hacker News, чтобы получить заголовки ссылок.

Если вы еще не знакомы со стандартной библиотекой, вам предстоит удовольствие! Standard Library — это платформа для разработки и публикации API, которая может помочь вам создавать и передавать код в рекордно короткие сроки с помощью редактора API в браузере — Code on Standard Library.

Шаг первый: войдите в код в стандартной библиотеке

Первым шагом является переход и создание бесплатной учетной записи. Code on Standard Library – это онлайн-редактор API, созданный командой Standard Library – встроенная среда разработки для быстрого создания API, веб-хуков и задач автоматизации рабочего процесса.

Щелкните в нижнем левом углу (войти). Если у вас есть аккаунт Стандартной библиотеки, нажмите, Уже зарегистрированы, и войдите с помощью учетных данных по стандартной библиотеке. Появится модальное окно с предложением заявить о пространстве имен (это ваше имя пользователя). Введите свою электронную почту и выберите пароль.

После создания аккаунта появится другой модуль со списком планов подписки. Бесплатная аккаунт — это все, что вам нужно, чтобы начать работу, но вы можете прочитать больше о ценовых пакетах Standard Library здесь.

После нажатия Подпишитесь + зарабатывайте кредиты, вы должны увидеть всплывающее сообщение с подтверждением.

Нажмите Продолжайте вернуться на целевую страницу.

Шаг второй: выберите исходный код Web Scraper

Выберите API исходного кода кнопку. Исходные коды стандартной библиотеки предназначены для оптимизации создания разных типов проектов. Исходные коды придают значение по умолчанию для таких вещей, как шаблонный код и настройки каталога, чтобы вы могли непосредственно перейти к разработке и внедрению более сложной функциональности.

Вы должны просмотреть список опубликованных исходных кодов. Прокрутите вниз и выберите @nemo/web -scraper. Введите нужное имя для API и нажмите хорошо (или нажмите Enter)

Затем вы увидите код вашей конечной точки в разделе: functions/__main__.js

fxvrAQ16nO2vIJyREwOXiFJjiJFiboO2JW5V

С правой стороны вы увидите поле параметров.

В URL необходимо тип параметра:

https://news.ycombinator.com/

В запросах введите:

[[".storylink", "text"]]

Выберите зеленый «Беги” кнопка.

Через несколько секунд у вас должен появиться список заголовков ссылок на главной странице Hacker News под Результаты См. раздел Кодекса о стандартной библиотеке. Вы заметите портал документации — скопируйте и вставьте URL-адрес документации в новую вкладку в своем браузере, чтобы увидеть информацию о своем API в стандартной библиотеке.

FWTfuTNbvtcxKG0f7g14zuDLZBsYAkvfEuKN

Как это работает?

Веб-скребок делает простой запрос GET к URL-адресу, выполняет серию запросов на полученной странице и возвращает ее вам. Он использует мощный процессор cheerio DOM (объектная модель документа), что позволяет использовать CSS-селекторы для получения данных со страницы! Селекторы CSS – это шаблоны, которые используются для выбора элемента(ов), который вы хотите организовать.

Как делать запросы с помощью селекторов CSS

Веб-страницы написаны языками разметки, такими как HTML. Элемент HTML является одним из компонентов HTML-документа или веб-страницы. Элементы определяют способ отображения информации для человеческого глаза в браузере, например изображения, мультимедиа, текст, таблицы стилей, скрипты и т.д.

Для этого примера мы использовали селектор «.class» (class = «.storylink»), чтобы получить заголовки всех гиперссылок из всех элементов на первой странице Hacker News.

Если вам интересно, как найти элементы, которые составляют веб-сайт, позвольте мне показать вам!

Запустите Google Chrome и введите наш URL-адрес Hacker News https://news.ycombinator.com/. Затем щелкните правой кнопкой мыши название любой статьи и выберите «осматривать.” Это откроет веб-консоль в Google Chrome. Или вы можете использовать командная клавиша (⌘) + клавиша опций (⌥ ) + клавиша J.

aI2tVsJLANFpuOdChy0O6gZHFN1HBe4Am4gF
Щелкните правой кнопкой мыши и выберите Проверить

Справа от экрана откроется консоль веб-разработчика. Обратите внимание, что если вы выбрали название ссылки, раздел консоли также будет выделен. Выделенный элемент имеет «класс», определенный как «историческая ссылка». И теперь вы знаете, как найти названия элементов на любом сайте!

b9U1cj2dENdmS6zTP3jrYIkdfngZm33Zh10Y

Если вы хотите спросить разные метаданные в Hacker News, наведите на них курсор. Ниже вы можете увидеть, как я нашел .class selector = “sitestr” для запроса URL ссылки, наведя курсор мыши на этот элемент в Hacker News.

Ntst2lyUgnwM93vP819Xi0VDsrKNuR7IPi2W
rFtJJhAOLDauqHKw2565vXMGI4OGPxZ-6AKt

Вот и все, и спасибо!

Спасибо, что прочли! Я хотел бы, чтобы ты комментарий здесь, отправьте мне электронную почту по адресу Janeth [at] stdlib [dot] com, или следите за стандартной библиотекой в ​​Twitter, @StdLibHQ . Дайте мне знать, если вы создали что-то увлекательное, что бы вы хотели, чтобы команда Standard Library представила или поделилась – я буду рад помочь!

Джанет Ледезма – защитник разработчиков стандартной библиотеки и университета Беркли – медведи! ? Когда она не учит арабский язык или не занимается спортом, вы можете увидеть, как он ездит на своем CBR500R. ?? Следите за ее путешествием с помощью Стандартной библиотеки на Twitter @mss_ledezma.

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *