Автоматизация работы с помощью парсера Github
Процесс разработки
прежде чем вы приступите к чтению, задайте себе вопрос
"После того, как вы закончили свое портфолио, вы продолжаете его обновлять, даже если у вас есть постоянная работа? Или вы забываете о нем и обновляете его только при поиске работы? Как часто вы его обновляете?"
Основываясь на собственном опыте, кажется очевидным, почему важно поддерживать свое портфолио в актуальном состоянии. Но в то же время я знаю, насколько легко отложить это, когда у вас есть стабильная работа. Вот почему стоит потратить время на поддержание свежести вашего портфолио, даже если вы не планируете искать работу в ближайшее время.
- Это показывает, что вам важна ваша работа: Портфолио дает вам личность вне вашей команды на работе. Это говорит о том, что вам не все равно и вы стремитесь совершенствовать свои навыки.
- Поддержание актуальности вашего портфолио с вашей последней работой: это простой пассивный способ сохранить открытыми ваши варианты и возможности.
- Рекрутер или клиент могут попасть на вашу страницу, увидеть, что она устарела, и уйти. Все это без вашего ведома, что они были заинтересованы в вас.
решения, которые вы можете рассмотреть?
- Установите график обновления вашего портфолио работы
- Поиск изящных решений для ручного обновления вашего портфолио здесь пригодится автоматизация
- Написание парсера для автоматического обновления вашего портфолио
Как работают веб-парсеры?
Довольно часто парсинг относится к веб-клиенту, который разбирает HTML-страницы целевого веб-сайта для извлечения форматированных данных. Это делается, когда веб-сайт не предлагает API-точку доступа для программного доступа к данным.
Веб-парсинг - это автоматический процесс извлечения данных из целевых веб-сайтов.
"У вас есть HTML-страница, содержащая некоторые данные, которые вам нужны. Вы пишете программу, которая будет получать эту веб-страницу и пытаться извлечь эти данные."
Построение парсера на JavaScript
JavaScript - гибкий язык для использования в парсере благодаря Node.js, и вы, скорее всего, будете использовать множество тех же методов, с которыми вы знакомы при работе с DOM с помощью чистого JavaScript.
В этой статье я постараюсь провести вас через мощный способ использования JavaScript для создания парсера. Мы также рассмотрим другие концепции парсинга и различные альтернативы для создания эффективного инструмента для парсинга, поэтому в целях этого поста мы создадим парсер для Github.
Вам не обязательно следовать каждому шагу, о котором я упоминаю, но я рекомендую вам понять концепцию, чтобы вы могли создать что-то свое.
Выбор библиотеки для парсинга HTML:
Для этой статьи я использую cheerio, но вы можете использовать другие библиотеки, с которыми вы наиболее знакомы.
Cheerio разбирает разметку и предоставляет API для обхода/изменения полученной структуры данных, что значительно облегчает нашу работу. Cheerio использует зависимость jQuery, если вы с ним не знакомы, не волнуйтесь, я расскажу вам все, что нужно объяснить.
Получение данных:
Получение данных - это основная концепция, которую клиенты (в нашем случае браузер) используют мы просто вызываем сервер с помощью определенного URL-адреса сервер затем отправляет данные в форме обещания, которое, когда оно будет выполнено, сгенерирует данные в некотором желаемом формате. "Вот что происходит, когда вы открываете веб-страницу, так что имейте это в виду."
Мы используем axios, чтобы сделать запрос на страницу GitHub это вернет обещание, которое, когда оно будет выполнено, даст нам некоторые данные вместе с ключом {data}
это будет наш HTML, который мы собираемся анализировать с помощью cheerio.
// этот пост все еще находится в процессе создания...