Парсинг текстов песен со всего мира
Парсинг веб-сайтов - это техника извлечения данных с веб-сайта. В этой статье я покажу вам, как я парсил тексты песен с веб-сайта. Эта статья предназначена только для обучения, делайте это на свой страх и риск.
Когда я узнал о генерации текста с использованием глубокого обучения, я захотел сгенерировать текст, который звучит поэтично, как у музыканта.
Для этого мне нужны данные для создания модели.
Где я могу их получить?
Twitter - первый источник данных, который приходит мне в голову, потому что его легко получить и он имеет огромный источник данных.
И где еще я могу получить больше данных?
Я нашел этот сайт, AZLyrics.com.
На этом сайте есть огромное количество текстов песен со всего мира. Я могу найти песни конкретного музыканта на этом сайте.
Поэтому я попытался создать парсер для извлечения текстов песен с этого сайта.
Я парсил его с помощью Python 3, Selenium, BeautifulSoup. Ниже приведен мой код парсера.
Измените имя музыканта в строке 53, чтобы изменить поиск. Вы получите все песни этого музыканта.
В этих кодах я пытаюсь скачать все песни певца по имени "fiersabesari", известного музыканта из Индонезии.
В каждой песне будет задержка в 5 секунд. Вы можете изменить время задержки в строке 46. Я использую задержку, потому что веб-сайт обнаружит наш парсер как робота и перенаправит нас на страницу CAPTCHA.
Для каждой полученной песни она будет сохранена в строке одного CSV-файла с именем musician_azlyrics.csv.
Не стесняйтесь редактировать и использовать его, но делайте это на свой страх и риск.
Спасибо.