Парсинг будущих гаджетов Дораэмона
Table Of Content
- Дораэмон - робот 22-го века, который был отправлен Сэваси Ноби. Сэваси Ноби отправил Дораэмона, чтобы помочь своему неуклюжему дедушке Нобите, который обременил своих потомков долгами из-за своих плохих решений.
- DeaVenditama/doraemon-fandom-scraper
- Внесите свой вклад в разработку DeaVenditama/doraemon-fandom-scraper, создав учетную запись на GitHub.
Дораэмон - робот 22-го века, который был отправлен Сэваси Ноби. Сэваси Ноби отправил Дораэмона, чтобы помочь своему неуклюжему дедушке Нобите, который обременил своих потомков долгами из-за своих плохих решений.
Знаете ли вы, сколько гаджетов у Дораэмона?
По некоторым статьям, у Дораэмона было около 4500 гаджетов в его "Волшебном кармане".
Меня интересуют его гаджеты, поэтому я попытался найти список всех гаджетов Дораэмона. Я не смог найти полную базу данных, но нашел вики-сайт Дораэмона, который предоставляет информацию о сериях, гаджетах, персонажах и т. д.
На основе этого сайта там перечислено 658 гаджетов, которые описаны достаточно подробно, лучше, чем ничего.
Я хочу провести некоторый "анализ" гаджетов Дораэмона позже. Поэтому я решил спарсить все данные о гаджетах на этом сайте для дальнейшего использования.
Когда я делаю парсинг, я всегда использую Python3 в качестве языка программирования, а Selenium с Beautifulsoup в качестве библиотеки, чтобы помочь мне в выполнении задач парсинга.
Сайт Doraemon Fandom дает мне список гаджетов и подробности о гаджетах, если я нажимаю на название гаджета.
Итак, шаги, которые я использую для парсинга этого сайта, следующие:
Вот полный код моего парсера
Selenium используется для навигации и эмуляции браузера, чтобы я мог получить все страницы, которые я хочу спарсить.
BeautifulSoup используется для парсинга элементов на веб-страницах.
Класс Database - это мой собственный класс, который я использую для сохранения базы данных. Вы можете скачать database.py, который содержит этот класс, по следующей ссылке на GitHub.
DeaVenditama/doraemon-fandom-scraper
Внесите свой вклад в разработку DeaVenditama/doraemon-fandom-scraper, создав учетную запись на GitHub.
github.com
Я использую MySQL в качестве базы данных, и это моя структура таблицы, которую я использую для сохранения данных, я назвал ее gadget.
Настройте конфигурацию в файле config.py, изменив хост, пользователя, пароль и имя базы данных в соответствии с вашей локальной машиной.
db = dict(
host="localhost",
user="root",
passwd="",
database="doraemon"
)
Для запуска парсера выполните следующую команду:
python3 doraemon.py
Selenium будет эмулировать Chrome и открывать веб-сайт Doraemon fandom. Позвольте ему открыться, и парсер начнет работать, браузер Chrome будет закрыт после того, как парсер закончит сбор всех гаджетов.
Вот список из 658 гаджетов, которые были загружены в мою базу данных. Если вы посмотрите, я получаю всю детальную информацию, включая HTML, я делаю это, потому что в детальных страницах нет постоянной структуры.
Позже мне придется выполнить некоторую очистку текста в столбце с деталями, чтобы разделить описание, использование, пользователя и внешний вид гаджета.
Спасибо