Википедия
парсинг данных из дампов Википедии

Table Of Content
Это очень редкая тема, когда мне понадобилось впервые выполнить парсинг, мне потребовалось достаточно времени, чтобы сделать это, не потому что это сложно, а из-за отсутствия доступных учебников по этой теме.
Для начала вам нужно определить, какие дампы вам нужны и почему, вы можете найти дампы Википедии здесь https://dumps.wikimedia.org/ или https://dumps.wikimedia.org/enwiki/. В моем случае меня интересовали только новостные статьи, поэтому я использовал этот URL https://dumps.wikimedia.org/enwikinews/.
Весь ноутбук загружен здесь https://github.com/shainaraza/news-recommender-system/blob/master/downloading_and_parsing_wikinews.ipynb
Добро пожаловать к добавлению больше информации.
Шайна