Обновленный парсинг профиля LinkedIn с использованием Python (проверено в апреле 2021)
Table Of Content
Этот метод был проверен в последний раз в апреле 2021 года. Эта статья направлена на обновление статьи https://medium.com/@gerrysabar/scraping-linkedin-profile-using-python-selenium-88cb64888cf, которая больше не работает сегодня.
Рабочий процесс для парсинга профиля выглядит следующим образом:
Хорошо, теперь давайте создадим каталог для нашего рабочего пространства:
$ mkdir linkedin
Перейдите в только что созданный каталог, затем создайте виртуальное окружение Python:
$ python3 -m venv venv
Активируйте виртуальное окружение:
source venv/bin/activate
Нам нужно установить необходимые библиотеки для работы в нашем виртуальном окружении Python:
$ pip install selenium
$ pip install requests
$ pip install beautifulsoup4
Вам также нужно установить chromedriver, который будет использоваться для имитации реального пользователя, работающего в браузере Chrome.
Установка Chromedriver для Ubuntu:
$ sudo apt-get update
$ sudo apt-get install -y unzip xvfb libxi6 libgconf-2-4
$ sudo apt-get install default-jdk
- Установка Google Chrome
$ sudo curl -sS -o - https://dl-ssl.google.com/linux/linux_signing_key.pub | apt-key add
sudo echo "deb [arch=amd64] http://dl.google.com/linux/chrome/deb/ stable main" >> /etc/apt/sources.list.d/google-chrome.list$ sudo apt-get -y update$ sudo apt-get -y install google-chrome-stable
- Установка Chromedriver
$ wget [https://chromedriver.storage.googleapis.com/2.41/chromedriver_linux64.zip](https://chromedriver.storage.googleapis.com/2.41/chromedriver_linux64.zip)
$ unzip chromedriver_linux64.zip
- Переместим chromedriver в другое место, чтобы сделать его более организованным
$ sudo mv chromedriver /usr/bin/chromedriver$ sudo chmod +x /usr/bin/chromedriver
Примечание: если вы используете систему Windows или Mac, вы можете найти информацию о том, как установить chromedriver, и запомнить, где находится ваш chromedriver (в этой статье он находится в /user/bin/chromedriver), потому что нам понадобится путь позже в нашем приложении Python.
Теперь мы переходим к интересной части, давайте создадим файл python с именем linkedin.py с следующим кодом (не забудьте изменить учетные данные):
В приведенном выше скрипте будет перечислено около 10 профилей LinkedIn для разработчика Python, работающего в Сан-Франциско.
Заключение
Этот подход работает до последнего тестирования 11 апреля 2021 года. Как вы могли заметить, сложность парсинга состоит в том, что элементы веб-сайта могут меняться изо дня в день.