Парсинг данных о сотрудниках компании на LinkedIn с использованием CrossLinked в Python.
Table Of Content
- **Шаг 1: Установка**
- GitHub - m8sec/CrossLinked: Инструмент для перечисления LinkedIn, который использует парсинг поисковых систем для сбора действительных имен сотрудников из...
- **1. Шаги по установке CrossLinked**
- **1. Установите CrossLinked с помощью pip:**
- 2. **Установка путем клонирования репозитория CrossLinked**
- Используя командную строку
- Используя Powershell
- Шаг 2 Получение данных:
- Следующий шаг:
В этой статье вы узнаете, как получить данные о сотрудниках компании на LinkedIn и сохранить их в файл CSV. LinkedIn имеет строгую политику в отношении парсинга данных, вы можете ознакомиться с ней на странице конфиденциальности и политики LinkedIn. Этот блог предназначен только для образовательных целей.
Следуйте нижеуказанным шагам для парсинга сотрудников компании с использованием CrossLinked.
Шаг 1: Установка
Первый шаг - установка пакета CrossLinked. Мы можем установить его с помощью pip или клонировать репозиторий, а затем установить его. Я расскажу вам об обоих способах.
Ссылка на CrossLinked GitHub
GitHub - m8sec/CrossLinked: Инструмент для перечисления LinkedIn, который использует парсинг поисковых систем для сбора действительных имен сотрудников из...
github.com
1. Шаги по установке CrossLinked
1. Установите CrossLinked с помощью pip:
Для установки пакета вы можете создать новую среду Python или использовать старую, в которую вы хотите установить.
Если вы не хотите создавать виртуальную среду, вы можете установить его глобально.
Я не рекомендую использовать это, потому что в некоторых случаях оно может работать неправильно. Если вы хотите установить его с помощью pip install, то можете следовать документации на странице CrossLinked в GitHub.
Я хочу, чтобы вы следовали второму шагу, который заключается в клонировании репозитория, а затем его установке. Поскольку он будет установлен с последним кодом из репозитория CrossLinked, код, размещенный на PyPi, может быть устаревшим. Это будет работать нормально и создаст csv-файл в вашей папке, из которой вы будете его запускать.
pip3 install crosslinked
2. Установка путем клонирования репозитория CrossLinked
Прежде всего, создайте отдельное виртуальное окружение для CrossLinked, так как нам также нужно установить зависимости. Для этого лучше всего использовать отдельное виртуальное окружение.
Вы можете создать виртуальное окружение с помощью следующей команды в нужном месте.
python3 -m venv /путь/к/новому/виртуальному/окружению
После создания виртуального окружения активируйте его с помощью этой команды
# Используя командную строку
путь\к\виртуальному\окружению\Scripts\activate.bat
# Используя Powershell
путь\к\виртуальному\окружению\Scripts\Activate.ps1
После активации окружения создайте новую папку в нужном месте с помощью той же командной строки и перейдите в эту папку. Следуйте приведенному ниже снимку экрана для помощи.
На приведенном выше снимке экрана вы можете видеть, что сначала я создал виртуальное окружение на рабочем столе, а затем активировал его. Вы можете видеть имя виртуального окружения перед путем пользователя, это означает, что наше виртуальное окружение активировано.
После этого я создал новую папку на рабочем столе, а затем перешел в эту папку и склонировал репозиторий.
После клонирования репозитория перейдите в папку CrossLinked, которую вы только что склонировали, а затем установите зависимости для CrossLinked с помощью следующей команды
pip install -r requirements.txt
Если у вас возникнут проблемы, вы можете следовать приведенным ниже снимкам экрана.
На приведенном выше снимке экрана вы можете видеть, что наши зависимости успешно установлены.
Теперь перейдем к основной части - установке CrossLinked. Вы можете установить его с помощью следующей команды. Для этого вам нужно находиться в папке CrossLinked, которая была создана после клонирования репозитория.
python3 setup.py install
CrossLinked успешно установлен с последним кодом с GitHub. Теперь перейдем к реальному шагу - получению данных.
Шаг 2 Получение данных:
Теперь давайте получим данные, просто запустив команду из командной строки и сгенерируем csv-файл.
Команда выглядит так:
python3 crosslinked.py -f '{@domain.com">first}.{last}@domain.com' название_компании
Здесь вы можете передать домен компании, который является веб-сайтом, или, для лучших результатов, вы можете передать название компании. Название должно быть таким же, как на LinkedIn.
Здесь вы можете видеть, что я запустил его для Google, и я получил 414 собранных имен, что не все, но более чем достаточно, чтобы получить некоторую информацию об этих пользователях. CSV-файл также будет сгенерирован в вашей папке. Имя файла будет names.csv, так как это имя по умолчанию от разработчиков crosslinked.
Вы можете просмотреть этот CSV-файл в любом просмотрщике CSV. Данные будут выглядеть так.
Следующий шаг:
После этого вы можете парсить информацию из отдельных профилей, используя ссылки на профили из CSV-файла. Для этого дождитесь следующего сообщения.
Надеюсь, вам понравился контент, пожалуйста, подпишитесь и поставьте лайк.