Как парсить данные с веб-сайта OLX
Table Of Content
Для исследования необходимы данные, чтобы подтвердить или опровергнуть его. Существует множество способов получить данные, но не все данные могут быть использованы для исследования. Существует множество факторов, которые должны быть учтены, чтобы эти данные можно было использовать. Один из таких факторов - это соответствие данных, обычно соответствующие данные - это данные, которые наиболее близки к источнику данных, такие как данные о компании будут актуальными, если сама компания предоставляет эти данные.
OLX - это сайт, который не является незнакомым для исследований. Потому что полученные данные являются данными, предоставленными первым лицом или источником этих данных. Получение данных с веб-сайта вручную будет очень утомительным, эта проблема породила новую профессию, которая может предоставлять данные с определенного веб-сайта в определенном объеме, эта профессия известна как веб-парсинг.
На этот раз администратор хочет представить инструмент парсинга данных с помощью пакета requests из python, который используется для парсинга данных с веб-сайта OLX. Это довольно просто, вот пошаговая инструкция:
1. Нахождение API URL и ключевых слов с веб-сайта OLX
API URL обычно находится на веб-странице, которая предоставляет дополнительные данные динамически, и есть знак параметра запроса в качестве разделителя между URL и ключевыми словами. Чтобы узнать больше, смотрите статью Как узнать API URL и его ключевые слова.
2. Определение скрипта для парсинга
url='https://www.olx.co.id/api/relevance/v2/search'
headers={
'user-agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64)...'
}
payload= {
'category': 198,
'facet_limit': 100,
'location': 2000032,
'location_facet_limit': 20,
'page': 0,
'make': 'mobil-bekas-toyota',
'platform': 'web-desktop',
'size': 1000,
'user':'1853803f4e7x4b21bd2d',
'display_date':'2022-09-01'
}
r=requests.get(url,params=payload,headers=headers)
data_json=r.json()['data']
data_list=[]
for data in data_json:
data_dict={
'location_resolved':data['locations_resolved']['SUBLOCALITY_LEVEL_1_name'],
'display_date':data['display_date'],
'title':data['title'],
'harga':data['price']['value']['raw']
}
params=data['parameters']
data_list.append(data_dict)
Во-первых, мы сохраняем URL в переменную url. Во-вторых, мы сохраняем все ключевые слова и их значения в переменную payload в виде словаря. В-третьих, мы инициализируем метод requests.get с параметром url и его payload, а затем сохраняем его в переменную r. В-четвертых, мы преобразуем данные в формат json, вызывая метод r.json. В-пятых, данные из базы данных OLX обычно хранятся в переменной data, а затем сохраняются в переменную data_json, затем мы выполняем цикл по переменной data и извлекаем необходимые данные для исследования.
Вот как можно парсить данные с веб-сайта OLX с помощью пакета requests из python, надеюсь, это будет полезно.