Обработка естественного языка (NLP)
{NLP.0} Парсинг английских данных в сети
Table Of Content
Привет. В этой статье представлен способ парсинга статей сети CNN (Cable News Network) с использованием ее поискового API.
Пожалуйста, используйте Python 3.x.
import requests
import json
sess = requests.Session()
url = "https://search.api.cnn.io/content?sort=newest&size=100&from="
txt_list = []; txt_append = txt_list.appendnum_articles = 1000 # это число зависитот i in range(1, num_articles, 100):
source = sess.get(url+str(i)).json()
source = ["result"]
for s in source:
txt_append(s['body'])txt_list = [t.replace("\\","") for t in txt_list if t is not None]
Вот и все. Объект-список txt_list содержит текстовые данные, которые вам нужны.