{NLP.0} Парсинг английских данных в сети

Привет. В этой статье представлен способ парсинга статей сети CNN (Cable News Network) с использованием ее поискового API.

Пожалуйста, используйте Python 3.x.

import requests
import json
sess = requests.Session()
url = "https://search.api.cnn.io/content?sort=newest&size=100&from="
txt_list = []; txt_append = txt_list.appendnum_articles = 1000 # это число зависитот i in range(1, num_articles, 100):
    source = sess.get(url+str(i)).json()
    source = ["result"]
    for s in source:
        txt_append(s['body'])txt_list = [t.replace("\\","") for t in txt_list if t is not None]

Вот и все. Объект-список txt_list содержит текстовые данные, которые вам нужны.