Использование Python для сохранения транскрипта прибыльного звонка с Motley Fool
Table Of Content
Это для тех, кто хочет получить данные о транскрипте прибыльного звонка (EC) с Motley Fool в виде обычного текста.
Содержание:
- Изучение структуры HTML (Motley Fool)
- Использование BS4 и re для поиска узлов, из которых можно получить целевые данные
- Разбор данных и сохранение в txt
Изучение структуры HTML
URL - https://www.fool.com/author/20032/?page=1
Мы хотим получить URL, встроенный в выделенные тексты.
Изучив html-код, мы видим, что ссылка находится внутри класса "list-content".
Начнем писать код
# Импорт необходимых инструментов
!pip install bs4
from bs4 import BeautifulSoup
import requests
import os
import time
import re
Создайте функцию для получения URL. Используйте time.sleep(), чтобы избежать слишком частых запросов. Для каждого URL запустите скрипт разбора, который мы сделаем позже.
Затем нам нужно знать, в каких узлах находится транскрипт. HTML говорит нам, что транскрипт - это текст тега <p>
внутри класса "article-content".
На основе результата создайте функцию для транскрипта. Мы можем использовать второй абзац, чтобы получить год / квартал / котировку акций для создания файла txt. Обратите внимание, что нам нужно протестировать правило RE для разных шаблонов текста. В этой функции мы также создаем папку для каждой акции и сохраняем в них транскрипты.
Наконец, запустите функцию file_gen и создайте файл журнала.
Вывод