Парсинг таблицы Wikipedia с помощью двух строк на Python
Table Of Content
- Парсинг таблиц Wiki с использованием BeautifulSoup и Python !!
- 'Данные - новая нефть'
- Парсинг HTML-таблицы для создания матричных данных
- pandas.read_html - документация pandas 0.23.4
- io: str или file-like A URL, a file-like object, or a raw string containing HTML. Note that lxml only accepts the http…
- onelittlenightmusic/python_graphql_scraping_example
- GitHub - это место, где люди создают программное обеспечение. Более 28 миллионов людей используют GitHub для поиска, форка и внесения вклада в проекты...
- Приложение (японские ссылки)
- Использование отформатированной матрицы Pandas
- Исходный код
Вдохновлено этой статьей.
Парсинг таблиц Wiki с использованием BeautifulSoup и Python !!
'Данные - новая нефть'
medium.com
Парсинг HTML-таблицы для создания матричных данных
На этот раз я использую Pandas в качестве библиотеки для вычислений с матрицами. Просто, мы можем использовать read_html()
для парсинга. Здорово!
import pandas as pd
pd.read_html( <URL> )
pandas.read_html - документация pandas 0.23.4
io: str или file-like A URL, a file-like object, or a raw string containing HTML. Note that lxml only accepts the http…
pandas.pydata.org
Есть только один недостаток: заголовок не считывается по умолчанию, и он считывается как простая строка, например, как первая строка.
Чтобы указать, что это не просто строка, а заголовок, мы можем установить параметр следующим образом.
dfs = pd.read_html(<URL>, header=<# of row>)
Например, я спарсил таблицу городов в Японии на Wikipedia (https://en.wikipedia.org/wiki/List_of_cities_in_Japan)
WIKI_URLWIKI_UR = “[https://en.wikipedia.org/wiki/List_of_cities_in_Japan](https://en.wikipedia.org/wiki/List_of_cities_in_Japan)"
dfs = pd.read_html(WIKI_URL, header=0) # установка заголовка с номером строки 0
Вот и все. Спасибо.
onelittlenightmusic/python_graphql_scraping_example
GitHub - это место, где люди создают программное обеспечение. Более 28 миллионов людей используют GitHub для поиска, форка и внесения вклада в проекты...
github.com
Эта функция использует известный инструмент парсинга beautifulsoup4 внутри, который показан в первой ссылке.
Приложение (японские ссылки)
https://qiita.com/Azunyan1111/items/9b3d16428d2bcc7c9406
Использование отформатированной матрицы Pandas
Способы добавления строк и столбцов следующие. Используйте dataframe['имя столбца'] = значение
. http://sinhrks.hatenablog.com/entry/2014/11/12/233216
Способы удаления строк и столбцов следующие. Используйте функцию drop
. https://note.nkmk.me/python-pandas-drop/
Исходный код
https://github.com/onelittlenightmusic/python_graphql_scraping_example