Edit: Just realized you weren’t using BeautifulSoup (or any other html parser). When scraping webpages, using string manipulation is just asking for trouble when you could just parse the HTML and use it. Check it out: Try to incorporate it in your workflow. It will help you immensely.

def scrape_table(table: Tag) -> list: rows = [] for row in table.find_all('tr'): cells = [cell.text.strip() for cell in row.find_all('td')] rows.append(cells) return rows 
  1. You don’t have to bring out the big guns like Selenium, when requests with a few headers suffices. Most websites set up a basic barrier that blocks requests without User-Agent header. Here adding that allows us to scrape the page just fine. And not having to launch a browser speeds up the process quite a bit.
  2. If you have a list of Selenium python parse table pairs, you can use dict function to package them into a dictionary. It works for this page, because all tables rows only have a stat name and a number.

Here I’ve purposefully duplicated some code but you can easily refactor table search via title into a find_table_by_title function, for instance.

import requests from bs4 import BeautifulSoup, Tag def scrape_table(table: Tag) -> list: rows = [] for row in table.find_all('tr'): cells = [cell.text.strip() for cell in row.find_all('td')] rows.append(cells) return rows def scrape_technical(soup: BeautifulSoup) -> dict: # find table by column title col_title_el = soup.find('h3', text='TECHNICAL') # go up the parents until we find one that # contains both column title and the table, but separate for all columns. # .panel seems to fit our criteria panel_el = col_title_el.find_parent(class_='panel') # now we can find the table table_el = panel_el.find('table') rows = scrape_table(table_el) return dict(rows) def scrape_mental(soup: BeautifulSoup) -> dict: col_title_el = soup.find('h3', text='MENTAL') panel_el = col_title_el.find_parent(class_='panel') table_el = panel_el.find('table') rows = scrape_table(table_el) return dict(rows) def scrape_physical(soup: BeautifulSoup) -> dict: col_title_el = soup.find('h3', text='TECHNICAL') panel_el = col_title_el.find_parent(class_='panel') table_el = panel_el.find('table') rows = scrape_table(table_el) return dict(rows) def scrape_profile_page(url) -> dict: res = requests.get( url=url, headers= < 'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:68.0) Gecko/20100101 Firefox/68.0' >) res.raise_for_status() soup: BeautifulSoup = BeautifulSoup(res.text, 'html.parser') technical = scrape_technical(soup) mental = scrape_mental(soup) physical = scrape_physical(soup) return < 'technical': technical, 'mental': mental, 'physical': physical, >if __name__ == "__main__": stats = scrape_profile_page('') from pprint import pprint pprint(stats) 

Обработка html таблиц с Python и Selenium

Здравствуйте! В сегодняшней статье мы рассмотрим как распарсить HTML таблицу при помощи Python и Selenium webdriver. И прежде всего создадим html файл с примером таблицы.

A basic HTML table

Язык Рейтинг
Python 10
JavaScript 6

Если все сделано правильно, то в браузере должна появиться таблица.

Далее скачиваем selenium web driver для Firefox. По адресу Называется он geckodriver. Необходимо скачать архив и распаковать его.

# Импортируем модули драйвера
import sys
from selenium import webdriver
from import By
import time

# В экземпляре класса передаем путь к exe файлу вебдрайвера

# ссылка на html таблицу,
# впереди обязательно прописываем file:///
link2 = «file:///C:/Users/УЗИ/Desktop/Таблица.html»

# открываем ссылку в браузере

# находим количество строк в таблице
rows = len(driver.find_elements(by=By.XPATH, value = ‘/html/body/table/tbody/tr’))
# подсчет количества столбцов
cols = len(driver.find_elements(by=By.XPATH, value = ‘/html/body/table/tbody/tr[1]/td’))

# итерация по строкам и столбцам таблицы
for r in range(2, rows+1):
for c in range(1, cols+1):
value = driver.find_element(by=By.XPATH, value = ‘/html/body/table/tbody/tr[‘+str(r)+’]/td[‘+str(c)+’]’).text
print(value, end = ‘ \n’)
# обязательно прописываем выход из вебдрайвера

В нашем примере используются локаторы типа /html/body/table/tbody/tr. Для его получения, необходимо сперва зайти в инструменты разработчика, выбрать элемент из ячейки таблицы и правой кнопкой мыши скопировать XPATH.

По ним вебдрайвер находит искомые элементы. Метод find_elements находит все элементы с данным локатором и возвращает список. Далее при помощи метода len вычисляется длина списка.

Для парсинга таблицы, вычисленные значения , передаются в цикл for, где они подставляются в локатор следующим образом tr[‘+str(r)+’]/td[‘+str(c)+’]. Методом text получаем текст содержащийся по данной ячейке таблицы.

Таким образом, последовательно, можно пройтись по достаточно крупной таблице с какого-либо сайта.

Создано 22.11.2022 12:41:13

    Оцените статью