Github парсер на python

Saved searches

Use saved searches to filter your results more quickly

You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session.

Parsing and analysis general information on the Cian website

homgorn/python-parser-cian

This commit does not belong to any branch on this repository, and may belong to a fork outside of the repository.

Name already in use

A tag already exists with the provided branch name. Many Git commands accept both tag and branch names, so creating this branch may cause unexpected behavior. Are you sure you want to create this branch?

Sign In Required

Please sign in to use Codespaces.

Launching GitHub Desktop

If nothing happens, download GitHub Desktop and try again.

Launching GitHub Desktop

If nothing happens, download GitHub Desktop and try again.

Launching Xcode

If nothing happens, download Xcode and try again.

Launching Visual Studio Code

Your codespace will open once ready.

There was a problem preparing your codespace, please try again.

Latest commit

Git stats

Files

Failed to load latest commit information.

README.md

Сбор и анализ данных по аренде недвижимости

В данной работе собираются и анализируются данные по долгосрочной аренде квартир с сервиса для поиска недвижимости Циан на примере квартир в городе Казань.

Признаки, получаемые в ходе парсинга.

  • Link — ссылка на это объявление
  • District — район, в которой расположена квартира
  • Price_per_month — стоимость аренды в месяц
  • Commissions — коммиссиия, взымаемая в ходе первичной аренды
  • kitchen_meters — количество квадратных метров кухни
  • How_many_rooms — количество комнат, от 1 до 4х
  • Floor — этаж, на котором расположена квартира
  • Square_meters — общее количество квадратных метров
  • Street — улица, в которой расположена квартира
  • Author — автор объявления
  • All_floors — общее количество этажей в здании, на котором расположена квартира
  • Year_of_construction — год постройки здания, на котором расположена квартира
Читайте также:  How to find java on linux

В некоторых объявлениях отсутсвуют данные по некоторым признакам (год постройки, жилые кв метры, кв метры кухни). В этом случае проставляется значение -1.

В небольшом первичном исследовании рассматриваются следующие вопросы:

Распределение авторов по количеству объявлений
Количество авторов, имеющих по 1, 2, 3, 4, 5-10, 11-20, 21-40 и больше 40 объявлений
В каких районах больше всего объявлений
Структура цен аренды за кв.метр по районам
Распределение цен аренды за квадратный метр в среднем по Казани
Распределение объявлений по годам постройки здания
Распределение цен в трёх категориях: до 1975х, между 1975 и 2010, и после
Количество объявлений по категории года постройки здания
Структура цен аренды за кв.метр в разных категориях даты постройки здания
Средняя цена аренды квартиры за кв.метр по годам постройки здания
Средняя этажность квартиры по годам постройки здания
Распределение цен в трёх категориях: до 1975х, между 1975 и 2010, и после
Распределение цен за кв. метр в зависимости от количества комнат в разных районах
Распределение цен за кв. метр в зависимости от количества комнат в среднем во всех районов
Распределение цен аренды за кв. метр в зависимости от районов для всех годов постройки
Количество объявлений с определённой этажностью
Распределение цен за кв. метр в зависимости от этажности квартиры

Анализируемые данные актуальны на 20.03.2021

В проекте используется Python 3, также необходимы дополнительные библиотеки, такие как requests, beautifulsoup4, transliterate, pymorphy2 и т.д.

Для их установки используйте команду:

pip3 install -r requirements.txt 

При запуске парсера parser-cian.py в качестве настройки можно ввести следующие аргументы:

  • city_id — идентификатор города (из cities.csv)
  • page_start — начальная страница, с которого начинается сбор данных
  • page_end — конечная страница, с которого заканчивается сбор данных
  • file_name — название файла, в котором будут записаны собранные данные

По умолчанию, эти аргументы имеют значения:

 python parser-cian.py --city_id=4599 --file_name="data_omsk" 

В результате работы, появится файл data_omsk.csv, в котором будут записаны данные по городу Омск

Данный файл предназначен для сбора и идентификации названия городов числам, которые необходимы для парсинга. С его помощью был образован файл cities.csv

About

Parsing and analysis general information on the Cian website

Источник

Saved searches

Use saved searches to filter your results more quickly

You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session.

html-parser

Here are 71 public repositories matching this topic.

miso-belica / jusText

Heuristic based boilerplate removal tool

rajatomar788 / pywebcopy

Locally saves webpages to your hard disk with images, css, js & links as is.

Читайте также:  Java mixed mode windows x86

sihaelov / harser

Easy way for HTML parsing and building XPath

kata198 / AdvancedHTMLParser

Fast Indexed python HTML parser which builds a DOM node tree, providing common getElementsBy* functions for scraping, testing, modification, and formatting. Also XPath.

vincentlaucsb / pgreaper

A Python library for loading data from various formats into PostgreSQL databases.

viur-framework / html5

A Python library for HTML5 web apps in Pyodide.

yannickperrenet / bookmarkdown

✅ Parse your browser’s exported HTML bookmark file to Markdown.

Bystroushaak / pyDHTMLParser

Lightweight HTML/XML parser for quick and dirty web scraping.

Epicfisher / TouhouDiscordBot

A Work-In-Progress Discord bot based on the largely popular Touhou series by ZUN.

jedmitten / humble_catalog

A script to parse the saved Humble Bundle library HTML

karambir / ugc-colleges

Python Script to extract college names from UGC, India website.

NullpoGah / reestr

Сбор данных из реестра российского ПО с сайта https://reestr.minsvyaz.ru

haseeb-heaven / MuslimNamesGenerator

MuslimNamesGenerator is application to generate and search muslim names from ‘SearchTruth’ and ‘MuslimNames’ webserver, it uses muslim_scraper to fetch data from server and it can generate muslims names with meanings from A-Z and can search names also with provided meaning.

iamareebjamal / get_results

Python Script to download results of whole class/branch by providing attendance Excel file.

rsharifnasab / telegram_export_analyzer

this script can analyze number of telegram messages by time

enveezee / urearl

U R Earl is an abstraction of python standard libraries for extracting and returning stuff from URLs

MichaelE919 / ncaa-stats-webscraper

Python webscraping module for NCAA Basketball Stats

yogendratamang48 / parse_utils

Easy html/json parser for webscraping

AntoData / on_page_basic_SEO_checker

This project provides methods and utils to make basic checks in the SEO of an instance of a page using the URL of this page or a webdriver instance that is browsing that page at the moment

AntoData / WebScraperAllMusic

Simple example of a web scrapper using python. In this case, we ask the user using the console for the name of a band/artist and using selenium webdriver and beautifulsoup we print information about the discography of that artist/band

Improve this page

Add a description, image, and links to the html-parser topic page so that developers can more easily learn about it.

Add this topic to your repo

To associate your repository with the html-parser topic, visit your repo’s landing page and select «manage topics.»

Источник

Saved searches

Use saved searches to filter your results more quickly

You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session.

Python library for creating PEG parsers

License

pyparsing/pyparsing

This commit does not belong to any branch on this repository, and may belong to a fork outside of the repository.

Читайте также:  Css media mobile only one

Name already in use

A tag already exists with the provided branch name. Many Git commands accept both tag and branch names, so creating this branch may cause unexpected behavior. Are you sure you want to create this branch?

Sign In Required

Please sign in to use Codespaces.

Launching GitHub Desktop

If nothing happens, download GitHub Desktop and try again.

Launching GitHub Desktop

If nothing happens, download GitHub Desktop and try again.

Launching Xcode

If nothing happens, download Xcode and try again.

Launching Visual Studio Code

Your codespace will open once ready.

There was a problem preparing your codespace, please try again.

Latest commit

Git stats

Files

Failed to load latest commit information.

README.rst

PyParsing — A Python Parsing Module

The pyparsing module is an alternative approach to creating and executing simple grammars, vs. the traditional lex/yacc approach, or the use of regular expressions. The pyparsing module provides a library of classes that client code uses to construct the grammar directly in Python code.

[Since first writing this description of pyparsing in late 2003, this technique for developing parsers has become more widespread, under the name Parsing Expression Grammars — PEGs. See more information on PEGs here .]

Here is a program to parse «Hello, World!» (or any greeting of the form «salutation, addressee!» ):

from pyparsing import Word, alphas greet = Word(alphas) + "," + Word(alphas) + "!" hello = "Hello, World!" print(hello, "->", greet.parseString(hello))

The program outputs the following:

Hello, World! -> ['Hello', ',', 'World', '!']

The Python representation of the grammar is quite readable, owing to the self-explanatory class names, and the use of ‘+’, ‘|’ and ‘^’ operator definitions.

The parsed results returned from parseString() is a collection of type ParseResults , which can be accessed as a nested list, a dictionary, or an object with named attributes.

The pyparsing module handles some of the problems that are typically vexing when writing text parsers:

  • extra or missing whitespace (the above program will also handle «Hello,World!» , «Hello , World !» , etc.)
  • quoted strings
  • embedded comments

The examples directory includes a simple SQL parser, simple CORBA IDL parser, a config file parser, a chemical formula parser, and a four- function algebraic notation parser, among many others.

There are many examples in the online docstrings of the classes and methods in pyparsing. You can find them compiled into online docs. Additional documentation resources and project info are listed in the online GitHub wiki. An entire directory of examples can be found here.

MIT License. See header of the pyparsing __init__.py file.

Источник

Оцените статью