- Saved searches
- Use saved searches to filter your results more quickly
- homgorn/python-parser-cian
- Name already in use
- Sign In Required
- Launching GitHub Desktop
- Launching GitHub Desktop
- Launching Xcode
- Launching Visual Studio Code
- Latest commit
- Git stats
- Files
- README.md
- About
- Saved searches
- Use saved searches to filter your results more quickly
- html-parser
- Here are 71 public repositories matching this topic.
- miso-belica / jusText
- rajatomar788 / pywebcopy
- sihaelov / harser
- kata198 / AdvancedHTMLParser
- vincentlaucsb / pgreaper
- viur-framework / html5
- yannickperrenet / bookmarkdown
- Bystroushaak / pyDHTMLParser
- Epicfisher / TouhouDiscordBot
- jedmitten / humble_catalog
- karambir / ugc-colleges
- NullpoGah / reestr
- haseeb-heaven / MuslimNamesGenerator
- iamareebjamal / get_results
- rsharifnasab / telegram_export_analyzer
- enveezee / urearl
- MichaelE919 / ncaa-stats-webscraper
- yogendratamang48 / parse_utils
- AntoData / on_page_basic_SEO_checker
- AntoData / WebScraperAllMusic
- Improve this page
- Add this topic to your repo
- Saved searches
- Use saved searches to filter your results more quickly
- License
- pyparsing/pyparsing
- Name already in use
- Sign In Required
- Launching GitHub Desktop
- Launching GitHub Desktop
- Launching Xcode
- Launching Visual Studio Code
- Latest commit
- Git stats
- Files
- README.rst
Saved searches
Use saved searches to filter your results more quickly
You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session.
Parsing and analysis general information on the Cian website
homgorn/python-parser-cian
This commit does not belong to any branch on this repository, and may belong to a fork outside of the repository.
Name already in use
A tag already exists with the provided branch name. Many Git commands accept both tag and branch names, so creating this branch may cause unexpected behavior. Are you sure you want to create this branch?
Sign In Required
Please sign in to use Codespaces.
Launching GitHub Desktop
If nothing happens, download GitHub Desktop and try again.
Launching GitHub Desktop
If nothing happens, download GitHub Desktop and try again.
Launching Xcode
If nothing happens, download Xcode and try again.
Launching Visual Studio Code
Your codespace will open once ready.
There was a problem preparing your codespace, please try again.
Latest commit
Git stats
Files
Failed to load latest commit information.
README.md
Сбор и анализ данных по аренде недвижимости
В данной работе собираются и анализируются данные по долгосрочной аренде квартир с сервиса для поиска недвижимости Циан на примере квартир в городе Казань.
Признаки, получаемые в ходе парсинга.
- Link — ссылка на это объявление
- District — район, в которой расположена квартира
- Price_per_month — стоимость аренды в месяц
- Commissions — коммиссиия, взымаемая в ходе первичной аренды
- kitchen_meters — количество квадратных метров кухни
- How_many_rooms — количество комнат, от 1 до 4х
- Floor — этаж, на котором расположена квартира
- Square_meters — общее количество квадратных метров
- Street — улица, в которой расположена квартира
- Author — автор объявления
- All_floors — общее количество этажей в здании, на котором расположена квартира
- Year_of_construction — год постройки здания, на котором расположена квартира
В некоторых объявлениях отсутсвуют данные по некоторым признакам (год постройки, жилые кв метры, кв метры кухни). В этом случае проставляется значение -1.
В небольшом первичном исследовании рассматриваются следующие вопросы:
Распределение авторов по количеству объявлений
Количество авторов, имеющих по 1, 2, 3, 4, 5-10, 11-20, 21-40 и больше 40 объявлений
В каких районах больше всего объявлений
Структура цен аренды за кв.метр по районам
Распределение цен аренды за квадратный метр в среднем по Казани
Распределение объявлений по годам постройки здания
Распределение цен в трёх категориях: до 1975х, между 1975 и 2010, и после
Количество объявлений по категории года постройки здания
Структура цен аренды за кв.метр в разных категориях даты постройки здания
Средняя цена аренды квартиры за кв.метр по годам постройки здания
Средняя этажность квартиры по годам постройки здания
Распределение цен в трёх категориях: до 1975х, между 1975 и 2010, и после
Распределение цен за кв. метр в зависимости от количества комнат в разных районах
Распределение цен за кв. метр в зависимости от количества комнат в среднем во всех районов
Распределение цен аренды за кв. метр в зависимости от районов для всех годов постройки
Количество объявлений с определённой этажностью
Распределение цен за кв. метр в зависимости от этажности квартиры
Анализируемые данные актуальны на 20.03.2021
В проекте используется Python 3, также необходимы дополнительные библиотеки, такие как requests, beautifulsoup4, transliterate, pymorphy2 и т.д.
Для их установки используйте команду:
pip3 install -r requirements.txt
При запуске парсера parser-cian.py в качестве настройки можно ввести следующие аргументы:
- city_id — идентификатор города (из cities.csv)
- page_start — начальная страница, с которого начинается сбор данных
- page_end — конечная страница, с которого заканчивается сбор данных
- file_name — название файла, в котором будут записаны собранные данные
По умолчанию, эти аргументы имеют значения:
python parser-cian.py --city_id=4599 --file_name="data_omsk"
В результате работы, появится файл data_omsk.csv, в котором будут записаны данные по городу Омск
Данный файл предназначен для сбора и идентификации названия городов числам, которые необходимы для парсинга. С его помощью был образован файл cities.csv
About
Parsing and analysis general information on the Cian website
Saved searches
Use saved searches to filter your results more quickly
You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session.
html-parser
Here are 71 public repositories matching this topic.
miso-belica / jusText
Heuristic based boilerplate removal tool
rajatomar788 / pywebcopy
Locally saves webpages to your hard disk with images, css, js & links as is.
sihaelov / harser
Easy way for HTML parsing and building XPath
kata198 / AdvancedHTMLParser
Fast Indexed python HTML parser which builds a DOM node tree, providing common getElementsBy* functions for scraping, testing, modification, and formatting. Also XPath.
vincentlaucsb / pgreaper
A Python library for loading data from various formats into PostgreSQL databases.
viur-framework / html5
A Python library for HTML5 web apps in Pyodide.
yannickperrenet / bookmarkdown
✅ Parse your browser’s exported HTML bookmark file to Markdown.
Bystroushaak / pyDHTMLParser
Lightweight HTML/XML parser for quick and dirty web scraping.
Epicfisher / TouhouDiscordBot
A Work-In-Progress Discord bot based on the largely popular Touhou series by ZUN.
jedmitten / humble_catalog
A script to parse the saved Humble Bundle library HTML
karambir / ugc-colleges
Python Script to extract college names from UGC, India website.
NullpoGah / reestr
Сбор данных из реестра российского ПО с сайта https://reestr.minsvyaz.ru
haseeb-heaven / MuslimNamesGenerator
MuslimNamesGenerator is application to generate and search muslim names from ‘SearchTruth’ and ‘MuslimNames’ webserver, it uses muslim_scraper to fetch data from server and it can generate muslims names with meanings from A-Z and can search names also with provided meaning.
iamareebjamal / get_results
Python Script to download results of whole class/branch by providing attendance Excel file.
rsharifnasab / telegram_export_analyzer
this script can analyze number of telegram messages by time
enveezee / urearl
U R Earl is an abstraction of python standard libraries for extracting and returning stuff from URLs
MichaelE919 / ncaa-stats-webscraper
Python webscraping module for NCAA Basketball Stats
yogendratamang48 / parse_utils
Easy html/json parser for webscraping
AntoData / on_page_basic_SEO_checker
This project provides methods and utils to make basic checks in the SEO of an instance of a page using the URL of this page or a webdriver instance that is browsing that page at the moment
AntoData / WebScraperAllMusic
Simple example of a web scrapper using python. In this case, we ask the user using the console for the name of a band/artist and using selenium webdriver and beautifulsoup we print information about the discography of that artist/band
Improve this page
Add a description, image, and links to the html-parser topic page so that developers can more easily learn about it.
Add this topic to your repo
To associate your repository with the html-parser topic, visit your repo’s landing page and select «manage topics.»
Saved searches
Use saved searches to filter your results more quickly
You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session.
Python library for creating PEG parsers
License
pyparsing/pyparsing
This commit does not belong to any branch on this repository, and may belong to a fork outside of the repository.
Name already in use
A tag already exists with the provided branch name. Many Git commands accept both tag and branch names, so creating this branch may cause unexpected behavior. Are you sure you want to create this branch?
Sign In Required
Please sign in to use Codespaces.
Launching GitHub Desktop
If nothing happens, download GitHub Desktop and try again.
Launching GitHub Desktop
If nothing happens, download GitHub Desktop and try again.
Launching Xcode
If nothing happens, download Xcode and try again.
Launching Visual Studio Code
Your codespace will open once ready.
There was a problem preparing your codespace, please try again.
Latest commit
Git stats
Files
Failed to load latest commit information.
README.rst
PyParsing — A Python Parsing Module
The pyparsing module is an alternative approach to creating and executing simple grammars, vs. the traditional lex/yacc approach, or the use of regular expressions. The pyparsing module provides a library of classes that client code uses to construct the grammar directly in Python code.
[Since first writing this description of pyparsing in late 2003, this technique for developing parsers has become more widespread, under the name Parsing Expression Grammars — PEGs. See more information on PEGs here .]
Here is a program to parse «Hello, World!» (or any greeting of the form «salutation, addressee!» ):
from pyparsing import Word, alphas greet = Word(alphas) + "," + Word(alphas) + "!" hello = "Hello, World!" print(hello, "->", greet.parseString(hello))
The program outputs the following:
Hello, World! -> ['Hello', ',', 'World', '!']
The Python representation of the grammar is quite readable, owing to the self-explanatory class names, and the use of ‘+’, ‘|’ and ‘^’ operator definitions.
The parsed results returned from parseString() is a collection of type ParseResults , which can be accessed as a nested list, a dictionary, or an object with named attributes.
The pyparsing module handles some of the problems that are typically vexing when writing text parsers:
- extra or missing whitespace (the above program will also handle «Hello,World!» , «Hello , World !» , etc.)
- quoted strings
- embedded comments
The examples directory includes a simple SQL parser, simple CORBA IDL parser, a config file parser, a chemical formula parser, and a four- function algebraic notation parser, among many others.
There are many examples in the online docstrings of the classes and methods in pyparsing. You can find them compiled into online docs. Additional documentation resources and project info are listed in the online GitHub wiki. An entire directory of examples can be found here.
MIT License. See header of the pyparsing __init__.py file.