Задачи, Статьи, Недельный Python Дайджест, FAQ, Курсы по Python, Видео-уроки, Скринкасты
PyNSK
проект про Python
Просмотр записей с тегом парсинг
Пишем web-проекты: исправляем битый HTML с помощью Tidy
Верстальщик забыл закрыть таблицу или body. Еще бывает что вставляют HTML из Word, а там тааккккооооой код.
Извлечение информации: парсинг больших объемов данных
В этом видео Александр Сибиряков расскажет о фреймворке frontera, который позволяет это сделать.
Извлечение информации: XPath - язык для парсинга
Но не спешите убегать, концепция XPath настолько получилась удачной что ее применяют при парсинге HTML
Извлечение информации: lxml - парсим XML и HTML
Много где можно найти что ее называют "быстрой". Для обоснования этого прилагательного прошу ознакомиться со страницей - http://lxml.de/performance.html
Извлечение информации: grab - фреймворк для веб-парсинга
Её основные функции:
Извлечение информации: парсинг дат/времени
Одна из проблем, с которой сталкиваются разработчики - как парсить даты. Даты можно написать 100 и одним способом: tomorrow, а еще 4/4/80 или March 5th, 1980. И какой код писать, чтобы понять эти даты?
Парсинг и Python: mechanize
Для сбора данных с Web-страниц в Python существует библиотека mechanize, автоматизирующая взаимодействие с Web-сайтами. Часто используемая совместно с ней библиотека Beautiful Soup помогает понять тот «почти-HTML» код, который обычно находится на Web-сайтах.
Python и интересный парсинг сайтов
Излечение информации со страниц может быть интересным. Рекомендуем к просмотру видео !embed
Парсинг с помощью asyncio
Для задач парсинга существует великое разнообразие инструментов.