Python: Парсинг сайтов PYTHON - #4 СКАЧИВАНИЯ ФАЙЛОВ, ПАРСИНГ ДАННЫХ - видео HD
00:12:05
Обнаружено блокирование рекламы на сайте
Для существования нашего сайта необходим показ рекламы. Просим отнестись с пониманием и добавить сайт в список исключений вашей программы для блокировки рекламы (AdBlock и другие).
12n.ru 18055 роликов
669 просмотров на сайте 12n.ru
Парсинг сайтов PYTHON - #4 СКАЧИВАНИЯ ФАЙЛОВ, ПАРСИНГ ДАННЫХ - видео.
Курс PyQt5 — Разработка графических интерфейсов:pyqt5.ru/О текущем курсе:Мы разберем парсинг сайтов python, изучим модулиrequests, bs4(BeautifulSoup), fake-useragent, multiprocessing.Напишем много парсеров на питоне, научимся находить нужные нам элементына странице, разберем структуру requests запросов, научимся передаватьсвои заголовки и свои данные на сайт.В процессе прохождения курса мы напишем программу для скачивания файловс сайта, научимся передавать прокси и юзер-агенты в запрос.Наглядно рассмотрим то, как спарсить сайт используя уже изученные намиинструменты.Под конец курса мы также изучим мультипроцессинг для ускоренного парсинга.Используемые библиотеки:requests, bs4lxml, fake-useragentmultiprocessing#ПарсингСайтов #ПарсингСайтовPython #ПарсингPython
развернуть свернуть
from urllib.parse import urljoin
import requests
def zastav():
url = 'https://zastavok.net/'
r = requests.get(url).text
f = fromstring®
pagination = f.cssselect('#clsLink3 a')[-2].text_content()
onne = int(pagination)
for value in range(1, onne):
silk =('/%s' % value)
ph = urljoin(url, silk)
pr = requests.get(ph).text
pf = fromstring(pr)
for image in pf.cssselect('.short_prev'):
a = image.cssselect('img')[0]
href = a.get('src')
ij = urljoin(url, href)
ir = requests.get(ij)
out = open('zastavimg/%s' %ij.split('/')[-1], 'wb')
out.write(ir.content)
out.close()
print(ij)
def main():
zastav()
if __name__ == '__main__':
main()
мои вариант кода, вместо bf4 использовал lxml)