Добывание информации из сети
Цель этого занятия – научиться с помощью питона автоматизировать добывание информации из веба1.
Коротко и просто
Для этого в питоне есть встроенный модуль urllib2.
В простейшем варианте функция urllib2.urlopen() получает на вход адрес и возвращает файловый объект, читающий страницу по этому адресу.
Например:
Этого достаточно в простейших случаях, но для того, чтобы разбираться в более сложных случаях, нужно понимать некоторые вещи, которые происходят в этот момент под капотом.
Протокол HTTP
Почти весь веб построен на протоколе HTTP (HyperText Transfer Protocol)2.