Добывание информации из сети
Цель этого занятия – научиться с помощью питона автоматизировать добывание информации из веба1.
Коротко и просто
Для этого в питоне есть встроенный модуль urllib2.
В простейшем варианте функция urllib2.urlopen() получает на вход адрес и возвращает файловый объект, читающий страницу по этому адресу.
Например:
Переключить отображение номеров строк
1 file = urllib2.urlopen("http://kodomo.fbb.msu.ru/wiki/Main/Python/20/Record")
2 print(file.read())
Этого достаточно в простейших случаях, но для того, чтобы разбираться в более сложных случаях, нужно понимать некоторые вещи, которые происходят в этот момент под капотом.
Протокол HTTP
Почти весь веб построен на протоколе HTTP (HyperText Transfer Protocol)2.