Kodomo

Пользователь

Добывание информации из сети

Цель этого занятия – научиться с помощью питона автоматизировать добывание информации из веба1.

Коротко и просто

Для этого в питоне есть встроенный модуль urllib2.

В простейшем варианте функция urllib2.urlopen() получает на вход адрес и возвращает файловый объект, читающий страницу по этому адресу.

Например:

   1 file = urllib2.urlopen("http://kodomo.fbb.msu.ru/wiki/Main/Python/20/Record")
   2 print(file.read())

Этого достаточно в простейших случаях, но для того, чтобы разбираться в более сложных случаях, нужно понимать некоторые вещи, которые происходят в этот момент под капотом.

Протокол HTTP

Почти весь веб построен на протоколе HTTP (HyperText Transfer Protocol)2.

  1. Веб -- это та часть интернета, которая видна через браузер. (1)

  2. Ещё немного веба построен на HTTPS, иногда некоторую часть данных, выложенных в FTP или WAP также относят к вебу. (2)