Учебная страница курса биоинформатики,
год поступления 2013
Первое занятие второго блока
К следующему занятию:
– Сделайте отчёт по заданию в виде веб-страницы,
– пришлите ссылку на готовый отчет для проверки,
– выучите ambiguity codes, будет мини-контрольная.
Полезные ссылки: SRS
1. Знакомство со структурой банка RefSeq посредством поисковой системы SRS
a. Через SRS выведите список хромосом дрожжей Saccharomyces cerevisiae. Вставьте его в отчёт как преформатированный текст.
Указание: на странице "Select Databanks" отметьте чекбокс "RefSeq_DNA (release)" и нажмите "Standard Query Form". Затем введите нужные значения полей Organism Name (название организма) и Molecule (DNA). Не стоит копировать таблицу непосредственно со страницы с результатом SRS. Сначала поставьте галочки только против тех строк, которые отвечают хромосомам, затем нажмите Save и ещё раз Save. Полученный текст уже можно вставлять в HTML-файл, обрамив тегами <PRE>...</PRE>.
b. Для заданной хромосомы запишите ее длину, количество генов белков и тРНК в ней. Номер заданной хромосомы равен 1 + остаток от деления на 16 вашего порядкового номера в списке.
Указание: пройдите по соответствующей гиперссылке на странице с результатом поиска. Число генов белков совпадает с количеством кодирующих последовательностей (CDS = Coding DNA Sequence).
c. Приведите примеры четырёх генов на заданной хромосоме, а именно:
– гена, который находится на прямой цепи и не имеет интронов;
– гена, который находится на обратной цепи и не имеет интронов;
– гена, который находится на прямой цепи и имеет хотя бы один интрон;
– гена, который находится на обратной цепи и имеет хотя бы один интрон.
Для каждого гена приведите его название (gene=) и координаты соответствующей CDS в записи.
Указание: нажмите Text Entry, чтобы увидеть полный текст записи RefSeq.
2. Получение последовательности, кодирующей заданный белок
В таблице найдите против своей фамилии идентификаторы белка в RefSeq и получите его Uniprot ID и AC (вы это уже делали однажды). Затем определите AC записи EMBL, в которой описан ген этого белка.
Указание: на kodomo выполните команду entret uniprot:xxxxx, где xxxxx – ID или AC вашего белка в UniprotKB. В полученном файле найдите строку, начинающуюся с "DR EMBL", сразу после "EMBL" идёт AC записи EMBL.
Вырежьте участок, кодирующий ваш белок, в отдельный файл с подходящим названием. Указание: сначала определите границы кодирующего участка ("CDS"). Для этого сначала получите файл с полной записью EMBL — через SRS или командой entret embl:xxxxxx. Когда выясните границы и направление, воспользуйтесь командой seqret с опцией -sask. Справка по entret и seqret.
Файл с последовательностью гена скопируйте в директорию H:\public_html и дайте на него ссылку с сайта. Промежуточные файлы положите в директорию pr6. Все необходимые сведения (AC записи EMBL, координаты гена, как всё это получено и т.п.) кратко изложите в отчёте на сайте.
3*. Выравнивание белков и их генов
Для своего белка и какого-нибудь его гомолога создайте: а) выравнивание последовательностей белков программой needle; б) выравнивание последовательностей их генов программой needle; в) выравнивание последовательностей их генов программой tranalign. Сравните результаты.
4*. Поиск в нуклеотидном банке NCBI по имени гена
Возьмите какое-нибудь имя гена из упр. 1 или 2 и поищите его в нуклеотидном банке NCBI. Опишите свои ощущения.