Kodomo

Пользователь

Учебная страница курса биоинформатики,
год поступления 2013

Первое занятие второго блока

К следующему занятию:

– Сделайте отчёт по заданию в виде веб-страницы,

пришлите ссылку на готовый отчет для проверки,

– выучите ambiguity codes, будет мини-контрольная.

Полезные ссылки: SRS

1. Знакомство со структурой банка RefSeq посредством поисковой системы SRS

a. Через SRS выведите список хромосом дрожжей Saccharomyces cerevisiae. Вставьте его в отчёт как преформатированный текст.

Указание: на странице "Select Databanks" отметьте чекбокс "RefSeq_DNA (release)" и нажмите "Standard Query Form". Затем введите нужные значения полей Organism Name (название организма) и Molecule (DNA). Не стоит копировать таблицу непосредственно со страницы с результатом SRS. Сначала поставьте галочки только против тех строк, которые отвечают хромосомам, затем нажмите Save и ещё раз Save. Полученный текст уже можно вставлять в HTML-файл, обрамив тегами <PRE>...</PRE>.

b. Для заданной хромосомы запишите ее длину, количество генов белков и тРНК в ней. Номер заданной хромосомы равен 1 + остаток от деления на 16 вашего порядкового номера в списке.

Указание: пройдите по соответствующей гиперссылке на странице с результатом поиска. Число генов белков совпадает с количеством кодирующих последовательностей (CDS = Coding DNA Sequence).

c. Приведите примеры четырёх генов на заданной хромосоме, а именно:

– гена, который находится на прямой цепи и не имеет интронов;

– гена, который находится на обратной цепи и не имеет интронов;

– гена, который находится на прямой цепи и имеет хотя бы один интрон;

– гена, который находится на обратной цепи и имеет хотя бы один интрон.

Для каждого гена приведите его название (gene=) и координаты соответствующей CDS в записи.

Указание: нажмите Text Entry, чтобы увидеть полный текст записи RefSeq.

2. Получение последовательности, кодирующей заданный белок

В таблице найдите против своей фамилии идентификаторы белка в RefSeq и получите его Uniprot ID и AC (вы это уже делали однажды). Затем определите AC записи EMBL, в которой описан ген этого белка.

Указание: на kodomo выполните команду entret uniprot:xxxxx, где xxxxx – ID или AC вашего белка в UniprotKB. В полученном файле найдите строку, начинающуюся с "DR   EMBL", сразу после "EMBL" идёт AC записи EMBL.

Вырежьте участок, кодирующий ваш белок, в отдельный файл с подходящим названием. Указание: сначала определите границы кодирующего участка ("CDS"). Для этого сначала получите файл с полной записью EMBL — через SRS или командой entret embl:xxxxxx. Когда выясните границы и направление, воспользуйтесь командой seqret с опцией -sask. Справка по entret и seqret.

Файл с последовательностью гена скопируйте в директорию H:\public_html и дайте на него ссылку с сайта. Промежуточные файлы положите в директорию pr6. Все необходимые сведения (AC записи EMBL, координаты гена, как всё это получено и т.п.) кратко изложите в отчёте на сайте.

3*. Выравнивание белков и их генов

Для своего белка и какого-нибудь его гомолога создайте: а) выравнивание последовательностей белков программой needle; б) выравнивание последовательностей их генов программой needle; в) выравнивание последовательностей их генов программой tranalign. Сравните результаты.

4*. Поиск в нуклеотидном банке NCBI по имени гена

Возьмите какое-нибудь имя гена из упр. 1 или 2 и поищите его в нуклеотидном банке NCBI. Опишите свои ощущения.