Программа getorf пакета EMBOSS

В первом задании необходимо было скачать файл с записью D89965 банка EMBL. Его можно найти здесь. При изучении данного файла, мы узнаем, что в нем содержится мРНК последовательность из Rattus norvegicus . Белок, кодируемый этой последовательностью отвечает за серотониновый рецептор желудка крысы.

Следующим заданием было получить набор трансляций всех открытых рамок данной последовательности при помощи команды getorf. Функция этой программы - поиск открытых рамок считывания, признаком которых служит отсутствие стоп-кодонов на продолжительном участке после стартового кодона, либо между двумя стоп-кодонами.
Необходимо было найти открытые рамки считывания, с расстоянием между старт и стоп кодонами не менее 30 АК остатков. Для выполнения этой задачи cначала я запустил команду getorf с параметрами -auto, однако часть результатов не подходила, т.к. между некоторыми стоп-кодоноами были стоп-кодоны, а значит результат был неверен. Поэтому была использована команда: getorf -find 1 -table 0 -minsize 75 -sequence D89965.1.embl.txt, результатом которой стало 6 возможных участков последовательности, соответствующих открытым рамкам считывания. Последней задачей является определение того, какая из найденных рамок считывания соответсвует данному белку. Для этого сравним полученные результаты и следующие строчки из записи EMBL данного белка:

FT                   /translation="MALMHFQFTFKQFEQRKSIRSTARKARDDFVVVQTADLFHVAFHY
FT                   GIAQRGLTITSDDHMAVTAYAYYSCHELTPWLRIQSTNPVQKYGA"
Среди наших результатов есть идентичная последовательность, хотя и со сдвинутыми координатами (163-432 в результатах и 163-435 в поле CDS в записи EMBL):
>D89965_3 [163 - 432] Rattus norvegicus mRNA for RSS, complete cds.
MALMHFQFTFKQFEQRKSIRSTARKARDDFVVVQTADLFHVAFHYGIAQRGLTITSDDHM
AVTAYAYYSCHELTPWLRIQSTNPVQKYGA
Данная запись EMBL ссылается на P0A7B8 SwissProt запись. Инетересно, что как название организма в записи SwissProt указана E.Coli, а результат трансляции и наши предыдущие результаты не имеют совпадений, что позволяет сделать предположение, о том, что данная последовательность была первоначально получена именно из нее.

Файлы-списки

Следующим заданием было скачать в файл adh.fasta в fasta-формате все доступные в Swiss-Prot последовательности алкогольдегидрогеназ, идентификатор которых описывается выражением adh*_*. Для выполнения этой задачи я использовал команду seqret sw:adh*_* adh.fasta. Полученный файл можно скачать здесь.
Затем был получен файл, содержащий универсальные адреса этих последовательностей (USA). Это было сделано при помощи команды infoseq adh.fasta -only -usa >> usa.txt .
Следующим заданием было оставить в списке только USA данных организмов (в моем случае DROBU, DROMN, ECOLI, STAAS, ORYSJ, MYCBO, HUMAN). Список был получен при помощи команды grep -f orgs.txt usa.txt > usadef2.txt .
Наконец, для получения алкогольдегидрогеназ в fasta формате была использована команда: seqret @usadef2.txt orgsdef2.fasta. Полученный файл можно скачать здесь

Случайная модель для оценки достоверности выравнивания

Для выполнения следующего задания возьмем две произвольные алкогольдегидрогеназы: ADH1_DROMN и ADH4_HUMAN и построим их парное локальное выравнивание при помощи water c весом 65.5. Затем, при помощи команды shuffleseq sw:ADH1_DROMN -shuffle 100 DROMN_shuffle.fasta первая последовательность была 100 раз перемешана. Затем при помощи water было построено выравнивание второй последовательности с каждой из перемешанных, полученный файл можно скачать здесь. Был составлен список весов этих последовательностей и сравнен с весом первого выравнивания. Все веса оказались меньше случайного, что может свидетельствовать о гомологичности данных белков.