УЧЕБНЫЙ САЙТ АМОСОВОЙ АЛЁНЫ

Программа getorf пакета EMBOSS

C помощью команды entret, был получен файл с записью D89965 банка EMBL (СКАЧАТЬ). В нем содержится нуклеотидная последовательность мРНК из 448 пар оснований. Последовательность выделена из серой крысы мужского пола (Rattus norvegicus (Norway rat)), из ткани желудка. Был предсказан белок RSS. С помощью команды getorf d89965.entret d89965.orf -find 1 -minsize 30 в putty
был получен файл d89965.orf
(getorf d89965.entret d89965.orf -find 1 -minsize 30),

содержащий набор трансляций всех (а именно девяти) открытых рамок данной последовательности,
(getorf d89965.entret d89965.orf -find 1 -minsize 30),

начинающиеся со старт-кодона и заканчиваются стоп-кодоном
(getorf d89965.entret d89965.orf -find 1 -minsize 30),

с минимальной длиной 30
(getorf d89965.entret d89965.orf -find 1 -minsize 30).
СКАЧАТЬ
Пятая рамка считывания в файле .orf совпадает с той, которая указана в файле .entret в поле FT.

Данная запись ссылается на файл P0A7B8 банка Swiss-Prot.C помощью команды
entret sw:P0a7b8
этот файл был получен (СКАЧАТЬ).
Последовательности в файле соответствует девятая рамка считывания (найдено вручную). Стоит отметить, что файл из Swiss-Prot содержит последовательность Кишечной палочки. Возможно, что бактерия попала на исследуемую ткань желудка мыши, и её приняли за клетку этой ткани.

С помощью программ пакета EMBOSS были скачаны в файл adh.fasta в fasta-формате все доступные в Swiss-Prot последовательности алкогольдегидрогеназ. (СКАЧАТЬ) А также был получен файл с универсальными адресами (USA) этих последовательностей (СКАЧАТЬ) с помощью команды infoseq -only -usa adh.fasta -out usa.txt Далее нужно было получить из этого файла-списка другой, с адресами только тех последовательностей, которые взяты из моего организма. Их я записала в отдельный файл myusa. Используя команду grep -f myusa.txt usa.txt >> shortlist.txt я создала нужный файл. (СКАЧАТЬ) На основе нового файла-списка получила fasta-файл с последовательностями дегидрогеназ моих организмов.Использовалась команда seqret @shortlist.txt end.fasta . (СКАЧАТЬ)

Для оценки достоверности вывода о реальности эффекта или факта на основе наблюдения использовался стандартный метод – сравнение со случайной моделью. В нашем случае "факт" – гомология последовательностей, а "наблюдение" – вес их выравнивания. Были выбраны две алкогольдегидрогеназы - ADH1_CHICK P23991 Alcohol dehydrogenase 1 и ADH6_HUMAN P28332 Alcohol dehydrogenase 6 (первая записана в отдельный файл en.fasta) - и сделаны 100 случайных перемешиваний первой аминокислотной последовательности с помощью команды shuffleseq -shuffle 100 en.fasta. Полученный файл можно СКАЧАТЬ. С помощью программы 'water' пакета EMBOSS были сделаны парные локальные выравнивания второй последовательности (сохраненной в файле second.fasta) с исходной (неперемешанной) первой, с помощью команды water en.fasta second.fasta и с каждой из 100 перемешанных последовательностей, с помощью команды water second.fasta rand100.fasta. Получилось 101 парное выравнивание. Получилось 2 файла: Первый и Второй. Использованный скрипт на питоне:

water_file = open("rovn2.water")
write_file = open("results.txt", "w")
for line in water_file:
    if len(range(len(line.split(" ")))) <= 2:
       continue
    if line.split(" ")[1].strip() == "Score:":
         write_file.write(line.split(" ")[2].strip() + "\n")
write_file.close()

Он помог составить список весов всех выравниваний (Скачать). По этой таблице в Excel была построена гистограмма распределения полученных весов


Рис.1. Распределение весов выравниваний.
© Амосова Алена. 2013 год