Учебный сайт Софроновой Алины |
Знакомство со структурой банка RefSeq посредством поисковой системы SRS         При помощи поисковой системы SRS я получила список хромосом дрожжей Saccharomyces cerevisiae. Для этого я отметила чекбокс RefSeq_DNA (release), а затем ввела нужные значения полей для моего запроса: Organism Name - Saccharomyces cerevisiae и Molecule - DNA. Ометила галочками только хромосомы.
Получившийся список представлен ниже:
Для дальнейшего описания мне была задана хромосома под номером 16. Ее длина 948066 пар оснований. Количество генов белков (поле CDS = Coding DNA Sequence) - 464, генов тРНК (поле tRNA) - 17. CDS = 136750..138228 - гена, который находится на прямой цепи и имеет хотя бы один интрон CDS = join(404950..404956,405458..406044) - гена, который находится на обратной цепи и не имеет интронов CDS = complement(139620..143171) - гена, который находится на обратной цепи и имеет хотя бы один интрон CDS = complement(join(377291..377995,378390..378395)) Получение последовательности, кодирующей заданный белок         Для белка с идентификатором YP_749235.1 в базе данных NCBI Protein Database, я получила его Uniprot ID и AC (используя функцию ID Mapping). Uniprot AC - Q088B8 При помощи команды entret uniprot:Q088B8 на сервере kodomo я получила файл с полной записью Uniprot (q088b8_shefn.entret). В строке, начинающейся с "DR EMBL", сразу после "EMBL" идёт AC записи EMBL - CP000447. При помощи команды entret embl:cp000447 на сервере kodomo я получила файл с полной записью EMBL (cp000447.entret). В файле с полной записью белка в Uniprot, нашла имя кодирующего его гена - Sfri_0536 а также его аминокислотную последовательность (3lwu_pr.fasta). По назанию гена нашла соответствующие координаты границ кодирующего участка ("CDS") в записи EMBL - 614754..615872.
При помощи команды seqret embl:CP000447 3lwu.fasta я получила последовательность в fasta-формате (3lwu.fasta).
При помощи команды seqret 3lwu.fasta[614754:615872] 3lwu_gene.fasta, указав в скобках координаты гена я получила только тот участок, который кодирует мой белок (3lwu_gene.fasta).
        Для дальнейших выравниваний был взят гомолог с идентификатором NP_719515.1 в базе данных NCBI Protein Database. Данный гомолог я получила при помощи программы BLAST. Проделав для него те же операции, я получила файл с белковой последовательностью и файл с нуклеотидной последовательностью кодирующего его гена.         Используя ту жу команду needle,но для нуклеотидных последовательностей генов, кодирующих эти белки, я получила выравнивание представленное на Рис.2. Файл в формате .needle можно увидеть здесь.         При помощи программы tranalign я хотела построить выравнивание для кодурующих генов. Но, к сожалению, у меня это не получилось из-за несоответствия нуклеотидной последовательности гена, кодирующего первоночально заданный белок и аминокислотной последовательности этого белка. Чтобы решить данную проблему я воспользовалась сервисом EMBOSS Transeq. Дав на вход последовательность гена, я получила правильную аминокислотную последовательность. Файл можно увидеть здесь. Снова сделала needle выравнивание. Результат на Рис.3, файл с выравниванием в формате .needle можно просмотреть здесь. Итоговое выравнивание при помощи программы tranalign можно увидеть на Рис.4, а файл просмотреть здесь. Файл с поектом Jalview можно скачать здесь.         Сравним полученные выравнивания для нуклеотидных последовательностей. Результаты, полученные при помощи программ needle и tranalign, сильно отличаются. В первом случае последовательности выравниваются на основе побуквенного сходства. Мы видим большое число гэпов, продолжительность которых не всегда кратна 3 (имеено столько нуклеотидов кодируют одну аминокислоту), что позволяет сделать вывод о недостоверности подобных результатов. Во втором же случае гены выравниваются на основе выравнивания соответствующих последовательностей белков. Количество гэпов минимально (3 участка по 3 гэпа). В итоге парное выравнивание полученное при помощи программы tranalign наиболее достоверно, так вероятность ошибки при выравнивании белковой последовательности значительно меньше, чем при нуклеотидной. Также программа tranalign дает результаты, не расходящиеся с биологическим смыслом (1 кодон = 3 нуклеотида).
        Далее я взяла ген из 1 упр. с именем PCL8. Запрос в нуклеотидном банке NCBI выглядел так: PCL8[Gene Name]. Поиск дал 16 результатов (файл с результатами). Первый результат - нужный нам ген бактерии Saccharomyces cerevisiae штамм S288c. Второй результат - мРНК, с которой транслируется данный белок. Третья запись почти полностью совпадает с первой. Еще один результат соответствует ДНК бактерии Pasteuria ramosa, остальные записи соответствуют исходной бактерии но другого штамма - YJM993, R103, P301, R008, P283,JAY291. Поиске по названию гена, но в базе данных Gene, дает лишь один результат, который соответствует нужному. Вернуться к 3 семестру |
© Алина Софронова, 2014 Дата последнего изменения: 14.09.2014 |