Нуклеотидные банки данных

Учебный сайт Софроновой Алины

Нуклеотидные банки данных
Знакомство со структурой банка RefSeq посредством поисковой системы SRS

При помощи поисковой системы SRS я получила список хромосом дрожжей Saccharomyces cerevisiae. Для этого я отметила чекбокс RefSeq_DNA (release), а затем ввела нужные значения полей для моего запроса: Organism Name - Saccharomyces cerevisiae и Molecule - DNA. Ометила галочками только хромосомы. Получившийся список представлен ниже:

REFSEQ_DNA:NC_001133	NC_001133	Saccharomyces cerevisiae S288c chromosome I, complete sequence. 	230218	
REFSEQ_DNA:NC_001134	NC_001134	Saccharomyces cerevisiae S288c chromosome II, complete sequence. 	813184	
REFSEQ_DNA:NC_001135	NC_001135	Saccharomyces cerevisiae S288c chromosome III, complete sequence. 	316620	
REFSEQ_DNA:NC_001136	NC_001136	Saccharomyces cerevisiae S288c chromosome IV, complete sequence. 	1531933	
REFSEQ_DNA:NC_001137	NC_001137	Saccharomyces cerevisiae S288c chromosome V, complete sequence. 	576874	
REFSEQ_DNA:NC_001138	NC_001138	Saccharomyces cerevisiae S288c chromosome VI, complete sequence. 	270161	
REFSEQ_DNA:NC_001139	NC_001139	Saccharomyces cerevisiae S288c chromosome VII, complete sequence. 	1090940	
REFSEQ_DNA:NC_001140	NC_001140	Saccharomyces cerevisiae S288c chromosome VIII, complete sequence. 	562643	
REFSEQ_DNA:NC_001141	NC_001141	Saccharomyces cerevisiae S288c chromosome IX, complete sequence. 	439888	
REFSEQ_DNA:NC_001142	NC_001142	Saccharomyces cerevisiae S288c chromosome X, complete sequence. 	745751	
REFSEQ_DNA:NC_001143	NC_001143	Saccharomyces cerevisiae S288c chromosome XI, complete sequence. 	666816	
REFSEQ_DNA:NC_001144	NC_001144	Saccharomyces cerevisiae S288c chromosome XII, complete sequence. 	1078177	
REFSEQ_DNA:NC_001145	NC_001145	Saccharomyces cerevisiae S288c chromosome XIII, complete sequence. 	924431	
REFSEQ_DNA:NC_001146	NC_001146	Saccharomyces cerevisiae S288c chromosome XIV, complete sequence. 	784333	
REFSEQ_DNA:NC_001147	NC_001147	Saccharomyces cerevisiae S288c chromosome XV, complete sequence. 	1091291	
REFSEQ_DNA:NC_001148	NC_001148	Saccharomyces cerevisiae S288c chromosome XVI, complete sequence. 	948066

Для дальнейшего описания мне была задана хромосома под номером 16. Ее длина 948066 пар оснований. Количество генов белков (поле CDS = Coding DNA Sequence) - 464, генов тРНК (поле tRNA) - 17.
При помощи полного текста записи RefSeq, я нашла примеры следующих генов:
- гена, который находится на прямой цепи и не имеет интронов

gene = "PCL8"
CDS = 136750..138228

- гена, который находится на прямой цепи и имеет хотя бы один интрон

gene = "RPS9A"
CDS = join(404950..404956,405458..406044)

- гена, который находится на обратной цепи и не имеет интронов

gene = "BMS1"
CDS = complement(139620..143171)

- гена, который находится на обратной цепи и имеет хотя бы один интрон

gene = "RPS6A"
CDS = complement(join(377291..377995,378390..378395))
Получение последовательности, кодирующей заданный белок

Для белка с идентификатором YP_749235.1 в базе данных NCBI Protein Database, я получила его Uniprot ID и AC (используя функцию ID Mapping).

Uniprot ID - Q088B8_SHEFN
Uniprot AC - Q088B8

При помощи команды entret uniprot:Q088B8 на сервере kodomo я получила файл с полной записью Uniprot (q088b8_shefn.entret). В строке, начинающейся с "DR EMBL", сразу после "EMBL" идёт AC записи EMBL - CP000447.

При помощи команды entret embl:cp000447 на сервере kodomo я получила файл с полной записью EMBL (cp000447.entret). В файле с полной записью белка в Uniprot, нашла имя кодирующего его гена - Sfri_0536 а также его аминокислотную последовательность (3lwu_pr.fasta). По назанию гена нашла соответствующие координаты границ кодирующего участка ("CDS") в записи EMBL - 614754..615872. При помощи команды seqret embl:CP000447 3lwu.fasta я получила последовательность в fasta-формате (3lwu.fasta). При помощи команды seqret 3lwu.fasta[614754:615872] 3lwu_gene.fasta, указав в скобках координаты гена я получила только тот участок, который кодирует мой белок (3lwu_gene.fasta).

Выравнивание белков и их генов

Для дальнейших выравниваний был взят гомолог с идентификатором NP_719515.1 в базе данных NCBI Protein Database. Данный гомолог я получила при помощи программы BLAST. Проделав для него те же операции, я получила файл с белковой последовательностью и файл с нуклеотидной последовательностью кодирующего его гена.
Используя команду needle на сервере kodomo для аминокислотных последовательностей двух белков, я получила выравнивание представленное на Рис.1.
Файл в формате .needle можно увидеть здесь.

Рис.1. Парное выравнивание аминокислотных последовательностей для белков с индентификаторами YP_749235.1 и NP_719515.1, полученное при помощи программы needle. Рисунок получен в программе Jalview. Раскраска ClustalX. Консервативность "Above identity threshold" 100%.

Используя ту жу команду needle,но для нуклеотидных последовательностей генов, кодирующих эти белки, я получила выравнивание представленное на Рис.2. Файл в формате .needle можно увидеть здесь.

Рис.2. Парное выравнивание генов, кодирующие белки с индентификаторами YP_749235.1 и NP_719515.1, полученное при помощи программы needle. Рисунок получен в программе Jalview. Раскраска ClustalX. Консервативность "Above identity threshold" 100%.

При помощи программы tranalign я хотела построить выравнивание для кодурующих генов. Но, к сожалению, у меня это не получилось из-за несоответствия нуклеотидной последовательности гена, кодирующего первоночально заданный белок и аминокислотной последовательности этого белка. Чтобы решить данную проблему я воспользовалась сервисом EMBOSS Transeq. Дав на вход последовательность гена, я получила правильную аминокислотную последовательность. Файл можно увидеть здесь. Снова сделала needle выравнивание. Результат на Рис.3, файл с выравниванием в формате .needle можно просмотреть здесь. Итоговое выравнивание при помощи программы tranalign можно увидеть на Рис.4, а файл просмотреть здесь.

Рис.3. Парное выравнивание аминокислотных последовательностей для белков с индентификаторами YP_749235.1 (была изменена) и NP_719515.1, полученное при помощи программы needle. Рисунок получен в программе Jalview. Раскраска ClustalX. Консервативность "Above identity threshold" 100%.

Рис.4. Парное выравнивание генов, кодирующих белки с индентификаторами YP_749235.1 и NP_719515.1, полученное при помощи программы tranalign. Рисунок получен в программе Jalview. Раскраска ClustalX. Консервативность "Above identity threshold" 100%.
Файл с поектом Jalview можно скачать здесь.

Сравним полученные выравнивания для нуклеотидных последовательностей. Результаты, полученные при помощи программ needle и tranalign, сильно отличаются. В первом случае последовательности выравниваются на основе побуквенного сходства. Мы видим большое число гэпов, продолжительность которых не всегда кратна 3 (имеено столько нуклеотидов кодируют одну аминокислоту), что позволяет сделать вывод о недостоверности подобных результатов. Во втором же случае гены выравниваются на основе выравнивания соответствующих последовательностей белков. Количество гэпов минимально (3 участка по 3 гэпа). В итоге парное выравнивание полученное при помощи программы tranalign наиболее достоверно, так вероятность ошибки при выравнивании белковой последовательности значительно меньше, чем при нуклеотидной. Также программа tranalign дает результаты, не расходящиеся с биологическим смыслом (1 кодон = 3 нуклеотида).

Поиск в нуклеотидном банке NCBI по имени гена

Далее я взяла ген из 1 упр. с именем PCL8. Запрос в нуклеотидном банке NCBI выглядел так: PCL8[Gene Name]. Поиск дал 16 результатов (файл с результатами). Первый результат - нужный нам ген бактерии Saccharomyces cerevisiae штамм S288c. Второй результат - мРНК, с которой транслируется данный белок. Третья запись почти полностью совпадает с первой. Еще один результат соответствует ДНК бактерии Pasteuria ramosa, остальные записи соответствуют исходной бактерии но другого штамма - YJM993, R103, P301, R008, P283,JAY291. Поиске по названию гена, но в базе данных Gene, дает лишь один результат, который соответствует нужному.

Вернуться к 3 семестру