Знакомство со структурой банка RefSeq посредством поисковой системы SRS

С помощью поисковой системы SRS был получен список хромосом дрожжей Saccharomyces cerevisiae, представленный ниже. В первой колонке указан Accession, во второй - описание, в третьей - длина в нуклеотидах.

AC		Description								Length
NC_001133	Saccharomyces cerevisiae S288c chromosome I, complete sequence. 	230218	
NC_001134	Saccharomyces cerevisiae S288c chromosome II, complete sequence. 	813184	
NC_001135	Saccharomyces cerevisiae S288c chromosome III, complete sequence. 	316620	
NC_001136	Saccharomyces cerevisiae S288c chromosome IV, complete sequence. 	1531933	
NC_001137	Saccharomyces cerevisiae S288c chromosome V, complete sequence. 	576874	
NC_001138	Saccharomyces cerevisiae S288c chromosome VI, complete sequence. 	270161	
NC_001139	Saccharomyces cerevisiae S288c chromosome VII, complete sequence. 	1090940	
NC_001140	Saccharomyces cerevisiae S288c chromosome VIII, complete sequence. 	562643	
NC_001141	Saccharomyces cerevisiae S288c chromosome IX, complete sequence. 	439888	
NC_001142	Saccharomyces cerevisiae S288c chromosome X, complete sequence. 	745751	
NC_001143	Saccharomyces cerevisiae S288c chromosome XI, complete sequence. 	666816	
NC_001144	Saccharomyces cerevisiae S288c chromosome XII, complete sequence. 	1078177	
NC_001145	Saccharomyces cerevisiae S288c chromosome XIII, complete sequence. 	924431	
NC_001146	Saccharomyces cerevisiae S288c chromosome XIV, complete sequence. 	784333	
NC_001147	Saccharomyces cerevisiae S288c chromosome XV, complete sequence. 	1091291	
NC_001148	Saccharomyces cerevisiae S288c chromosome XVI, complete sequence. 	948066	
Для дальнейшей работы была выбрана хромомосома IV

Описание хромосомы

Некоторые характеристики хромосомы IV:

Примеры генов

В хромосоме IV дрожжей были найдены гены с задаными свойствами:

Получение последовательности, кодирующей белок YojM_BacSu

Была получена запись Swiss-Prot белка YOJM_BACSU, из которой затем определены AC записи в EMBL:

DR   EMBL; AF026147; AAC17861.1; -; Genomic_DNA.
DR   EMBL; AL009126; CAB13832.1; -; Genomic_DNA. 

Из записи AAC17861.1 определены границы кодирующего участка (CDC: 10856..11446), а из AF026147 программой seqret с опцией -sask вырезан участок, кодирующий белок YojM_BacSu. Полученная последовательность записана в файл YojM.fasta

Выравнивание белков и их генов

C помощью BLASTP был найден гомолог YojM_BacSu в банке данных Swiss-Prot - Sodc2_aquae (AC: O66602.1). Затем получена его аминокислотная последовательность программой seqret. Далее эти белки попарно выравнивались с помощью программы needle, в результате чего получен файл yojm_sodc2.needle

Для найденного гомолога была найдена нуклеотидная последовательность, кодирующая его. Она была выровнена той же программой needle с последовательностью, полученной в предыдущем пункте. Результат представлен в файле yojm_sodc2_gene.needle

Теперь на данном этапе можно провести выравнивание нуклеотидных последовательных с помощью программы tranalign (требует белковое выравнивание), что и было сделано. Результатом является файл tranalign.fasta.

В итоге, мы получили 2 абсолютно разных нуклеотидных выравнивания. Довольно странно, что needle ввела так много коротких гэпов в выравнивание, которых нет в выравнивании от tranalign (что неудивительно, т.к. их не было в выравнивании белков). Вероятно, что увеличив штраф за открытие гэпа в needle можно добиться желаемого результата, но это уже подбор параметров под частную задачу. Так что выравнивание tranalign кажется более адекватным, но по сути является "перепевом" выравнивания белков.

Поиск в нуклеотидном банке NCBI по имени гена

Для выполнения работы был выбран ген MPS1, упоминавшийся в первом разделе. Далее проведён поиск в нуклеотидном банке NCBI: