Знакомство со структурой банка RefSeq посредством поисковой системы SRS
С помощью поисковой системы SRS был получен список хромосом дрожжей Saccharomyces cerevisiae, представленный ниже. В первой колонке указан Accession, во второй - описание, в третьей - длина в нуклеотидах.
AC Description Length NC_001133 Saccharomyces cerevisiae S288c chromosome I, complete sequence. 230218 NC_001134 Saccharomyces cerevisiae S288c chromosome II, complete sequence. 813184 NC_001135 Saccharomyces cerevisiae S288c chromosome III, complete sequence. 316620 NC_001136 Saccharomyces cerevisiae S288c chromosome IV, complete sequence. 1531933 NC_001137 Saccharomyces cerevisiae S288c chromosome V, complete sequence. 576874 NC_001138 Saccharomyces cerevisiae S288c chromosome VI, complete sequence. 270161 NC_001139 Saccharomyces cerevisiae S288c chromosome VII, complete sequence. 1090940 NC_001140 Saccharomyces cerevisiae S288c chromosome VIII, complete sequence. 562643 NC_001141 Saccharomyces cerevisiae S288c chromosome IX, complete sequence. 439888 NC_001142 Saccharomyces cerevisiae S288c chromosome X, complete sequence. 745751 NC_001143 Saccharomyces cerevisiae S288c chromosome XI, complete sequence. 666816 NC_001144 Saccharomyces cerevisiae S288c chromosome XII, complete sequence. 1078177 NC_001145 Saccharomyces cerevisiae S288c chromosome XIII, complete sequence. 924431 NC_001146 Saccharomyces cerevisiae S288c chromosome XIV, complete sequence. 784333 NC_001147 Saccharomyces cerevisiae S288c chromosome XV, complete sequence. 1091291 NC_001148 Saccharomyces cerevisiae S288c chromosome XVI, complete sequence. 948066Для дальнейшей работы была выбрана хромомосома IV
Описание хромосомы
Некоторые характеристики хромосомы IV:
- Длина: 1 531 933 bp (пар оснований)
- Количество генов: 788
- Количество тРНК: 28
Примеры генов
В хромосоме IV дрожжей были найдены гены с задаными свойствами:
- PRP9 находится на прямой цепи (397537..399129) и не содержит интронов
- MPS1 находится на обратной цепи (400997..403291) и не имеет интронов
- ARP2 находится на прямой цепи и содержит 1 интрон (399340..399361,399485..400638)
- MAF1 находится на обратной цепи и имеет 1 интрон (456836..458017,458098..458103)
Получение последовательности, кодирующей белок YojM_BacSu
Была получена запись Swiss-Prot белка YOJM_BACSU, из которой затем определены AC записи в EMBL:
DR EMBL; AF026147; AAC17861.1; -; Genomic_DNA. DR EMBL; AL009126; CAB13832.1; -; Genomic_DNA.
Из записи AAC17861.1 определены границы кодирующего участка (CDC: 10856..11446), а из AF026147 программой seqret
с опцией -sask
вырезан участок, кодирующий белок YojM_BacSu. Полученная последовательность записана в файл YojM.fasta
Выравнивание белков и их генов
C помощью BLASTP был найден гомолог YojM_BacSu в банке данных Swiss-Prot - Sodc2_aquae (AC: O66602.1). Затем получена его аминокислотная последовательность программой seqret
. Далее эти белки попарно выравнивались с помощью программы needle
, в результате чего получен файл yojm_sodc2.needle
Для найденного гомолога была найдена нуклеотидная последовательность, кодирующая его. Она была выровнена той же программой needle
с последовательностью, полученной в предыдущем пункте. Результат представлен в файле yojm_sodc2_gene.needle
Теперь на данном этапе можно провести выравнивание нуклеотидных последовательных с помощью программы tranalign
(требует белковое выравнивание), что и было сделано. Результатом является файл tranalign.fasta.
В итоге, мы получили 2 абсолютно разных нуклеотидных выравнивания. Довольно странно, что needle ввела так много коротких гэпов в выравнивание, которых нет в выравнивании от tranalign (что неудивительно, т.к. их не было в выравнивании белков). Вероятно, что увеличив штраф за открытие гэпа в needle можно добиться желаемого результата, но это уже подбор параметров под частную задачу. Так что выравнивание tranalign кажется более адекватным, но по сути является "перепевом" выравнивания белков.
Поиск в нуклеотидном банке NCBI по имени гена
Для выполнения работы был выбран ген MPS1, упоминавшийся в первом разделе. Далее проведён поиск в нуклеотидном банке NCBI:
- поиск по всем полям даёт 321 находку
- поиск только по имени гена - 112
Поиск по нуклеотидному банку имеет тот же вид, что и привычный PubMed. Интерфейс поиска позволяет:
- увидеть количество находок среди банков Nucleotide, EST и GSS и перейти в соответствующие разделы
- применить базовые фильтры, а при работе из аккаунта ещё и собственные
- увидеть разпределение находок среди различных организмов или таксономических единиц и отфильтровать находки