Практикум 7. Банки нуклеотидных последовательностей.
Задание 1. Характеристика генома эукариотического организма.
Для характеристики сборки генома мною был выбран вид Schmidtea mediterranea. Русского аналога названию обнаружено не было, но можно попытаться перевести как Шмидтея средиземноморская. Schmidtea mediterranea - планария, обитающая на побережье в Западной части Средиземноморья. Используется как модельный организм при изучении стволовых клеток и процессов регенерации клеток.
В таблице 1 представлена информация с сайта NCBI о выбранной сборке генома этого вида.
![Рис.1](pr7_1.jpg)
Источник изображения: https://en.wikipedia.org
Название вида |
Schmidtea mediterranea |
Число сборок |
4 |
Assembly name (название сборки) |
|
AC выбранной сборки (из GenBank) |
GCA_002600895.1 |
Assembly level ("уровень" сборки) |
Scaffold |
Общая длина последовательности |
773,939,492 |
Число контигов |
1,292 |
Число скэффолдов |
481 |
Contig N50 |
1,121,568 |
Contig L50 |
201 |
Scaffold N50 |
3,854,845 |
Scaffold L50 |
57 |
Число аннотированных белков |
информация отсутствует |
Ссылка на проект: PRJNA379262, публикация.
Была получена последовательность одного из контигов в fasta-формате (скачать контиг). Это было сделано переходом к WGS проекту NNSW01, где была ссылка на контиги. Затем произвольно был выбран контиг NNSW01000151.1, и был получен fasta-файл.
Задание 2. Характеристика генома прокариотического организма.
Для получения списка полных геномов семейства вирусов Turriviridae с длинной генома 10000-20000 п.н. на сайте NCBI в разделе Nucleotide был выполнен поисковый запрос "Turriviridae"[Organism] AND ("10000"[SLEN] : "20000"[SLEN]). Было получено 2 находки из GenBank и 2 из RefSeq.
Затем был выбран геном NC_005892.1, для которого была собрана необходимая информация. Полученные данные представлены в Таблице 2.
AC нуклеотидной записи |
NC_005892 |
Латинская таксономия |
Viruses; Turriviridae; Alphaturrivirus |
Рекомендуемое название |
Sulfolobus turreted icosahedral virus 1 |
TaxID |
|
Тип генома |
circular dsDNA |
Хозяин вируса |
Архея Sulfolobus solfataricus |
Также опцией 'Send to: Coding Sequences' был получен fasta-файл с CDS генома (скачать).
Задание 3. Описание ключей таблицы особенностей GenBank записи.
На сайте INSDC в разделе документации содержится документ с описаниями ключей особенностей (ссылка). Произвольно было отобрано семь ключей для описания. Отчёт представлен в Таблице 3.
Ключ |
Описание |
Пример использования |
misc_recomb |
Рекомбинация с порчей и восстановлением ДНК-дуплекса, которая не может быть описана иными ключами и квалификаторами. |
misc_recomb 1..263 /recombination_class="chromosome_breakpoint" |
modified_base |
Нуклеотид является модифицированным и должен быть заменён на указанную молекулу. |
FH Key Location/Qualifiers FT modified_base (4908)..(4908) FT /note='a, c, g, t, unknown, or other' FT modified_base (5098)..(5098) FT /note='a, c, g, t, unknown, or other' FT modified_base (9196)..(9196) FT /note='a, c, g, t, unknown, or other'. |
regulatory |
Любой участок последовательности, который функционирует в регуляции транскрипции, трансляции, репликации, структуры хроматина. |
regulatory 435..440 /regulatory_class="ribosome_binding_site" |
sig_peptide |
Сигнальный пептид, обеспечивающий транспорт белка. |
sig_peptide 446..499 /gene="Lyz" /allele="B" |
stem_loop |
Шпилька одноцепочечной ДНК или РНК. |
stem_loop (1.22)..(212.235) /gene="rrs" |
STS |
Sequence-tagged site - сайт, помеченный последовательностью. Последовательность с единственным появлением в геноме, известными местоположением и последовательностью оснований. |
STS 160..1049 /standard_name="sWXD2990" |
unsure |
Участок последовательности, который не удалось достоверно идентифицировать. |
FH Key Location/Qualifiers FT unsure (874) FT /note='a, c, g or t' FT unsure (879) FT /note='a, c, g or t' FT unsure (885) FT /note='a, c, g or t' |