Практикум №7

На главную На страницу третьего семестра

— — — — — — — —

Задание №1

Выбранный организм – Секвойя вечнозелёная (или Секвойя красная) – Sequoia sempervirens (D.Don) Endl. Род Sequoia содержит только один этот вид, относится к семейству Кипарисовые (Cupressaceae). В природе произрастают на Тихоокеанском побережье Северной Америки. Это одни из самых высоких растений на Земле, отдельные экземпляры могут достигать высоты в 110 м. Живут около 2000 лет.

*Здесь должна быть картинка секвойи*
Секвойя вечнозелёная. Источник – https://ru.wikipedia.org/wiki/%D0%A1%D0%B5%D0%BA%D0%B2%D0%BE%D0%B9%D1%8F

На сайте NCBI Genome приведена только одна сборка.

Параметры лучшей сборки
Параметр Данные
Название (assembly name) SESE.1.0
AC сборки из GenBank GCA_007258455.1
"Уровень" сборки (assembly level) Scaffold
Общая длина последовательности 26,537,244,740
Число контигов 548,916
Число скэффолдов 517,852
N50 для контигов 97,163
L50 для контигов 61,057
N50 для скэффолдов 110,425
L50 для скэффолдов 54,396
Число аннотированных белков 517,852
Ссылку на публикацию с описанием проекта -
Ссылку на последовательность одного из контигов в формате .fasta Файл

Чтобы получить последовательность контига, я перешёл со страницы с данными о сборке на страницу WGS Progect, где снизу написаны идентификаторы последовательностей контигов. По идее, можно, просто нажав на них, перейти к странице с контигами, однако почему-то в этом случае такой подход не работал, так что пришлось вручную эти последовательности искать.

Задание №2

Я производил поиск по Nucleotide NCBI. Текст запроса: "(Siphoviridae[Organism]) AND 40000:50000[Sequence Length]". В GenBank 1590 находок, в RefSeq – 424. Для описания был выбран геном Gordonia phage Barco.

Параметры вирусного генома
Параметр Данные
AC нуклеотидной записи MK501730.1
Латинское название вида Gordonia phage Barco
TaxID вида 2517926
Тип генома: DNA/RNA, ds/ss, линейный/кольцевой DNA, ds, линейный
Хозяина вируса (бактерия или архея, и род) Бактерия, Gordonia
Ссылка на файл .fasta с участками генома, предположительно кодирующими белки (CDS) Файл

Файл с участками, предположительно кодирующими белки, был получен со страницы вируса в NCBI: Send to => Coding sequences => FASTA Nucleotide.

Задание №3

Описание ключей
Ключ Описание Пример использования
ncRNA Ген, который кодирует РНК, однако не рибосомальную и не транспортную Из NZ_BLAE01000029.1
ncRNA                119801..120187
                     /ncRNA_class="RNase_P_RNA"
                     /gene="rnpB"
                     /locus_tag="Amac_RS24865"
                     /product="RNase P RNA component class A"
                     /inference="COORDINATES: nucleotide
                     motif:Rfam:12.0:RF00010"
                     /inference="COORDINATES: profile:INFERNAL:1.1.1"
                     /note="Derived by automated computational analysis using
                     gene prediction method: cmsearch."
                     /db_xref="RFAM:RF00010"
propeptide Ген, кодирующий пропептид (неактивный пептид, который после активации становится нормальным белком) Из AB781599.1
propeptide           join(241..550,603..971)
                     /gene="krtC"
                     /product="pro-neutral protease"
protein_bind Сайт нековалентного присоединения белка на нуклеиновой кислоте Из MH325099.2
protein_bind         8015..8036
                     /note="CAP binding activates transcription in the presence
                     of cAMP.; label: CAP binding site"
                     /bound_moiety="E. coli catabolite activator protein"
regulatory Любой участок последовательности, который принимает участие в регуляции транскрипции, трансляции, репликации или структуры хроматина Из NZ_BLAE01000106.1
regulatory           complement(4230..4368)
                     /regulatory_class="riboswitch"
                     /inference="COORDINATES: nucleotide
                     motif:Rfam:12.0:RF00162"
                     /inference="COORDINATES: profile:INFERNAL:1.1.1"
                     /note="SAM riboswitch class I; Derived by automated
                     computational analysis using gene prediction method:
                     cmsearch."
                     /bound_moiety="S-adenosylmethionine"
                     /db_xref="RFAM:RF00162"
repeat_region Участок генома, содержащий повторяющиеся элементы Из NZ_BLAE01000043.1
repeat_region        71073..71599
                     /inference="COORDINATES: alignment:crt:1.2"
                     /inference="COORDINATES: alignment:pilercr:v1.02"
                     /rpt_family="CRISPR"
                     /rpt_type=direct
                     /rpt_unit_range=71078..71096
                     /rpt_unit_seq="cgcacgcggggatggtccc"
rep_origin Ориджин репликации (точка начала репликации нуклеиновой кислоты) Из MK258084.1
rep_origin           complement(5296..5330)
                     /note="OriL; origin of L-strand replication"
telomere Обозначение участка теломер Из NC_001148.4
telomere             942396..948010
                     /note="TEL16R; Telomeric region on the right arm of
                     Chromosome XVI; annotated components include an X element
                     core sequence and a short Y' element; TEL16R does have
                     telomeric repeats (TEL16R-TR), but they are missing from
                     the genome annotation due to difficulties encountered
                     during sequencing and/or assembly"
                     /db_xref="SGD:S000029002"