Главная


Практикум №7: "Нуклеотидные БД"


Задание №1



  • Выбранный организм: Acetobacter pomorum.
  • Сборок у данного организма (Assembly) было обнаружено 2.
  • Различных проекты по секвенированию (BioProject): 2.
  • Число образцов (BioSample): 2.
    Приведённые данные получены из соответствующей таблицы для данного организма на странице базы данных Genome на сайте NCBI, фрагмент которой приведён на Рис.1.
    Рис. 1.


    Далее нужно выбрать самую полную сборку (наибольший level). Для данных двух сборок они почти не отличаются, была выбрана сборка GCA_000193245.2.
  • Описание образца.
    Идентификаторы: Accession: SAMN02469765 ID: 2469765. Название образца: AEUP.
    Организм: Acetobacter pomorum (штамм: DM001), относится к протеобактериям семейства Acetobacteraceae, более полная классификация на Рис.2. Данный образец получен из кишечника дрозофилы. Отсеквенирован в ракмках 2 проектов: PRJNA224116 и PRJNA60787. PRJEB799. Так же описание образца приведено на Рис.2
    Рис. 2.
  • Описание проекта (Acetobacter pomorum genome sequencing project).
    Accession: PRJNA60787 ID: 60787; Данным проеком занимались Ewha Woman's University and National Creative Research Initiative Center for Symbiosystem, 2408 последовательностей белков; 2 публикации в PubMed. Данные о данном проекте представлены на Рис.4.

    Рис. 4.

  • Число контигов: 66, число скэффолдов: 66. Это объясняется тем, что геном отсеквенирован на уровне контиг, то есть не известно, в каком поярдке они следуют друг за другом, а скэффолды - это наборы контиг, для которых установлен порядок следования в ДНК. Отсюда следует, что каждый скэффолд - это одна контига в данном случае, и логично, что число контиг совпадает с числом скэффолдов.
  • Таблица контигов: таблица.
  • Contig N50: 169,252; Contig L50: 5. N50 определяет качество сборки. Например, N50 = A, если 50% полного генома покрыто контигами, длины неменьше A.2. Чем больше N50, тем лучше сборка. L50 определяется числом контиг, составляющих более 50% сборки генома.
  • Самый длиный контиг: Contig00067, длина 390595; самый короткий: Contig00147, длина 597.
  • Ссылка на Contig00001 в формате FASTA:ЗДЕСЬ.

    Задание №2



  • Исследуемый мох: Codriophorus varius (Рис.6). Принадлежит к роду Codriophorus семейства Grimmiaceae, которое входит в обширную группу мхов - Бриофиты (Bryophytes).
    Рис. 6.
  • Запрос в БД Nucleotide (NCBI): "Codriophorus varius"[Organism] AND mitochondrion[filter].
    Далее в разделе Related information я перешёл в Genome. Здесь было определено число генов РНК и белков (Рис.7): 27 и 39 соответственно (всего: 66).
    Рис. 7.

    Затем я перешёл в Gene, где можно было сохранить список данных генов, отсортированных по началу в геноме: список генов.

    Задание №3



    Десять ключей, используемых в таблицах особенностей.
    КлючОписание данного ключаИллюстрирующий пример
    D-loopПетля смещения. Область в митохондриальной ДНК, в которой короткая РНК взаимодействует с одной цепью ДНК, отстроняя комплементарную вторую цепь. Так же описывает замещение одной цепи дуплекса ДНК на другую цепь в реакции, катализируемой белком RecA. 14852..15767
    /note="A+T rich region; control region"
    D_segmentD-сегмент тяжёлой цепи иммуноглобулинов и бета-цепи Т-клеточного рецептора1686002..1686010
    /gene="Trdd1"
    /gene_synonym="Gm16623"
    /standard_name="TRDD1"
    exonРегион генома, кодирующий мРНК, рРНК или тРНК. Может содержать 5'UTR, всю кодирующую область, 3' UTR.666..772
    /gene="CLPB"
    /gene_synonym="ANKCLB; HSP78; MEGCANN; MGCA7; SKD3"
    /inference="alignment:Splign:1.39.8"
    iDNAНепостоянная ДНК, которая удаляется при рекомбинации1..(46.48)
    /gene="Igh"
    /note="V-D intervening DNA"
    LTRДлинный концевой повтор, последовательность, повторяющаяся с обоих концов определённой последовательности. Данное явление типично для ретровирусов.1..127
    misc_featureБиологически интересная область, которую нельзя описать ни одним из имеющихся ключей. Что-то новое. 13
    /note="where S=G+C"
    mobile_elementОбласть в геноме, содержащая мобильные элементы.complement(1..11827)
    /note="LTR Copia family"
    /mobile_element_type="retrotransposon:Gmr71"
    mRNAМатричная РНК, содержащая 5'UTR (5'-нетранслируемую область), кодирующую область и 3'UTR (3'-нетранслируемую область) join(10..567,789..1320)
    /gene="ubc42"
    polyA_siteОбласть РНК-транскрипта, к которой сожет присоединяться адениновые остатки, обеспечивающие послетранскрипционное полиаденилирование.1220
    /gene="ORFV2"
    /locus_tag="AAW65_gp2"
    promoterОбласть на ДНК, с которой связывается РНК-полимераза. Необходима для инициации транскрипции.1..9
    /gene="ubc42"