Ралдугина Василиса

Студентка Факультета биоинженерии и биоинформатики

МГУ имени М.В. Ломоносова

Обо мне

Главная

Сайт ФББ МГУ

Нуклеотидные банки данных

Задание 1

В качестве примера эукариотического организма была выбрана Ficedula albicollis — мухоловка-белошейка.

Рис. 1. Ficedula albicollis

На данный момент существует две сборки генома и 3 проекта по секвенированию с использованием двух образцов: SAMN02981387 и SAMEA3166399 .

Для рассмотрения была выбрана сборка GCA_000247815.2 (genbank accession).

Характеристика использованного для сборки образца

Идентификатор образца: SAMN02981387 | Название образца: OC2

Вид организма: Ficedula albicollis

Таксономическое положение:

  • Eukaryotes (надцарство Эукариоты)
    • Metazoa (царство Животные)
      • Chordata (тип Хордовые)
        • Craniata (п/тип Позвоночные)
          • Aves (класс Птицы)
            • Neognathae (н/отряд Новонёбные)
              • Passeriformes (отряд Воробьинообразные)
                • Muscicapidae (семейство Мухоловковые)
                  • Ficedula (род Пестрые мухоловки)
                    • Ficedula albicollis (вид Мухоловка-белошейка)

Особенности: Образец OC2 выделен на острове Эланд в Швеции из самца Ficedula albicollis.

Перечень проектов, использующих образец:

  • PRJNA208061
  • PRJNA75089

Предоставлен: 2014-08-11 Uppsala University, Dept of Evolutionary Biology

Характеристика проекта по секвенированию

  • Идентификатор проекта: PRJNA75089
  • Тип проекта: сборка и секвенирование генома
  • Выполнен: Uppsala University
  • Зарегистрирован: 30-Nov-2012
  • Актуальность: важно для изучения эволюции
  • RefSeq проект: PRJNA208061

Характеристика сборки GCA_000247815.2

  • Идентификатор сборки: GCA_000247815.2 (GenBank) | WGS-проект: AGTO00000000
  • Полная длина последовательности: 1,118,343,587
  • Суммарная длина гэпов сборки: 16,017,717
  • Гэпы между скэффолдами: 408
  • Общее число N50L50
    Контиги30,843410,964771
    Скэффолды21,8366,542,65648
  • Таблица контигов: в формате [xlsx] доступна для скачивания
  • Самый длинный контиг: AGTO02003581.1 имеет длину 3298586
  • Самый короткий контиг: 78 контигов имеют длину 200
  • Последовательность контига: для AGTO02000001.1 в формате [FASTA] доступна для скачивания

Задание 2

Задание заключалось в описании семи ключей, используемых в таблицах особенностей.

Таблица 1. Описание ключей таблиц особенностей
Ключ Значение Пример
CDS кодирующая последовательность
FEATURE         Location/Qualifiers            
 CDS            23..400
                /product="alcohol dehydrogenase" 
                /gene="adhI"
              
Последовательность 23-400 имеет своим продуктом алкогольдегидрогеназу и кодируется геном "adhI". Ключ координат кодирующей последовательности гена, которая соответствует аминокислотной последовательности в белке. Спецификаторы этого ключа часто указывают на название гена, кодируемого белка, его функции и др.
mRNA информационная РНК
FEATURE         Location/Qualifiers
mRNA                join(10..567,789..1320)
                /gene="ubc42"
Информационная РНК, включающая нетранслируемый 5' участок (5'UTR), кодирующие участки (CDS, exon) и 3' нетранслируемый участок (3'UTR);
tRNA зрелая транспортная РНК
FEATURE         Location/Qualifiers
tRNA            655..730  
                /gene="tRNA-Leu(UUR)"
                /anticodon=(pos:678..680,aa:Leu,seq:taa)
                /product="transfer RNA-Leu(UUR)"
Ключ, содержащий координаты кодирующей тРНК последовательности. Обычно в ключе указывается позиция антикодона в этой последовательности и аминокислота, которую несет конкретная тРНК.
regulatory любой участок последовательности,
принимающий участие в транскрипции,
трансляции, рипликации или упаковке хроматина.
FEATURE         Location/Qualifiers
regulatory      <1..9
                /gene="ubc42"
                /regulatory_class="promoter"
Ключ - идентификатор участков последовательности, вовлеченных в регуляцию транскрипции или трансляции. Обязательный спецификатор: /regulatory_class="TYPE".
source биологический источник образца
FEATURES        Location/Qualifiers
source          1..574052
                /organism="Cynoglossus semilaevis"
                /mol_type="genomic DNA"
                /isolate="Cse_v1.0"
                /db_xref="taxon:244447"
                /chromosome="6"
                /tissue_type="blood"
                /country="China"
                /collection_date="Sep-2009"
Source -обязательный ключ.
В классификаторах этого ключа содержится информация о получении образца (где, как, когда и т.д.)
V_region участки легких и тяжелых цепей иммуноглобулинов
FEATURES        Location/Qualifiers                					
V_region        1..277
                /gene="VFM1"
                /product="immunoglobulin heavy chain variable region" 
Вариабельные участки легких и тяжелых цепей иммуноглобулинов, α, β и γ-цепей Т-клеточных рецепторов.
sig_peptid кодирующая последовательность сигнального пептида
FEATURES        Location/Qualifiers                					


sig_peptide      1..54
                /gene="TCR1A" 
Указывает координаты кодирующей последовательности сигнального пептида.

Задание 3


1001 Геном резушки Таля (Arabidopsis Thaliana). Наличие естественных инбредных штаммов позволяет повторить фенотипирование одного и того же адаптированного генотипа в различных контролируемых условиях, что делает A. thaliana чрезвычайно хорошо подходящей для изучения взаимодействий между генотипом и окружающей средой. Это - проблема прямого и очевидного значения не только для эволюционных ученых или селекционеров растений, но и для человеческой биологии, где такие эксперименты, как правило, невозможны.
Год начала проекта - 2008
Организация - Max Planck Institute for Developmental Biology в Тюбингене (Германия)

Проект все еще активен. Изначально было запланировано отсеквенировать 1001 геном, на данный момент уже отсеквенировано 1135 геномов. Таким образом цель была достигнута, но исследования продолжаются.

Сайт проекта доступен по ссылке

Ссылка на последнюю публикацию: здесь

Задание 4


В задании было нужно составить таблицу митохондриальных генов для организма из таксона на выбор. Я выбрала таксон Rhodophyta.
Чтобы найти все полные митохондриальные геномы, в БД Nucleotide (NCBI) был выполнен запрос: (((rhodophyta[Organism]) AND complete[Title]) AND mitochondrion[Title]) AND genome[All Fields].
Было найдено 129 результатов, из них 76 - GenBank, 53 - RefSeq.
Я взяла организм Cyanidioschyzon merolae. Для него имеется полный митохондриальный геном, accession number в RefSeq NC_000887. Для получения списка митохондриальных генов я перешла по ссылке gene в разделе Related information. Cортировка списка была проведена в соответствии с порядком генов в геноме (Sort by Chromosome). Всего было найдено 62 гена, из них только 34 кодируют белки (Categories - Protein-coding).

По ссылке доступна для скачивания требуемая в задании таблица.