Банк последователь- ностей


fasta-file на ncbi...
(продолжение в источнике)


Цитохром с-оксидаза

Практикум 7. Банки нуклеотидных последовательностей

1. Описание одной нуклеотидной последовательности, секвенированой на ББС

Найдем поcледовательность в https://www.ncbi.nlm.nih.gov/genbank/ .
Для этого ввёдем в поисковую строку WSBS (White Sea Biological Station) и получим 237 записей.
fasta-файл со взятой мною последовательностью.

Идентификатор записи - MK078735.1

Это последовательность ДНК, длиной 519 нуклеотидов, депонирования в банк последовательностей
24 апреля 2019 года. Она была секвенированна по Сенгеру.

Автор записи - Cherneva,I. Можно также отметить, что ДНК из организма была взята 5 августа 2017 года

В разделе FEATURES указано следующее:
            /country="Russia: White Sea, Kandalaksha Bay, WSBS"
        
Это являеется свидетельством того, что последовательность получена на ББС.

Ген, из которого взят участок: субъединица 1 цитохром оксидазы. Ген, к слову, является митохондриальным.

С помощью простой программы было подсчитано, что в последовательности 298 А=Т и 221 C≡G пары. Такое соотношение может быть связано с условиями окружающей среды, но не стоит отрицать, что это просто случайность.

Ген принадлежит Lineus clandestinus (тип Немертины).

Рис 1. Lineus clandestinus

Источник

2. Характеристика качества сборки генома эукариотического организма

Выбранный организм - Gallus gallus (Курица). Я взял домашнюю курицу, к слову, они являются
самым распространённым видом птиц на Земле. Их одомашнивание произошло 3500 лет до н.э.
Сейчас их около 60 млрд...
Рис 2. Курица

Источник
Для неё существует 2 сборки генома: GRCg6a и Ogye1.0
Лучшая из них - GRCg6a.
AC из RefSeq - GCF_000002315.6
Уровень сборки - Chromosome.
Общая длина последовательности - 1,065,365,434 пар оснований.
Число контигов - 1,403. Число скэффолдов - 525.
N50 для контигов - 17,655,422. N50 для скэффолдов - 20,785,086.
L50 для контигов - 19. L50 для скэффолдов - 12.
Число аннотированных белков - 49660.
Статья с описанием проекта.
Последовательность одного из контигов.

3. Список полных геномов таксона коронавируса.

Полные геномы таксона Middle East respiratory syndrome-related (MERS) coronavirus были найдены по соответствующему запросу "MERS-CoV". Статус "complete" имели 530 геномов (то есть они являются полными). Было выдано 2 генома из RefSeq: ASM281619v1 и ViralProj183710. Я сначал таблицу, выбрав все необходимые колонки(и несколько дополнительных).
Ссылка на .csv файл

4. CDS генома коронавируса

AC выбранного вируса - NC_038294
Название организма - Betacoronavirus England 1.
TaxID - 1263720.
Тип генома - ssRNA, линейный.
Хозяин - Homo sapiens.
Файл с предположительно кодирующими белками (CDS).
Чтобы скачать его, я нажал на "send to", и выбрав "coding sequences", скачал в формате "FASTA Nucleotide"


Информация о последователь- ности...


Беломорская биологическая станция


Немного про
Lineus clandestinus