Выбор сборки генома

Выбранный организм - Xenopus laevis (African clawed frog)
На NCBI Datasets найденно 2 сборки
ссылка на сборку: Genome assembly Xenopus_laevis_v10.1.

Xарактеристики выбранной сборки

Таблица 1. Характеристики выбранной геномной сборки
Идентификатор GenBankGCA_017654675.1
Идентификатор RefSeqGCF_017654675.1
Уровень сборки геномаChromosome
Общий размер генома (п.н.)2.7 Gb
Число фрагментов генома в сборке155
Scaffold N502155.3 Mb
Scaffold L5028
Contig N50222.5 Mb
Contig L50235

[1]Подсчитано рассмотрением файла с последовательностями в fasta-формате.
Использовал: zcat < GCF_017654675.1_Xenopus_laevis_v10.1_genomic.fna.gz | grep ">" | wc -l
[2]Параметр N50 означает длину контига/скэффолда, для которого половина всех нуклеотидов сборки содержится в контигах/скэффолдах такой и большей длины. Параметр L50 - это наименьшее из возможных число контигов/скэффолдов, в которых содержится не меньше половины всех нуклеотидов сборки.

Знакомство с поисковыми системами ENA и NCBI

Выбран белок эластин (elastin).

Резульаты поиска в базе NCBI представлены в таблице 2.

Результаты поиска записей, посвященных эластину, в Nucleotide NCBI
allhuman
genomic DNA13518
mRNA9282169
RefSeq9200110
GenBank66977

Не все записи относятся непостредственно к эластину: всего записей - 9869,
а по запросу Elastin[Title] NOT "elastin binding protein"[Title] - 9765.

Далее был произведен поиск записей в ENA и DDBJ (таблица 3)

ENAallhuman
genomic DNA16214
mRNA26561
DDBJallhuman
genomic DNA65647
mRNA24361

Самый удобный интерфейс представлен на NCBI: интуитивно понятный и простой, на ENA и DDBJ кардинально отличается, к нему долго привыкать. И еще на ENA трудно найти необходимые поля поиска.

Митохондрия

На NCBI Datasets написано, что Added chromosome MT (то есть добавлена митохондриальная ДНК).

Среди последовательностей есть циклическая ДНК - митохондриальная
Найдена следующим образом: zcat < GCF_017654675.1_Xenopus_laevis_v10.1_genomic.gbff.gz | grep LOCUS | less -S
Использовал файл с аннотацией.

Cреди выдачи предыдущей команды:
LOCUS C_001573 17553 bp DNA circular VRT 01-FEB-2010

Так как это последний локус, то это упрощает работу.

Для определения числа аннотированных генов был написан код: mt.sh, выдача кода: mt.sh.out.

Важный результат - 22 тРНК - характерное число для позвоночных.

Длины фрагментов генома

Для получения таблицы с длинами фрагментов я использовал:
zcat < GCF_017654675.1_Xenopus_laevis_v10.1_genomic.gbff.gz | grep LOCUS | sed 's/[[:space:]]\{1,\}/\t/g' | cut -f 2,3 > locus.tsv

Таблица: locus.tsv.

Для построения распределения: locus.R.

Рис 1. Распределение длин фрагментов генома. Красная точка соответсвует локусу, на который указывают величины N50 и L50.