Практикум 7

Выбор качественной сборки генома эукариотического организма

Выбранный организм – западная чесночница Pelobates cultripes (western spadefoot).

В наших широтах можно встретить только чесночницу обыкновенную, и то редко, в том числе потому, что чесночницы ведут ночной образ жизни, а на день зарываются в грунт. Возможно из-за этого у них вертикальные, "кошачьи" зрачки, что для привычных нам лягушек и жаб не характерно. Да и вообще, ну просто посмотрите на неё, какая она милая)

В интернете я нашла, что у этой чесночницы 13 пар хромосом.

По запорсу Pelobates нашлась ровно одна сборка, а именно сборка генома Pelobates cultripes.

Уровень сборки – хромосомный, что означает, что получена последовательность одной или нескольких хромосом, которые могут содержать гэпы (кусочки заполненные просто 100 символами N) между скэффолдами.

Это референсная сборка, то есть её вручную отобрали как качественную и некий стандарт, с которым сравнивают другие данные.

Если взять все скэффолды и отсортировать их по убыванию длины, а потом найти границу, которая разделяет эту полученную последовательность пополам, то L50 – это номер скэффолда, через который проходит эта граница, а N50 – его длина.

Таким образом,
N50 – длина, например, контига, для которого правда, что как минимум половина всех нуклеотидов сборки находятся в контигах такой же и больше длины
L50 – наименьшее число контигов, в которых содержится половина всех нуклеотидов сборки.

Аналогично это работает для контигов.

Таблица 1 Некоторые характеристики выбранной сборки
Идентификатор GenBank GCA_933207985.1
Общий размер генома 3.1 Gb
Scaffold N50 330.1 Mb
L50 5
Contig N50 130.4 kb
L50 6,456

Некоторые сведения о сборке, которые мне удалось получить из файлов

Таблица 2 Некоторые файлы на FTP для данной сборки и информация, которую из них можно получить
Название файла Информация, которую можно получить из файла
GCA_933207985.1_aPelCul1.1_chrom_genomic.fna Последовательности хромосом и контигов.
Правда, судя по всему, не всех, а только тех, которые непонятно, где в хромосомах находятся, потому что их подозрительно мало. Получается, что предыдущее задание выполнено не вполне корректно, но я не нашла файла со всеми контигами сборки на FTP.
В тех участках хромосом, где между двумя известными кусочками находится нечто непонятного состава и длины, находятся ровно 100 символов "N".
Из этого файла я зачем-то нашла длины хромосом, хотя они есть, и более доступны в других файлах...
GCA_933207985.1_aPelCul1.1_chrom_assembly_stats.txt ... например в этом
Тут содержится общая статистическая информация о сборке (длины хромосом с гэпами и без, число гэпов, GC-состав, N50)
genomic.gbff Аннотация генома с примечаниями (координаты генов, CDS, РНК, участков малой сложности и их общие характеристики), а также ещё кучи информации, вплоть до таксономии и ссылок на литературу
GCA_933207985.1_aPelCul1.1_chrom_genomic_gaps.txt Координаты гэпов, их длина, а также тип (внутри скэффолда или между скэффолдами).
В этой сборке в этом файле длина для всех гэпов проставлена 100
GCA_933207985.1_aPelCul1.1_chrom_protein.faa Названия, AC и последовательности белков
Можно искать количество белков, содержащих в названии те или иные ключевые слова или фразы. Например, я выяснила, что в этом файле приведены 16985 гипотетических белков
GCA_933207985.1_aPelCul1.1_chrom_protein.gpff Очень большой файл, и по сравнению с предыдущим содержит ещё длину последовательности, иногда примечания (короткий/длинный вариант).
Для каждого белка написаны одинаковые данные про организм, что не очень осмысленно в контексте всех белков одного организма, но, видимо, просто все подобные файлы содержат такие данные для каждого белка.
GCA_933207985.1_aPelCul1.1_chrom_feature_table.txt Таблица с генами, CDS и разными РНК. Всё то же содержится, конечно, и в большом файле gbff, но с ним дольше и сложнее работать.
Из этого файла я выяснила количество записей таблицы, соответствующих генам (231786), CDS (51669), мРНК (49488), ncRNA (73261), rRNA (4653), tRNA (1887), а также выяснила количество записей  в таблице, соответствующих тРНК для различных аминокислот. Наименьшее количество тРНК (12) соответствовало, что неудивительно, селеноцистеину.

Я взяла все контиги из файла, содежащего все последовательности сборки в формате fasta. Помимо последовательностей контигов, в нём содержатся последовательности 14 (что примечательно) хромосом. Я отсортировала длины контигов по убыванию и построила lineplot длин контига от номера контига (см. рис. 1). Судя по этому графику, в сборке есть большое количество коротких контигов и малое количество контигов буквально на порядок большей длины.

Рис. 1 Диаграмма длин контигов в данной сборке. Точкой отмечен контиг, которому соответствуют N50 и L50

Можно заметить, что N50 и L50, которые я сама рассчитала из длин фрагментов сборки, сильно отличается от того, что было приведено в таблице. Честно говоря, я не поняла, как такое может быть, то есть L50 явно не может быть 6,456, если контигов всего где-то 3,500, и, вероятно, в файле записаны далеко не все контиги. Но мне кажется, что общий паттерн, что есть небольшое количество длинных и большое количество коротких контигов, должен быть верным.

Количесво хромосом

Как было сказано выше, по идее у этой чесночницы должно быть 13 пар хромосом, а в этой сборке есть 14 хромосом, или суперскэффолдов, как учёные, создававшие эту сборку написали в статье.

Я сначала предположила, что эта 14-я хромосома – это митохондриальная ДНК, но длина самой маленькой хромосомы в сборке (14.4 Мб) на три порядка больше средней длины митохондримальной ДНК (16.6 кб). Всё в той же статье написано, что этот суперскэффолд – микрохромосома. Микрохромосомы из-за их размеров часто невозможно увидеть при помощи цитогенетического анализа. Я бы предположила, что та информация про 13 хромосом возникла как раз из-за того, что до секвенирования просто не заметили четырнадцатую хромосому.

Насколько я поняла из текста статьи, при обработке данных были отфильтрованы загрязнения, в число которых также входила митохондриальная ДНК P. cultripes, поэтому в сборке её не должно быть.

Таблица 3 Длины хромосом в сборке
Хромосомы Длина хромосомы, Мб
Большие хромосомы 1 427.9
2 378.3
3 361.3
4 335.2
5 330.1
6 263.8
Хромосомы поменьше 7 158.1
8 152.8
9 151.2
10 129.7
11 128.9
12 124.5
13 96.7
Микрохромосома 14 14.4