Практикум 7

Задание 1: Выбор качественной сборки генома эукариотического организма.

Tribolium castaneum, также известный, как хрущак малый булавоусый - жук семейства Tenebrionidae. Tribolium Castaneum вляется важным вредителем запасов зерновых культур и продуктов их переработки в хранилищах и на складах. Хрущак булавоусый- популярный объект генетических исследований, модельный организм при исследовании внутригеномного конфликта и в популяционной экологии. Но я выбрал этот организм, потому что занимаюсь им в лаборатории :)

PS:А что тут непонятного про внутригеномный конфликт ?:)Гены конфликтуют :(. Это эволюционное явление, при котором некоторый ген A( влияющий на свой фенотипический признак). может обладать фенотипическими эффектами, которые способствуют усилению передачи этого гена, при этом вызывая ущерб для для некоторого гена B, который влияет на тот же фенотипический признак, что и A. Получается конфликт, называемый внутригеномным,т.к проходит в пределах одного генома.

В жизненном цикле Tribolium castaneum имеется 4 стадии :яйцо, личинка, куколка и взрослая особь.Из них сборка генома была сделана для взрослой особи

Мой запрос : Tribolium castaneum (red flour beetle)

По моему запросу была найдена одна сборка, она же является референсной, т.е сборкой, рассматриваемой NCBI, как сборка лучшего качества. Ее я и выбрал - GCA_000002335.3

Сборка имеет хромосомный уровень. Это означает, что сборка содержит последовательность одной или нескольких хромосом.Причем это может быть как и полноценно секвенированная хромосома без пробелов, так и с пробелами.У Tribolium castaneum 20 пар хромосом

Задание 2: Некоторые характеристики выбранной сборки

Таб.1Характеристики выбранной сборки
Идентификатор GenBank GCA_000002335.3
Идентификатор RefSeq GCF_000002335.3
Общий размер генома 165.9 Mb
N50 для контигов 73 kb
L50 для контигов 512
N50 для скэффолдов 4.5 Mb
L50 для скэффолдов 12

В таблице 1 привидены основные характеристики выбранной сборки : идентефикатор, общий размер генома, N50,L50.

N50 - Длина контига, для которого половина (50%) всех нуклеотидов сборки содержится в контигах такой и большей длины

L50 - Число контигов (наименьшее), в которых содержится половина (50%) всех нуклеотидов сборки

Задание 3: Скачивание сборки генома, аннотации и предсказанных белковых последовательностей.

Я скачал 3 файла:

Нуклеотидные последовательности генома (в формате FASTA);

Последовательности белков (в формате FASTA);

Последовательности генома с аннотацией (GBFF).

Доп. Задание. Скачивание всех файлов представленных для сборки

Используя NCBI FTP, я скачал все файлы представленные для выбранного генома.

Таб.2Все файлы представленные для сборки
Имя файла Содеражание
GCA_000002335.3_Tcas5.2_assembly_report.txt Информация о сборке(последовательность, организм и т.д.)
GCA_000002335.3_Tcas5.2_assembly_stats.txt Статистика сборки (длина, количество контигов, скэффолдов, их N50, L50 и др.)
GCA_000002335.3_Tcas5.2_cds_from_genomic.fna.gz Кодирующие последовательеости
GCA_000002335.3_Tcas5.2_feature_count.txt.gz Статистика особенностей генома на основе информации о сборке
GCA_000002335.3_Tcas5.2_feature_table.txt.gz Таблица особенностей генома
GCA_000002335.3_Tcas5.2_genomic.fna.gz Последовательность генома
GCA_000002335.3_Tcas5.2_genomic.gbff.gz Последовательность генома с аннотацией
GCA_000002335.3_Tcas5.2_genomic.gff.gz Аннотация генома а формате gff
GCA_000002335.3_Tcas5.2_genomic.gtf.gz Аннотация генома в формате gtf
GCA_000002335.3_Tcas5.2_genomic_gaps.txt.gz Информация о гэпах (длина, позиции начала и конца и др.)
GCA_000002335.3_Tcas5.2_protein.faa.gz Последовательности белков
GCA_000002335.3_Tcas5.2_protein.gpff.gz Белки с ссылками на источники аннотации
GCA_000002335.3_Tcas5.2_rna_from_genomic.fna.gz РНК, предсказанные на основе генома
GCA_000002335.3_Tcas5.2_translated_cds.faa.gz Автоматическая трансляция белков из файла с кодирующими последовательностями
GCA_000002335.3_Tcas5.2_wgsmaster.gbff.gz Описательная информацию и диапазон инвентарных номеров контигов, представленных как часть этого WGS проекта
README.txt Информация о файлах, представленных для сборки
annotation_hashes.txt Содержит даты внесений каких-либо изменений в аннотацию
assembly_status.txt Статус версии аннотации
md5checksums.txt Контрольные суммы для всех представленных файлов

Доп. Задание. Диаграмма для фрагментов генома

В рамках этого задания из файла GCA_000002335.3_Tcas5.2_assembly_report.txt были получены длины всех скэффолдов и был построен график, показывающий убывание длины каждого фрагмента генома. А также были найдены N50, L50 и указаны на графике в виде точки. Для этого был использован Python, в частности - matplotlib.

N50- 130058. L50- 35.

Письма мастера дзен Рис1.График, показывающий убывания длин фрагментов и N50/L50

В свою защиту могу сказать, что я убрал из файла первые строки , соответствующие целым хромосомам и соответсвенно их длинам, оставив только скэффолды и их длинны. График вышел не равномерным из-за сильно различающегося количества "длинных" и "коротких" скэффолдов. У меня в целом 2148 скэффолдов и (примерно) 1600 из них длинной меньше 3000 Mp и только 40 длинной больше 100000.

Доп. Задание. Геномы органелл в выбранной сборке

Из того же файла была найдена информации о геноме митохондрии. Затем была найдена запись о ней в NCBI и составлена таблица с информацией о геноме митохондрий. (Таб3)

Таб.3Характеристика генома митохондрий
Идентификатор записи (ACCESSION) NC_003081
тип органеллы Митохондрия
Число кодирующих последовательностей (CDS) 13
Число генов рРНК 2
Число генов тРНК 22
Число псевдогенов 0