Нуклеотидные банки данных
Для это практикума я выбрал геном Anopheles gambiae, самого известного и самого опасного из видов малярийных комаров (рис. 1).
Комары рода Anopheles, как и большинство комаров вообще, имеют две пары аутосом, обозначаемых 2 и 3, и пару половых хромосом, X и Y (Coluzzi et al., 2002, см. введение). Во многих тканях у них, как и других Diptera, формируются политенные хромосомы. Хромосома X, так как она неспарена, образует одно политенное плечо, обозначаемое также X, а каждая из аутосом образует по два плеча, правое и левое. Всего получается пять различных плеч: X, 2R, 2L, 3R и 3L. Так как узор полос на политенных хромосомах (в частности, в слюнных железах) имеет определяющие значение в систематике комплекса видов Anopheles gambiae s. l., а на препаратах два плеча одной хромосомы выглядят как два отдельных объекта, а иногда могут и вообще отрываться одно от другого, чаще всего в статьях оперируют именно этими "плечами", а не целыми хромосомами (напр., Wondji et al., 2005; George et al., 2010). Более того, в референсной сборке генома Anopheles gambiae плечи аутосом лежат в виде отдельных последовательностей. На рис. 2 показан узор полос на политенных хромосомах, а сверху написаны примерные координаты в геноме.
Про хромосому Y в статьях, посвященных узорам полос, просто не упоминают. В статье о сборке генома сказано, что они секвенировали также и ее, но она состоит большей частью из транспозонов, поэтому собрать ее не удалось, и ее последовательность находится в скаффолдах, которые не удалось локализовать (Holt et al., 2002).
Чтобы найти геном, искал "Anopheles gambiae[Organism]" в базе Assembly. По запросу нашлось пять находок, из них две, включая референсную, уровня сборки "Chromosome". Кстати, во втором геноме с таким уровнем сборки аутосомы не разделены на плечи, а даны в виде целых последовательностей. Такой уровень сборки означает, что удалось получить последовательность хотя бы одной хромосомы, но в ней могут оставаться гэпы, а также в сборке могут присутствовать скаффолды, которые не удалось локализовать на хромосоме. В данном случае, удалось получить последовательности всех хромосом, кроме Y, и в сборке присутствует 8029 неразмещенных скаффолдов. Выбранный геном — рефренсный, что означает, что это качественная сборка, которую выбрали вручную как стандартную для этого вида.
Идентифакторы, размер и характеристики N50 и L50 для контигов и скаффолдов для выбранной сборки приведены в табл. 1. N50 — это длина элемента, такая, что половина всех букв сборки находится в элементах такой и большей длины. L50 — это минимальное количество элементов, в котором содержится половина всех букв сборки.
Идентефикатор GenBank | GCA_000005575.1 |
Идентефикатор RefSeq | GCF_000005575.2 |
Общий размер генома | 265 Mb |
Contig N50 | 85,5 kb |
Contig L50 | 696 |
Scaffold N50 | 12,3 Mb |
Scaffold L50 | 9 |