Используя различные разделы и поиск по конкретным базам данных сайта NCBI, были выполнены нижележащие задания.
Для изучения ключей был так же использовалась справочная страница сайта INSDC -
The DDBJ/ENA/GenBank Feature Table Definition
Для исследования был выбран организм Triticum aestivum (bread wheat) - пшеница мягкая или летняя, однолетнее травянистое злаковое, относится к подсемейству мятликовые. Далее мы провели поиск через Browse by organism на странице базы данных Genome, всего раздел выдал тринадцать сборок, но в результате выбрана была GCA_900067645.1, как одна из наиболее полных (представлена и более полная GCA_000210335.1, но в ней указана partial genome representation и нет данных о покрытии.
Вот некоторая информация о проектах и о сборке в частности:
Количество проектов | 11 |
Выбранный проект | PRJEB11773 |
Количество образцов | 13 |
Выбранный образец | Biosample SAMEA3663800 |
Имя сэмпла(Sample name) | Triticum_aestivum_CS42_TGAC_v1 |
SRA | ERS970949 ( assembly for Chinese spring) |
Технология секвенирования | whole genome shotgun sequencing |
Покрытие | 40х |
Число контигов | 1743969 |
Число скэффолдов | 735943 |
N50 | 21299 |
L50 | 169174 |
Самый длинный контиг | Contig_1(длина - 508,392) |
Самый короткий контиг | Contig_735943(длина - 501) |
Адрес таблицы контигов html | https://www.ncbi.nlm.nih.gov/Traces/wgs/?val=FAOM01&display=contigs&page=1 |
Ссылка на tsv-таблицу контигов | FAOM01_contigs.tsv |
Сайт INSDC стал источником описания ключей, ниже приведено несколько примеров ключей: название, значение, пример в записи базы данных, etc.
Название ключа | Описание ключа | Пример записи (первая строка - ID) |
rep_origin | Origin of replication = точка начала репликации, фрагмент молекулы НК, с которого стартует репликация, собственно | rep_origin 1..442 /note="oriV; conserved part of vegetative replication origin including interons" |
assembly_gap | Расстояние между двумя компонентами сборки генома/транскриптома | assembly_gap 4518..4662 /estimated_length=145 /gap_type="within scaffold" /linkage_evidence="paired-ends" |
stem_loop | Шпилька = согнутый вдвое участок, сформированный из цепочки НК комплементарными основаниями, образовавшими связи(стебель), в котором так же присутствует участок - петля, где основания свободны, не сформировали пары. | stem_loop 282323..282337 /note="similar to that found in the intergenic region between bxlE and bxlR of S. lividans, also found at the 5' end of xylanase genes (xln) in various Streptomycetes; possibly involved in regulation" |
misc_feature | Смыслово обособленный участок, который может представлять интерес для изучения, но не может быть описан каким-то другим ключом, так как является новым или просто редко встречается. Этот ключ не используется, если нужно всего-лишь отметить участок, чтобы прокомментировать его или использовать в каком-то другом месте описания | misc_feature complement(281255..281971) /gene="SCO0289" /gene_synonym="SCF85.17c" /note="Pfam match to entry PF00532 Peripla_BP_like, Periplasmic binding proteins and LacI family., score 92.80, E-value 6.8e-24" |
misc_recomb | Сайт любого обобщённого, специфичного для сайта или реплицирующего события рекомбинации, где случилась поломка и восстановление дуплекса ДНК, что не может быть описана другими ключами рекомбинации или квалификаторами source key (пишутся через "/" в графе после ключа, как то, например, "/proviral") | FT misc_recomb (561)..(566) FT /note='HindIII site' FT misc_recomb (573)..(578) FT /note='AvaI site' FT misc_recomb (586)..(591) FT /note='EcoRI site' FT misc_recomb (593)..(598) FT /note='BamHI site' FT misc_recomb (625)..(630) FT /note='ClaI site' FT misc_recomb (629)..(634) FT /note='ClaI site' FT misc_recomb (1156)..(1161) FT /note='ApaLI site' FT misc_recomb (2128)..(2133) FT /note='PstI site' FT misc_recomb (2204)..(2209) FT /note='NcoI site' FT misc_recomb (2284)..(2289) FT /note='AvaI site' FT misc_recomb (2294)..(2299) FT /note='AvaI, SmaI, and XmaI site' FT misc_recomb (2551)..(2556) FT /note='ApaLI site'. (https://www.ncbi.nlm.nih.gov/nuccore/DD212689.1) |
mobile_element | Участок генома, содержащий мобильные элементы = последовательности нк, которые могут перемещаться внутри генома | mobile_element 875..82523 /mobile_element_type="other:integrative and conjugative element ICESsuJH1301" (https://www.ncbi.nlm.nih.gov/nuccore/KX077887.1) |
prim_transcript | Первичный(изначальный, непроцессированный) транскрипт, может включать нкРНК, рРНК, тРНК, 5'-нетранслируемую область (5'UTR), кодирующие последовательности (CDS, экзон), интервенционные последовательности (интрон) и 3 'нетранслируемую область (3'UTR); | prim_transcript <1..>937 /gene="mad2" (https://www.ncbi.nlm.nih.gov/nuccore/U72150.2) |
STS | Sequence tagged site = сайт с меткой последовательности; короткая однократная последовательность ДНК, характеризует своеобразный ориентир в геноме, может быть обнаружена с помощью ПЦР; область генома может быть отображена путем определения порядка серии STS; | STS 895..1800 /gene="Porcn" /gene_synonym="2410004O13Rik; AW045557; DXHXS7465e; Mg61; mMg61; Mporc; porc; Ppn" /standard_name="Porcn" /db_xref="UniSTS:545975" (https://www.ncbi.nlm.nih.gov/nuccore/NM_145908.4) |
tmRNA | Транспортная-матричная РНК (transfer messenger), сначала действует как тРНК, а затем как мРНК, которая кодирует пептидную метку. Рибосома транслирует эту область мРНК с тмРНК и прикрепляет закодированную метку к С-концу незавершенного белка, в то время как эта метка, нацелена на белок для уничтожения или протеолиза | tmRNA 43155..43509 /gene="ssrA" /locus_tag="COF54_RS14025" /old_locus_tag="COF54_14025" /product="transfer-messenger RNA" /inference="COORDINATES: nucleotide motif:Rfam:12.0:RF00023" /inference="COORDINATES: profile:INFERNAL:1.1.1" /note="Derived by automated computational analysis using gene prediction method: cmsearch." /db_xref="RFAM:RF00023" (https://www.ncbi.nlm.nih.gov/nuccore/NZ_NUSF01000047.1) |
unsure | Небольшая область последовательности оснований, как правило, 10 или менее длиной, которая не может быть уверенно идентифицирована. Такой регион может содержат известные основания(А, T, G или C) или смесь их с неизвестными ('N'). "Unsure" не используется при аннотировании зазоров в сборках генома. Для комментариев к зазорам в других последовательностях, а не в собранных(assembled) геномах, используется функция зазора(gap) | unsure 6657..6670 /gene="Arid1b" /gene_synonym="8030481M12; 9330189K18Rik; AI836955; Ardi1b; B230217J03Rik; mKIAA1235" /note="Sequence derived from one plasmid subclone." (https://www.ncbi.nlm.nih.gov/nuccore/NM_001085355.1) |
The 1000 Bull Genomes Project - направлен на предоставление обширной базы данных, чтобы сделать возможным для исследовательского сообщества внос генетических вариаций для геномного прогнозирования и широкомасштабных исследований генома во всех породах крупного скота. .<\p>
The Canadian Cattle Genome Project(CCGP) - изначально часть более обширного проекта The 1000 Bull Genomes Project, который был направлен на предоставление обширной базы данных, чтобы сделать возможным для исследовательского сообщества внос генетических вариаций для геномного прогнозирования и широкомасштабных исследований генома во всех породах крупного скота. Главная цель, таким образом, разработка ресурса, позволяющего партнёрам проекта вводить полную последовательность геномов в быков и коров, которые были ранее генотипированы с помощью SNP-массивов. Это может быть использовано, например, для повышения точности геномного предсказания, а так же в более общих исследованиях генома, заинтересованных в идентификации различного рода мутаций
Проекты сотрудничали, часть геномов из поставленной цели проекту 1000Bulls предоставил CCGP, получив доступ к остальным, таким образом проекты разделили цели. Однако, самостоятельно CCGP отмечает, что все последовательности и данные генотипов будут использоваться для разработки усовершенствованнных инструментов рассчета условно-вычисленных генотипов. Эти генотипы будут устанавливать эталон для селекционеров породистых и помесных животных. Так же будут осуществляться методы отбора животных по генотипу с использованием условно-исчисленной 'высокой плотности' генотипов.
Ведущий исследователь проеута - доктор Пол Стотхард, из университета Альберты. Проект запущен в 2012, изначально планировался как трёхлетний, на официальной странице отмечен последний год работы - 2014.
315 геномов животных были донированы The 1000 Bull Genomes Project. В статье от 21 мая 2015 года(самой поздней) указано, что к этому моменту отсеквенировано 379 животных. Дальнейших обновлений не наблюдалось.
Изначальные планы проекта:
Отдельно хотелось бы сказать про количество отсеквенированных организмов:
Одна популяция животных в исследовании - одна порода, то есть всего быков: 7*30+дополнительные быки, включённые по тем или иным причинам.
Но в Приложении 1 к статье указаны все породы рассмотренных по итогам исследования быков, и их общее число - 14, если не считать помесных животных. Отсюда и число 379.
Таким образом, число секвенированных единиц: 379 - CCGP (315 которых это часть 1147 от "1000 Bull...". Однако, важно понимать, что даже выполнив цель исследования, без партнёров секвенировали они сами далеко не 1147 геномов. Достоверно известно о 234 геномах в первой фазе проекта, после которой, видимо, они стали делиться информацией, и в работе поучаствовали не только CCGP.
Если говорить о 1000 Bull Genomes - планировалось минимум отсеквенировать 1000 геномов, как ясно из названия.
Участвовали в проекте: Biosciences Research Division, Department of Environment and Primary Industries, Bundoora, Victoria, Australia.
Steering committee ? Ruedi Fries (Technische Universitat Munchen, Germany) ? Mogens Lund/Bernt Guldbrandtsent (Aarhus University, Denmark) ? Didier Boichard (INRA, France) ? Paul Stothard (University of Alberta, Canada) ? Roel Veerkamp (Wageningen UR, Netherlands) ? Ben Hayes/Mike Goddard (DFL) ? Curt Van Tassell (United States Department of Agriculture)
P.S. В статье от 'The 1000 Bulls genome' указано, что они идентифицировали 129 предковых форм, 43 предковые формы и 15 предковых форм для популяций Хольштейн, Флеккиевой популяции и популяции из Джерси - то есть было рассмотрено минимум три породы.
Источники:
Для выполнения данного задания был выбран единственный представитель таксона Placozoa - Трихоплакс.
Все митохондриальные гены белков представлены в таблице по ссылке.
Таксон | Размер генома |
Вироиды | Наименьший - 220 bp, колеблется в среднем от 350 до ~450 bp. Наибольший отмеченный - 467 bp. |
Вирусы, бактериофаги | От нескольких тысяч (цирковирус имеет самый маленький на данный момент геном 2000 bp) до 1200 тысяч bp (у мимивирусов), отмечено лишь до 500 тыс bp у бактериофагов. Типичный = 10*4 |
Бактерии, археи | От 5*10^5 (у облигатных паразитов) до 10^7. Типичный размер - ~2*10^6, по крайней мере такого порядка, за точную цифру не поручусь. Имеют, в среднем, около 400 генов. |
Эукариоты | От 8.8*10^6 до 7*10^11 bp; гены: от 3000 до 150000 у млекопитающих. Типичный - 10^9. |
На главную страницуВернуться назад
©Solonovich Vera,2017