Конструирование геномных библиотек. 3 глава
Ещё один вариант поиска это фингерпринтинг, это паспортизация. Если есть два перекрывающихся участка ДНК, то понятно, что сайт для рестриктазы и в перекрывающуюся область и в результате будем иметь как минимум несколько одинаковых фрагментов, то есть если качественный электрофорез, то возможно чётко сказать, что соответствующие библиотечные клоны перекрываются. Помимо вот этого существуют СТС-картирование, то есть стандартный поиск СТС-локусов позволяет вам идентифицировать библиотечные клоны, в которых один и тот же СТС-маркер есть, что свидетельствует о том, что эти клоны перекрываются. Можно схожие процедуры делать при помощи гибридизации, то есть делается какой-то зонд, как правило просто режется плазмидная ДНК, где клонирован какой-то фрагмент, фрагмент метится киназой, радиактивным нуклеотидом и затем он гибридизуется с различными препаратами тех же BAC, то есть если есть сигнал, значит общий фрагмент присутствует.
Ещё один интересный подход – ПЦР с праймерами, которые сделаны под геномные повторы, причём если правильно выбрать повтор, если известно, какие повторы в геноме присутствуют. Например для человеческого генома очень удобно использовать Alu-последовательности. Их в геноме очень много, что фактически Alu-элемент встречается каждые 3-4 тысячи нуклеотидов, это как раз тот размер, который нормально накрывается при помощи ПЦР, это в среднем, понятно, что они расположены, то гуще, то реже, то есть есть вероятность получить больше фрагмент, есть вероятность получить фрагмент и меньше, первоначально такая методика даже называлась Alu-ПЦР, потом её стали использовать для других геномов, там другие повторы, соответственно переименовали – в ПЦР с повторяющейся ДНК. К Alu-элементу можно сделать два полезных праймера, то есть праймер, который будет читать из Alu-элемента в одну сторону и в другую. В результате получается три возможных ПЦР, вы берёте праймер к одному концу Alu-элемента будет читать в одном направлении, рядом Alu-элемент расположен в другом направлении, то есть с тем же самым праймер получем ещё один продукт, если элементы направлены одинаково, то и ПЦР продукта в данном месте не будет. Если одинаковая ориентация Alu-повторов вам нужен один праймер к одному концу, другой праймер к другому кону повторов тогда получится соответственный фрагмент. В результате можно прогнать три ПЦР – с левым праймером, с правым праймером и с двумя праймерами. Каждый из этих ПЦР даст вам уникальную картинку, три варианта фингерпринтинга, есть смысл гнать три, когда получаются малые фрагменты, вот для генома человека от 15 до 20 ПЦР-фрагментов – хорошее количество, для того, чтобы иметь паспорт клона. Столь же эффективная паспортизация как и при рестрикции, хотя рестрикция немножко проще. Однако это разные сведения и они могут друг друга дополнять и на разных геномах используются различные подходы.
Эти методики позволяют находить перекрывающиеся клоны. То же самое можно делать и на компьютере, когда у вас уже есть сиквенс этих перекрывающихся клонов. Компьютерная сборка сложна математической составляющей, так как секвенатор не выдаёт стопроцентной гарантии, что в конкретной позиции находится конкретной основание, это всегда вероятность. Это связано с самой реакцией потом с электрофорезом, все ошибки. В кадой точке лишь с определённой долей вероятности можно говорить о том, что тамнаходится именно этот нуклеотид, чем дальше сиквенс от начала тем вероятности сближаются, хотя даже в самом начале сигнал, соответсвующий другим нуклеотидам всё равно присутствует. Это всё вероятностный процесс, при желании иметь сиквенс хорошего качества, нужно учитывать вероятностные оценки, которые сопровождают каждую хроматограмму. Одна из этих программ обрабатывает хроматограмму и присваивает каждой позиции статистическую оценку, а вторая программа стыкует эти фрагменты между собой с учётом этих статистических оценок. Суть сборки сводится к стыковке различного числа фрагментов с различным числом повторов. На слайде пример сборки харпинового кластера – каждая линия – отдельный сиквенс, они получаеются разного качества, разной длины. Хороший получается длиной 600 нуклеотидов, но бывают и короче – 400, бывают и более длинный – практически тысяча. Самая длинная линия – сиквенс гена hrpJ. когда есть уже какая-то известная последовательность, она очень помогает когда начинается секвенирование слева и справа. Если нужно секвенировать участок другого клона или штамма всегда удобно опираться на уже имеющийся сиквенс. Лаборатории с Эрвинией очень помогает сиквенс шотладского штамма, который имеет 87-88 % гоимологии, это достаточно, так как поскольку гены расположены также, позволяет стыковать сиквенсы с опорой на шотландские данные. Такая ситуация применяется для многих бактериальных геномов, так как почти всегда есть какой-то геном с опорой на который можно получить свой сиквенс, это существенно упрощает новое секвенирование, так как первоначальное секвенирование всегда гораздо сложнее, более трудоёмкое, чем ресеквенирование той же самой Днк, которая лишь отличается незначительно, проблема с такой стыковкой иллюстрируется нас слайде, поскольку фрагменты отбираются случайным образом, то в некоторых местах будет многократное перекрытие. Считается нормой для шотга-проектов бактериальных где –то 6-8 кратное перекрытие, эукариотического – 8-10 кратное. Но это в среднем по геному, то есть в одним местах будет больше, в других местах в плоть до того, что может быть только один сиквенс. А шотган, который не прошёл стадию финиширования, во многих местах будет содержать разрывы. И всё равно как ни старайся определённая доля ошибок есть, она будет различной, причём максимальной она будет в случае когда минимум перекрытия.
Стадия финиширования.
Финиширование после шотгана. Благодаря Крэйгу Вентеру в базах данных приводится огромной количество черновиков геномных последовательностей. В отсутствие средств или времени и при желании скорейшей публикации результатов в базу данных сдаётся незаконченная последовательность, которая представлена определёнными фрагментами ДНК, которые в литературе называются контиги от слова contigious непрерывный, это жаргонное слово, но оно уже прочно укоренилось в литературе как термин. Это реальный фрагмент геномной последовательности который состыкован из коротеньких кусочков полученных после секвенирования. Контиги не привязаны к физической карте, известно где в геноме располагается соответствующий фрагмент. Но если шотган не прошёл стадию картирования то это даже не известно. Пробелы между различными контигами могут быть двух типов - это может быть пробел секвенирования, когда сиквенс просто не завершен и соответствующий фрагмент в геномной библиотеке есть и между соседними контигами, допустим известно, что на одном и том же BAC располагаются эти контиги нужно просто взять и досеквенировать. Но есть ещё и другие пробелы физические пробелы, когда нет соответствующего клона в библиотеке, то есть когда соответствующий участок ДНК даже не представлен в библиотеке, то есть даже нет с чего секвенировать. С подачи Вентера был введён такой термин как scaffold, при переводе на русский язык это звучит как остов или скелет, каркас Это контиги, разделённые пробелами секвенирования. При секвенировании Drozofila melanogaster дажев статье, которая в Science вышла там идёт разговор не о законченном сиквенсе, а о нескольких scaffold. Вентер не стал доделывать работу до конца, какой шотган получился, что собралось на компьютере, то и было опубликовано, большой беды с этим на самом деле нету, сейчас когда уже есть сиквенсу представителей всех групп организмов, есть два подхода к секвенированию других организмов из этих групп. Например человек и шимпанзе – можно пытаться получить такого же качества, геном шимпанзе, как и геном человека. Проблема в том, что получить сиквенс на уровне scaffold, разделённые ещё физическими пробелами стоит практически столько же, сколько 90-95(98) % генома такой сиквенс накрывать может, для генома млекопитающих эта цифра порядка 90 %, т. е. Получается 90 % генома в таком качестве, это даёт информацию о том, какие вообще гены есть в организме, можно сравнивать с геномом закоченного проекта посмотреть, какие есть полиморфизмы, есть ли соответствующие гены на том же месте или отсутствуют, то есть основную информацию о геноме можно получить уже с такого сиквенса, чтобы закончить его, закрыть пробелы секвенирования, закрыть физические пробелы, состыковать фрагменты между собой, нужно во-первых вложить столько же денег, сколько на получение scaffold, а физические пробелы как правило не закрываются в принципе полностью. Чтобы догнать процесс закрытия генома от 95 до 98 % нужно затратить столько же денег, сколько было затрачено на получение 95%, чтобы догнать ещё один процент – ещё столько же, затем на закрытие ещё одного процента тратится ещё столько же денег, то есть смысла нет никакого экономического. Сейчас когда секвенирующие центры присутствуют, они работают на полную катушку очень много геномов доводятся просто до такой стадии – геном шимпанзе, хотя его скорее всего досеквенируют до конца. Первоначальное финансирование было выбито под такое секвенирование с целью получения scaffold, когда уже есть качественный геном человека. То есть геномы многих беспозвоночных животных, геном асцидий был сделан довольно арно, чтобы посмотреть, какая разница между геномом хордового, но беспозвоночного, к чему он оказывается ближе к беспозвоночным или всё-таки к позвоночным. На этот вопрос можно ответь сразу, располагаю сиквенсом такого качества.
Финиширование генома. Ликвидация пробелов секвенирования, то есть если мы знаем, что есть соответствующий клон, на котором эти контиги расположены, то есть вопрос стоит в том, чтобы просто прочитать отсутствующие клоны, он отсутствуют скорее всего потому, что в библиотеке, которая на pUC сделана нету соответствующего клона, он либо токсичен, либо просто выпал. Есть два подхода к закрытию такого пробела – первый: Заказывается уникальный праймер к этим контигам и прямо используя матрицу клона можно сразу делать сиквенс, если это BAC то целесообразно сразу прогнать ПЦР и потом секвенировать продукт, сиквенс получится более хорошего качества. Когда получаетс 500-600 нуклеотидов с концов, то можно заказать следующий праймер или два прймера с двух сторон, то есть реализуется метод прогулка про хромосоме, таким образом можно закрыть недостающий фрагмент, хотя он обычно используется потом, после того, как не получается другими методами закрыть этот пробел. Альтернативный подход – просто сделать другую библиотеку, её всё равно приходится делать, чтобы ликвидировать физические пробелы. Делается новая библиотека идёт либо гибридизация с фрагментами концов контигов, либо ПЦР, что сейчас используется всё чаще и чаще, фактически конец контигов служит как STS-маркер, делается два прймерв к двум концам, также новая библиотека скринируется с попыткой найти клон, который в идеале будет давать сигнал с двумя этими концами, но а если так не получается, то хотя бы с одним из этих концов, тогда нужно разбираться не попадает ли сам клон полностью в уже известный фрагмент, если не попадает, то недостающий фрагмент секвенируется, в идеале конечно лучше, чтобы накрылся полностью пробел, однако это не всегда возможно. То есть на стадии финиширования используется комбинация новых библиотек со скринингом и ПЦР, в тех случаях, когда она позволяет решить проблему, или секвенирование непосредственно с геномного клона.
Пример геномного проекта. 1.8 млн н. п. с 1994 года подходы принципиально не изменились, немного поменялись векторы, секвеназы другие используются, оборудование другое, а суть такого шотган-подхода к секвенированию не изменилась. Сейчас все бактериальные геномы секвенируются исключительно таким образом. Что же сделал Вентер? Сначала библиотека в pUC, фрагментация ультразвуком, фрагменты фракционировались, выделялись фрагменты размеров 1,6- 2 н.п., это в pUC18 клонировалось, была получена библиотека с достаточно большим количеством клонов, затем секвенирующие реакции делались с двух сторон, в некоторых случаях одако делалась только одна реакция, из 20 000 клонов прогнано 30 000 реакций, поскольку это были только первые эксперименты подобного рода Вентер старался работать только с качественными сиквенсами, поэтому эти сиквенсы, которые менее 400 н.п имели, были отбракованы, это около 16% клонов. Достаточно интересная проблема возникла, которой никто не ожидал, часто вроде бы нормальных качественных сиквенсов, которые были получены она никак не ложилась в геном, то есть сиквенс хороший, но два конца, т к сиквенс с двух концов, как-то не стыкуются друг с другом, вроде один сиквенс ложится в один конец генома, другой в другой, когда стали разбираться, оказалось, что на том секвенаторе, который позволял гнать сразу 96 реакций на геле, в результате получалось, что если какая-то дорожка выпадает, то не сигнала на этом геле, сканер, который это всё сканирует, велика вероятность, что он ошибётся, пустую дорожку пропустит, а следующую будет считать вместо предыдущей. Причём тут ещё и особенность самого электрофореза, если в соседней дорожке материала нет, то рядом искривляется ход реакции, получается, что сиквенс не соответствует номеру клонов, около четверти всех сиквенсов пришлось выкинуть, а выяснилось это уже тогда, когда шла сборка геномной последовательности. Переход к капиллярным секвенаторам связан именно с этой проблемой, так как там невозможно перепутать, где какая дорожка. Было получено около 24 000 последовательностей,.общая длина последовательности 11 млн н п, получается шестикратное перекрытие. Специально написанная компьютерная программа дала 140 контиг, т е 140 пробелов осталось после автоматической сборки последовательностей. Та библиотека, которой расплагали была дополнительно проскринирована с целью найти клоны, который будут перекрывать пробелы, таким образом 99 пробелов было ликвидировано. Для закрытия ещё 42 пробелов была сделана новая библиотека с использованием бактериофага лямбда, так как фаговые библиотеки приходят на помощь, когда нужно клонировать то, что может быть токсично и использованием отобранных фаговых клонов была закрыта ещё часть пробелов, оставшиеся фрагменты были закрыты уже с помощью ПЦР. Однако геномный проект на этом не заканчивается, наступает самое важное, самое биологически значимое – фаза аннотации. То есть статья должна содержать анализ генома. Сколько генов есть, сколько различных повторов, что эти гены могут кодировать, каким образом они могут регулироваться. Два подхода к поиску функции гена – можно делать это экспериментально, можно делать на компьютере, однако компьютерный анализ всё равно опирается на имеющуюся экспериментальную информацию. Аннотация генома. Несколько задач: первое - найти кодирующие последовательности, второе – идентифицировать регуляторные последовательности. Так как мало найти гены, нужно попытаться представить, как они могут регулироваться – промоторные, операторные, энхансерные последовательности. Самое сложное – идентификация функции гена. Наиболее экономически целесообразно использовать компьютерные подходы везде, где это возможно. Поиск кодирующей последовательности. Эта проблема имеет разную актуальность у прокариот и эукариот, для прокариот – это не проблема, для эукариот – колоссальная проблема. Необходимо найти стартовый кодон, однако если подвинуть на один нуклеотид, потом ещё на один, можно найти ещё рамки считывания, то есть каждая последовательность ДНК несёт шесть рамок считывания, из которых только одна реально является кодирующей, у прокариот выяснить это просто – графически рисуем все рамки, которые есть. На слайде верхние три рамки в одну сторону, нижние три в другую, сама длинная рамка считывания – и есть нужная. Для прокариот принцип поиска кодирующих последовательностей – самый простой, рисуем рамки, берём набор самых длинных рамок, не перекрывающихся с друг другом, это и будет с вероятностью 90-95% ген этого организма. Это связано с двумя фактами – во-первых, 90% ДНК у прокариот кодирующая, и кодирующие последовательности непрерывны. Для эукариот существенно осложняется задача тем, что процент кодирующей ДНК гораздо ниже, кодирующая ДНК разбросана по геному как попало, так как экзоны разорваны интронами. Однако для растений поиск кодирующих последовательностей это меньшая проблема, так как у них гены компактные, интроны относительно короткие обычно не более пары сотен нуклеотидных пар, у человека размер интрона неограничен, может быть и сто тысяч н.п. Для генов позвоночных животных верхней границы для интрона нет в связи с тем, как работает аппарат сплайсинга, он достаточно надежно находит границы экзонов, даже если они на больших расстояниях друг от друга. Не было бы проблемы, если бы можно было легко определить кодирующую последовательность, однако подход применяемый в случае прокариот не подходит, так как возможные рамки считывания могут быть очень короткими, по техническим причинам велика вероятность, что такие рамки будут найдены в некодирующих областях. Стандарный размер экзона у позвоночных животных не превышает 120-150 н.п, то есть фрагмент кодирующей последовательности, то сеть эта цифра в два раза меньше того, что случайным образом находит компьютер. К счастью, кодирующая последовательность отличается по нуклеотидному составу от некодирующей последовательности, основная причина, по которой такое отличие есть, заключается в том, что каждый организм несёт определенный набор тРНК, есть три варианта амк, кодирующихся шестью кодонами, достаточно много тех амк, кодирующихся четырьмя кодонами, некторые тремя, двумя и только триптофан и метионин кодируются одни кодоном, а каждому из этих кодонов соответствует своя тРНК, генов тРНК у высших организмов много - от сотни до тысячи, то есть каждому из этих кодонов будет соответствовать разное количество тРНК и эффективность трансляции будет зависеть от того, с какой вероятностью тРНК попадает в сайт рибосом, если соответствующему кодону много соответствующих тРНК, то рибосомы быстро включат аминокислоту и двинуться дальше, если одна или две молекулы, то синтез белка будет идти значительно медленнее, то есть у каждого организма есть предпочтительные кодоны и есть нежелательные кодоны, в соответствии с тем, сколько тРНК соответствует каждому из них, те гены, которые экспрессируются интенсивно с течением времени ген будет приближаться к оптимальному для организма, то есть интенсивно экспрессирующиеся гены используют практически только оптимальные кодоны, но даже для слабо экспрессирующихся генов всё равно кодонный спектр будет приближаться к оптимальному спектру для этого организма. Помогает учёт сайта сплайсинга, но к сожалению здесь нет особой консервативности, абсолютно консервативны только два нуклеотида по концам интронов АГ и ГУ, есть также некотрая консервативность соседних нуклеотидов, но она недостаточна и есть ещё относительная консервативность участка вокруг точки ветвления 9адениловый остаток и пиримидиновый тракт), эту информацию тоже можно использовать, но она тоже ненадёжная и её недостаточно для того, чтобы находить границы интронов. Есть другие факторы, которые также могут использоваться для поиска кодирующей последовательности -характерные промоторные элементы, ТАТА-бокс, однако она встречается и спонтанно с достаточно высокой частотой, для млекопитающих SPG-острова, они присутствуют не везде, но практически везде где есть такой островок – практически всегда это промоторная область гена. Большую помощь оказывает использование гомологии с уже известными кодирующими последовательностями, кодирующие последовательности по сравнению с некодирующими гораздо более консервативные, экзоны более консервативны, чем интроны. Даже если в новом геноме интроны находятся в других местах, используя гомологию можно найти гомологичные кодирующие последовательности и четко определить, где может быть интрон, экзон. То есть несколько показателей, которые характеризуют кодирующую последовательность эукариотического генома, но не один из этих показателей недостаточен сам по себе для того, чтобы надежно её идентифицировать. ЛЕКЦИЯ №6 Пара слов о том, как можно гены идентифицировать. Есть несколько экспериментальных методик, связанных с полной или частичной идентификацией гена. Самый старый и самый простой способ – это гибридизация. Если у нас есть какой-то изученный геном и его гены известны, можно сделать зонды под эти гены, гибридизовать их с ДНК исследуемого организма и таким образом увидеть, где локализуется ген в геноме. Различные модификации такой методики (либо FISH, либо люминесцентное микроскопирование) позволяют разобраться, где какой ген расположен при условии наличия достаточно подробной физической карты. (Когда геном закончен, понятно, что такая карта есть.) Недостаток такой методики заключается в том, что должны быть зонды под каждый ген, прицельные, т.е. их нужно готовить специально. Вариант гибридизации, так называемый зоо-блоттинг, не предусматривает приготовления отдельных зондов под каждый из генов. Здесь метится сразу вся ДНК. Идея: за счет того, что более консервативна кодирующая последовательность, чем некодирующая, гибридизоваться будут именно гены. Межгенные участки гибридизоваться не будут. Если взять ДНК организма, порезать ее какой-то относительно мелко щепящей рестриктазой на фрагменты и метить их, такую пробу можно гибридизовать с интересующими фрагментами исследуемого генома. Там, где есть сигнал, там, значит, ген и располагается. В простейшем случае ДНК исследуемого организма режется рестриктазой, разгоняется в геле, затем смотрят, какой фрагмент гибридизуется, а какой нет. Это дает немного больше информации, но тоже достаточно трудоемкая методика. Особой проблемой является идентификация концов рамок считывания. Если и обнаружили, что ген «где-то здесь», то найти его начало и конец достаточно сложно. Особенно сложно найти начало. Есть несколько методик, которые позволяют находить концы. Наиболее часто используемой является RACE-методика (r apid a mplification of c DNA e nds, быстрая амплификация концов кДНК). Есть достаточно много модификаций RACE-методик, но общая суть сводится к тому, что к известной части мРНК делается праймер и с него начинается обратная транскрипция в сторону начала гена. Затем либо идет секвенирование, либо, что гораздо чаще, это все амплифицируется, а потом уже идет идентификация размеров ПЦР-продукта, а может быть, и секвенирование. С секвенированием – самый надежный вариант. Если просто делать кДНК на мРНК в качестве матрицы, то при секвенировании кДНК концы теряются. Тогда ближе к концу к последовательности известного сиквенса делается праймер, который будет читаться в сторону начала, будет синтезироваться кДНК уже с этого праймера. Реакция скорее всего пройдется там, где ген стартует. Есть также методики добавления праймера к концу. Обычно подшивается олигонуклеотид. Самый простой вариант – использование фермента, который называется терминальная трансфераза. Она присоединяет любые 3 нуклеотида, которые добавляются в смесь. Обычно добавляют один нуклеотид, например Г, тогда синтезируется ГГГ. Затем используют полиЦ-праймер для синтеза комплементарной цепи и получения одноцепочечного фрагмента. Когда фрагмент двухцепочечный, можно проводить уже ПЦР с ССС-праймером и специфическим, который использовался вначале. Так нарабатывается большое количество ДНК и можно непосредственно секвенировать либо клонировать и дальше разбираться, но сейчас редко кто клонирует. Сейчас достаточно надежно получается секвенировать такие вещи. Другая методика, которая также позволяет найти концы транскрипта, – S1-картирование. S1-нуклеаза специфична к одноцепочечным участкам ДНК. Все методики, связанные с S1-картированием, основаны на том, что одноцепочечный участок будет деградироваться, а двухцепочечный – не будет. Здесь исследуемый фрагмент нужно клонировать в векторе, который позволяет синтезировать одноцепочечную ДНК. Затем с этой одноцепочечной ДНК гибридизуется мРНК, такой гибрид обрабатывается нуклеазой, и получается двунитевой фрагмент. Этот фрагмент можно с одной стороны обрезать фиксированной рестриктазой и, таким образом, получить один фиксированный конец. Тогда можно определить, где второй конец, просто по размеру продукта. Т.е. разогнав на качественном акриламидном геле, получают сигнал. Если гнать рядом с сиквенсом, становится видно, где начинается ген (и где заканчивается тоже)??? В некоторых случаях проблема заключается в том, что даже внутренние экзоны могут потеряться, если они короткие, или не очень консервативные, или не находится гомология, или кодонные предпочтения не очень ярко выражены. Вообще любой экзон можно потерять. Есть специальные методики, которые позволяют прицельно охотиться за экзонами при помощи векторов – так называемых ловушек для экзонов. Это вектор для клонирования, в котором сайт для клонирования расположен между двумя экзонами. Располагается промотор, затем последовательность ДНК, которая соответствует экзону, интронная последовательность (сайт для клонирования) и еще один экзон. Если инициировать транскрипцию с промотора??? вектора, будет синтезироваться РНК, затем подвергаться процессингу. В результате получится мРНК с двумя этими экзонами. На ней можно синтезировать кДНК, прогнать с ней ПЦР и посмотреть, какой размер получится. Если клонировать произвольные фрагменты ДНК по рестрикционному сайту, возможны две альтернативные ситуации: есть экзон, нет экзона. Если экзона нет, то, какого бы ни была размера вставка, после сплайсинга все равно будет получаться продукт исходного размера. Если экзон попался, процессированная РНК будет больше. Это нужно детектировать путем сначала обратной транскрипции, затем ПЦР. Таким образом можно находить фрагменты ДНК, которые несут экзоны. А затем уже секвенирование этого куска покажет, где этот экзон находится. Мы не будем рассматривать многочисленные методики, которые направлены на прицельное экспериментальное определение кодирующих последовательностей. Наиболее полезные из них все равно сводятся к секвенированию кДНК, потому что оно сразу дает информацию о большом количестве процессированных транскриптов и промежуточных продуктах процессинга. Кроме того, если речь идет о полной характеристике генома конкретного организма, это все равно приходится делать. Поскольку эта процедура дорогостоящая (по стоимости сопоставима с определением нуклеотидной последовательности генома), есть масса методов, использующих компьютерные технологии, по крайней мере для предсказания мест в геноме, где могут располагаться кодирующие последовательности. На прошлой лекции рассматривалось, как много факторов должны учитывать такие программы. Эти компьютерные программы работают как экспортные системы, которые взвешивают каждый из этих факторов и на выходе дают оценку, есть в этой последовательности ген или его там нет (есть там кодирующие участки или нет). Большая часть таких полграмм организована по принципу нейронных сетей. Пример нейронной сети показан на рисунке. Правильное название – «искусственные нейронные сети», т.е. симулирующие реальную нейронную структуру мозга, а именно сеть биологических процессоров, которые связаны друг с другом отростками: аксонами на более длинные расстояния, дендритами – на короткие. На схеме кружками обозначены нейроны (в данном контексте логические единицы, которые на выходе дают «да» или «нет»). Вместо отростков нейронов используются логические соединения, выражаемые в коэффициентах. В самом простом случае нейронная сеть состоит из двух слоев нейронов. При этом входные нейроны – это логические ячейки, каждая из которых получает информацию о каком-то одном свойстве изучаемой последовательности: о рамках считывания, об использованных кодонах, о сайтах сплайсинга, о гомологии с известными кодирующими последовательностями и т.д. Есть много факторов, данные о которых поступают на вход нейронной сети. В этом же простейшем случае на выходе будет стоять всего лишь один нейрон, который будет говорить, кодирующая эта последовательность или некодирующая. Если есть рамка считывания, входной нейрон включается, идет положительный сигнал «да» к выходному нейрону. Соответствуют использованные кодоны предпочтительным кодонам для данного организма – второй входной нейрон выдает логическую единицу (1=«+»). Есть рядом подходящие сайты сплайсинга – логическая единица от третьего нейрона. Есть гомология – единица от четвертого. Если нет, посылается нуль. Все эти единицы и нули перемножаются на коэффициенты, и принимается решение, достаточно ли получившегося показателя. Понятно, что если с четырех нейронов получено четыре единицы, то выходной нейрон скажет «да» (что это кодирующая последовательность). А если их не четыре? Надо принять решение, достаточно ли этих факторов, чтобы считать изучаемую последовательность кодирующей. Понятно, что все коэффициенты должны быть каким-то образом определены. Определяются они за счет тренировки нейронной сети: на вход подаются данные по известным последовательностям, кодирующим и некодирующим, т.е. выходной нейрон при этом знает правильный ответ. Фактически нейронной сети скармливается некий массив экспериментально определенных знаний, а она рассчитывает коэффициенты (с помощью специальных программ). После такой тренировки сеть готова выдавать заключения по неизвестным последовательностям. Но выходных нейронов, как правило, больше, т.к. идет анализ всей последовательности, а выходные нейроны говорят, кодирующая эта последовательность или нет, экзон или не экзон, интрон или не интрон, регуляторный какой-то сайт или нет, CpG-остров или нет, транспозон или не транспозон и т.д.
Воспользуйтесь поиском по сайту: ©2015 - 2024 megalektsii.ru Все авторские права принадлежат авторам лекционных материалов. Обратная связь с нами...
|