Участники международного научного проекта ENCODE, созданного 4 года назад с целью максимально полной расшифровки информации, закодированной в геноме человека, сообщили о завершении первого этапа работы. Более 300 исследователей из США и других стран провели детальный анализ структуры и функции одной сотой части человеческого генома (30 млн пар оснований из 3 млрд). В клетках человека обнаружено неожиданно большое разнообразие транскриптов — молекул РНК, синтезированных на матрице геномной ДНК. Выяснилось, что первичному прочтению (транскрипции) подвергается 80% генома, несмотря на то, что кодирует белки лишь 2% генома. Этот и другие результаты говорят о том, что механизмы функционирования генома сложнее, чем принято считать, и сам «язык», на котором записана наследственная информация, нам еще не до конца понятен.
|
Задача-максимум, стоящая перед участниками проекта, состоит в том, чтобы выяснить, зачем нужен и что кодирует каждый из 3 млрд нуклеотидов человеческого генома. Причем выяснить не только теоретически, in silico (путем компьютерного анализа последовательностей ДНК), но и подтвердить результаты экспериментально. До решения этой задачи, разумеется, еще очень далеко. Пока же ученые отрапортовали о завершении первого этапа работы, целью которого была в основном отработка методик и проба сил.
Ученые использовали весь обширный арсенал средств и методов современной генетики, геномики и молекулярной биологии. В частности, широко использовалось сравнение человеческого генома с геномами других млекопитающих (см.: Геном макака резуса расскажет об эволюции человека, «Элементы», 19.04.2007; Прочтение генома опоссума доказало ключевую роль транспозонов в эволюции млекопитающих, «Элементы», 13.05.2007). Такое сравнение позволяет выявить «консервативные», то есть схожие у разных видов участки генома. Консерватизм обычно свидетельствует о функциональной важности данного участка (см.: Сравнение геномов человека и мыши помогло обнаружить новый способ регуляции работы генов, «Элементы», 21.04.2007).
Но главным «коньком» проекта ENCODE является тотальный анализ транскриптома, то есть тех молекул РНК, которые синтезируются клеткой на матрице геномной ДНК в ходе транскрипции — «прочтения» генетической информации. Напомним, что информация, закодированная в классических белок-кодирующих генах, реализуется в два этапа: сначала на матрице ДНК синтезируется РНК (транскрипция), затем на матрице РНК синтезируется белок (трансляция).
Ранее уже было известно, что только 2% генома человека кодируют белки. Лишь эти два процента генетического «текста» подвергаются не только транскрипции, но и трансляции. Было известно и то, что транскрипции подвергаются также и многие нетранслируемые участки генома. Это, во-первых, гены функциональных РНК (транспортных, рибосомных и разнообразных регуляторных), во-вторых — интроны, некодирующие «вставки», имеющиеся в большинстве белок-кодирующих генов. Перед трансляцией интроны вырезаются из молекул РНК (это называется сплайсингом). Одно из главных достижений проекта ENCODE состоит в том, что наконец удалось выяснить, какая доля геномной ДНК подвергается транскрипции в человеческих клетках. Оказалось — целых 80%, гораздо больше, чем предполагалось. До начала выполнения проекта было известно, что в той сотой части генома, которую предстояло изучить, есть 8 генов нетранслируемых РНК. Оказалось, что в действительности их тысячи.
Исследователи пока не могут точно сказать, какую функцию выполняют все эти транскрипты. Не исключено, что некоторые из них не выполняют никакой специальной функции и являются всего лишь побочным продуктом деятельности ферментов РНК-полимераз — деятельности, которая, вероятно, является отчасти хаотической (о хаотических аспектах работы некоторых белков см.: Работу регуляторного белка впервые пронаблюдали под микроскопом, «Элементы», 31.05.2007; Разгадан механизм движения «шагающего белка», «Элементы», 29.05.2007). Но многие из обнаруженных транскриптов все-таки зачем-то нужны. Это подтверждается тем, что в них имеются консервативные участки, почти одинаковые у человека и мыши.
Изучение транскриптов, считанных с обычных белок-кодирующих генов, тоже преподнесло сюрпризы. Всего в пределах изученного участка генома находится 400 таких генов. Более чем у 80% из них анализ транскриптов выявил наличие неизвестных ранее функциональных фрагментов — экзонов (экзонами, в отличие от интронов, называют те участки гена, которые кодируют белок). Некоторые из этих экзонов, как выяснилось, находятся в геномной ДНК на расстоянии тысяч пар нуклеотидов от всех остальных экзонов того же гена, иногда они даже оказываются внутри другого гена. То, что гены высших организмов состоят из кодирующих кусочков-экзонов, разделенных некодирующими вставками-интронами, было известно давно, но никто не знал, что экзоны многих человеческих генов находятся так далеко друг от друга и так причудливо разбросаны. Более того: были обнаружены транскрипты, содержащие экзоны двух разных генов.
Всё это заставляет признать, что мы до сих пор не очень хорошо представляем себе, что же такое ген и как он работает. Некоторые из участников проекта позволили себе даже высказаться в прессе в том смысле, что, мол, ген — понятие отчасти устаревшее, а на самом деле фундаментальными единицами генома являются транскрипты (как сказал кто-то из теоретиков — «мы до сих пор живем в мире РНК»). Другие не согласны с этим: по их мнению, ген остается центральным объектом молекулярной биологии, только вот определение этого понятия нужно подкорректировать.
В ходе выполнения проекта исследователи разработали целый ряд новых методик, которые пригодятся им в дальнейшем — например, научились гораздо лучше искать регуляторные участки ДНК, в том числе сайты начала транскрипции (промоторы) — последовательности нуклеотидов, сигнализирующие РНК-полимеразам о том, что в этом месте следует начинать транскрипцию. До начала выполнения проекта ENCODE в этой части генома человека было известно 532 промотора, сейчас их уже 775, и вдобавок много предположительных, ожидающих экспериментального подтверждения.
Назовем еще некоторые из полученных результатов:
Гистоны — специальные белки, на которые «наматывается» геномная ДНК в клеточном ядре — определенным образом модифицируются вблизи сайтов начала транскрипции и других регуляторных элементов; по характеру этих модификаций можно даже предсказывать наличие тех или иных регуляторных элементов в данном участке ДНК.
Примерно 5% нуклеотидов в геноме млекопитающих безусловно находятся под действием стабилизирующего (очищающего) отбора, иными словами, они консервативны — темп их эволюционных изменений сильно замедлен.
Для 60% этих консервативных оснований имеются экспериментальные подтверждения наличия функции — то есть они действительно зачем-то нужны, что-то кодируют.
Многие фрагменты ДНК с экспериментально подтвержденной функциональной ролью не являются, однако, эволюционно консервативными — последовательность нуклеотидов в них быстро менялась в ходе эволюции млекопитающих. По-видимому, многие из этих участков кодируют функции, не являющиеся жизненно важными. Такие участки могут служить хорошим «материалом для отбора». Кстати, сами исследователи именно этот результат считают наиболее неожиданным: раньше думали, что практически всё функциональное в геноме должно быть консервативным.
Функциональные фрагменты ДНК имеют разную степень вариабельности в пределах человеческой популяции: одни из них почти одинаковы у всех людей, другие могут очень сильно различаться.
Стоимость первого этапа исследований составила $42 млн. На продолжение работы NHGRI намерен выделять $23 млн ежегодно. Предполагается, что через 4 года весь геном человека будет подвергнут столь же глубокому анализу, как и изученная на сегодняшний день сотая часть. Ускорение и удешевление процесса будет обеспечено за счет новых методик, разработанных участниками проекта.