Машинное обучение генерирует реалистичные геномы несуществующих людей

Благодаря новым алгоритмам и достижениям в области компьютерных технологий, электронные вычислительные машины теперь могут обучать сложные модели искусственного интеллекта и генерировать высококачественные синтетические данные, такие как фотореалистичные изображения или резюме вымышленных людей. В исследовании, недавно опубликованном в международном журнале PLOS Genetics, представлен обученный на базах существующих биобанков алгоритм машинного обучения, генерирующий фрагменты человеческих геномов, не принадлежащих реальным людям, но имеющих характеристики реальных ДНК.

— Существующие базы данных геномов — бесценный ресурс для биомедицинских исследований, но они либо недоступны для сообщества, либо защищены длительными и изнурительными процедурами подачи заявок в связи с обоснованными этическими соображениями. Это создаёт серьёзный барьер для исследователей. Машинные геномы, или искусственные геномы, как мы их называем, могут помочь нам преодолеть эту проблему в безопасных этических рамках,

сказал Бурак Йельмен (Burak Yelmen), первый автор исследования, специалист по современной популяционной генетике из Тартуского университета (Tartu Ülikool).

Многопрофильная группа учёных провела множество анализов для оценки качества генерируемых геномов по сравнению с реальными.

— Удивительно, но эти геномы, создаваемые случайно, имитируют сложности, которые мы можем наблюдать в реальных человеческих популяциях, и по большинству свойств они не отличаются от других геномов из базы данных, которую мы использовали для обучения нашего алгоритма, за исключением одной детали: они не принадлежат ни одному из доноров,

объясняет доктор Лука Пагани (Luca Pagani), один из старших авторов исследования.

Оценка близости искусственных геномов к реальным производится также, чтобы проверить, сохраняется ли конфиденциальность оригинальных образцов.

— Хотя поиск утечек среди тысяч геномов может показаться поиском иголки в стоге сена, сочетание множества статистических вычислений позволило нам тщательно проверить все модели. Детальное изучение сложных закономерностей утечки может привести к улучшению оценки и проектирования генеративных моделей, а также будет способствовать развитию машинного обучения,

сказала Флора Джей (Flora Jay), координаторка работы и исследовательница в Междисциплинарной вычислительной лаборатории Университета Париж-Сакле (Université Paris-Saclay).

С использованием машинного обучения уже генерируются лица, биографии, а теперь и геномы несуществующих людей. Эти воображаемые люди с реалистичными геномами могли бы служить в исследованиях своего рода представителями реальных геномов, доступ к которым затруднён для учёных.

Источник: 22century.ru