生成 AI を使用して新規タンパク質を設計する
トロント大学の研究者らは、生成拡散を利用して自然界にはないタンパク質を作成できる人工知能システムを開発した。これは、Midjourney や OpenAI の DALL-E などの人気の AI 画像作成プラットフォームの背後にある技術と同じである。
このシステムは生成生物学の分野の進歩に役立ち、まったく新しい治療用タンパク質の設計と試験をより効率的かつ柔軟にすることで医薬品開発のスピードアップが期待されます。
「私たちのモデルは、画像表現から学習して、完全に新しいタンパク質を非常に高速に生成します」と、T 大学テマーティ医学部のドネリー細胞・生体分子研究センターの教授であるフィリップ M. キム博士は述べています。 「私たちのタンパク質はすべて生物物理学的に本物であるように見えます。これは、細胞内で特定の機能を実行できるように折りたたまれる構造を意味します。」
この発見は雑誌「Nature Computational Science」に掲載され、査読付き雑誌としては初めてのものである。 Kim の研究室はまた、昨年 12 月の 2 つの同様のプレプリント (ワシントン大学による RF Diffusion と Generate Biomedicines による Chroma) に先立って、昨年夏にオープンアクセス サーバー bioRxiv を通じてこのモデルに関するプレプリントを公開しました。
タンパク質は、三次元の形状に折り畳まれるアミノ酸の鎖から作られ、それがタンパク質の機能を決定します。 これらの形状は数十億年かけて進化し、多様性があり、複雑で、数も限られています。
現在、既存のタンパク質がどのように折りたたまれるのかについての理解が深まり、研究者たちは自然界では生成されない折りたたみパターンを設計し始めています。
キム氏によると、大きな課題は、可能かつ機能的な折り方を想像することだという。
「どの折り目が実際に存在し、タンパク質構造内で機能するかを予測するのは非常に困難でした」と、テマーティ医学部の分子遺伝学部門と芸術科学部のコンピューターサイエンス部門の教授でもあるキム氏は言う。 。 「生物物理学に基づいたタンパク質構造の表現と、画像生成空間からの拡散手法を組み合わせることで、この問題に取り組み始めることができます。」
研究者らが ProteinSGM と呼ぶこの新しいシステムは、構造を正確にコード化した既存のタンパク質の画像のような表現の大規模なセットから抽出されます。 研究者らは、これらの画像を生成拡散モデルに入力し、各画像がすべてノイズになるまで徐々にノイズを追加します。 このモデルは、画像のノイズがどのように増加するかを追跡し、プロセスを逆に実行して、ランダムなピクセルを完全に新しいタンパク質に対応する鮮明な画像に変換する方法を学習します。
Kim 研究室の博士課程の学生で論文の筆頭著者である Jin Sub (Michael) Lee 氏は、この画像生成プロセスの初期段階の最適化が ProteinSGM 作成における最大の課題の 1 つだったと述べています。
「重要なアイデアは、拡散モデルが新しいタンパク質を正確に生成する方法を学習できるように、タンパク質の構造を適切に画像のように表現することでした」とバンクーバー出身で、韓国で学士号を取得し、スイスで修士号を取得したリー氏は言う。博士号取得のために U of T を選ぶ前に。
また、ProteinSGM によって生成されたタンパク質の検証も困難でした。 このシステムは多くの構造を生成しますが、多くの場合、自然界に見られるものとは異なります。 標準的な基準によれば、それらのほとんどすべてが本物に見える、とリー氏は言うが、研究者らはさらなる証拠を必要としていた。
新しいタンパク質をテストするために、Lee 氏と彼の同僚はまず、DeepMind のソフトウェア AlphaFold 2 の改良版である OmegaFold を利用しました。どちらのプラットフォームも AI を使用して、アミノ酸配列に基づいてタンパク質の構造を予測します。
OmegaFold を使用して、研究チームはほぼすべての新規配列が望ましいタンパク質構造に折り畳まれることを確認しました。 次に、彼らはより少ない数を選択して試験管内で物理的に作成し、その構造がたんぱく質であり、単なる化学化合物のつなぎではないことを確認しました。
「OmegaFold での一致と研究室での実験テストにより、これらが適切に折りたたまれたタンパク質であると確信できました。自然界のどこにも存在しないこれらの完全に新しいタンパク質の折りたたみが検証されたのは驚くべきことでした」と Lee 氏は言います。
この研究に基づいた次のステップには、最も治療の可能性がある抗体やその他のタンパク質のための ProteinSGM のさらなる開発が含まれる、と Kim 氏は言います。 「これは研究と起業家精神にとって非常にエキサイティングな分野になるでしょう。」
Lee 氏は、生成生物学がタンパク質の側鎖立体構造を含むタンパク質の配列と構造の共同設計に向かって進むのを見たいと述べています。 これまでのほとんどの研究は、タンパク質を結合する主要な化学構造であるバックボーンの生成に焦点を当ててきました。
「側鎖の構成は最終的にタンパク質の機能を決定します。側鎖の設計は複雑性の指数関数的な増加を意味しますが、適切なエンジニアリングを行えば可能かもしれません」とリー氏は言う。 「私たちはそれが分かることを願っています。」
この研究はカナダ保健研究所から資金提供を受けました。
-このリリースはもともとトロント大学のウェブサイトで公開されたもので、スタイルに合わせて編集されています。