コラム

専攻教員が執筆したコラムをご紹介します。


いよいよ情報生命科学の出番です  

高木 利久

 情報生命科学とは、一般にはバイオインフォマティクスという呼称のほうが馴染みがあると思いますが、生命を情報システムとして捉え、網羅的な計測技術や情報処理技術を駆使して生命を解き明かすことを目指す学問分野です。生命研究のコミュニティにおいては、ヒトゲノム計画以降、データの氾濫が激しくなるにつれ、また、生命システムの複雑さが明らかになるにつれ、この学問の重要性必要性への認識はどんどん高まっており、人材育成の必要性が強く叫ばれていますが、学生さんには残念ながらあまり人気がある分野とは言えません。
 その理由はいろいろ考えられます。例えば、生命を情報システムとして捉えるとは具体的にどういうことかよく分からない、情報技術を駆使すると言うがそれはどんな分野でもそうなのではないか、ことさら言い募るのはどういう意味があるのか、生物と情報という異質な二つの分野の両方を勉強するのは大変だ、情報生命科学を学べばどういうことに役立つのかイメージしにくい、新しい分野、専攻だけにどういう就職、キャリアパスが描けるのか不安である、情報処理やデータベース作りは下請けのイメージがある、などです。
 これらの疑問の中には、根源的なもの本質的なものも含まれており、すぐに誤解を解くことは容易ではありませんが、以下に述べるようにこれらの疑問に少しは答えられる状況が生まれつつあるように思います。
 一つ目は、情報生命科学がこれまで培ってきた技術や方法論が、基礎分野だけでなく、実際の応用分野(医学、薬学、農学、環境学)に役立つ場面がいろいろ出てきたことです。逆の言い方をすれば、情報生命科学がなければ、これらの学問分野の多くの問題が解けないという状況が明らかになってきました。いわゆる学問の出口が明確になってきたということです。
 二つ目は、「ビッグデータ」の登場です。大量のデータから機械学習や統計解析などの手法を用いて新たな規則や知見を得ることがビジネスの分野でもアカデミックでも大きな注目を集めるようになりました。生命科学では、少し前より、シークエンサー(ゲノム配列決定装置)の劇的な進展により、ペタ(10の15乗)オーダのデータを扱うことが当たり前の時代になっていましたが、一部の研究者以外はそれほど注意を払ってきませんでした。それがビッグデータの流行のおかげで、情報生命科学の重要性が改めて注目されるようになってきました。
 三つ目は、このような状況の中で、大規模なゲノムコホート研究など、まさにビッグデータの産出とその解析を目的とするプロジェクトが立ち上がってきました。その中で、情報生命科学を学んだ人材の必要性がこれまでにも増して高くなってきました。すなわち、キャリアパスも見えてきたということです。
 以上、まとめますと、情報生命科学はこれまで研究の支援の意味合いで見られることが多かったのですが、いままさに生命科学の中心的な学問になりつつあるということです。いよいよ情報生命科学の出番です。若い方に是非この分野に飛び込んでいただきたいと願う次第です。

(2013年3月, 「創成」第21号より転載)


ゲノム解析分野におけるビッグデータの波 

笠原 雅弘

 ゲノムには生物を形作るうえで最も基本的な情報が格納されています。小さな酵母菌でも、ヒトのようなほ乳類でも、ゲノムに書き込まれている遺伝子が酵母菌なりヒトなりを形作っている点では共通と言えます。生物を研究するうえで、ゲノム配列を解読して研究に活用するというアイディアは、私を含めた還元論的なアプローチが好きな学者にとってごくごく自然な発想と言えましょう。ゲノム配列の中にどのような遺伝子が埋め込まれていて、それらが生物の一生においてどのような時期に働き、それぞれどのような機能を担っているのか、どのように組み合わさって生物を形作っているのか、これらがいつか完全に理解できたら、遺伝病の治療や動植物の品種改良によるおいしい食糧の増産、バイオマスエネルギーの産生など応用範囲はいくらでも思いつきます。
 そんな、ゲノムから生命を理解しようとするアプローチを取る研究者達が最近、嬉しい悲鳴を上げています。2000年代中頃に米国が「1000ドルゲノム計画」、すなわち1000ドルでヒトのゲノム配列を読み取ることができるようにしよう、という研究開発目標を立てました。DNA配列シークエンサーの技術は毎年順調に進歩し、1塩基あたりの読み取りコストはここ10年間で5桁以上下がりました。しかし、急激なDNA配列シークエンサーの技術革新に対して、ゲノムの情報解析技術は全く追いついているとは言えません。世界中のゲノム解析拠点ではペタバイト級のデータを前に悪戦苦闘しています。ゲノム解析分野はまさにビッグデータの時代に突入したのです。
 我々はそのような大量のゲノム観測データを整理・比較するための様々な情報解析技術を研究しています。最初のステップとして重要なのは生物のゲノム配列を正しく決定することです。現状の技術では染色体の長さより遙かに短い長さのDNA配列しか読み取ることができないために、染色体をランダムに裁断し、この短い断片配列をランダムに読み取っています。読み取られたランダム断片配列をコンピューター上で処理して繋げ合わせ、元の染色体のDNA配列を再構成しているのです。この再構成では30 億本の断片配列を、機器の読み取りエラーなどの様々な条件を考慮しつつ繋げ合わせる大変な計算を必要とします。我々ではありませんが4096 CPUコアに16 テラバイトのメモリ(2 ノード)を装備したマシンを使っているチームも居ると言えば計算の大変さが少しは想像できるでしょうか。計算の高速化・省資源化・高精度化が今後の課題です。
 ゲノム配列が簡単に決定できるようになれば、次はゲノムの中にどんな遺伝子があるかが気になります。働いている遺伝子の同定は、mRNAを逆転写したcDNAをランダム裁断して読む方法が主流になりましたが、情報処理がボトルネックになってきているのはゲノムの読み取りと同じです。こういった観測装置から生み出されるビッグデータの情報解析技術が完成すれば、今まで簡単には見ることのできなかったゲノムや遺伝子を安価に、そしてクリアに観測することができるようになるのです。そのインパクトはCTスキャンやMRI・電子顕微鏡などの発明と並ぶと言って良いでしょう。

(2012年9月, 「創成」第20号より転載)


長いひものDNAは、なぜ絡まらないのでしょう? 

森下 真一

 ヒトDNA約30億塩基対は、仮に一直線に伸ばすことができれば、長さが2メートルにも及びます。この長いひもであるDNAは、直径10マイクロメートル程度という小さな空間である細胞核の中に押し込められています。いつもはある程度弛緩した状態にあり、細胞核内で広がっています。しかし体細胞が分裂する際には、それに先だってDNAは複製され染色体として凝縮し、2つのコピーはうまく分離されて各細胞へと分配されます。DNAは長いひもです。一般には、ひもをグシャグシャに丸めてから伸ばすと結び目ができやすいです。そうすると、DNAが分離される際には結び目ができて絡まり、壊れやすいのでは?にもかかわらず、うまく2つに分離されるということは、背後に何らかのうまい構造的なカラクリがある?そう考えたくなります。
 では、結び目ができにくく、絡まりにくく、小さい空間に入れやすい構造とは、どのような形なのでしょうか?有力な候補として、ヒルベルト曲線やペアノ曲線などの自己相似的フラクタル構造をとる空間充填曲線があります。そのため、DNAはこのようなフラクタル構造をとるのではないか?という予想が以前からありました。しかし自己相似性を示すことは容易なことではありませんでした。
なぜなら約30億塩基対もあるDNA全体の状態を、詳細な解像度で観測する手段が必要になるからです。さいわい近年、DNA配列を高速に解読する装置の目覚ましい進歩により、徐々にですが、長いDNAの3次元構造を間接的に観測できるようになってきています。この手段を使って分析した結果、DNAがフラクタル構造であることを示唆する結果が2009年に報告されました。しかし残念ながら、構造を正確に決めるほどの精度はなく、依然として興味深い謎として残っています。
 このようにDNAの3次元構造の理解は端緒についたばかりです。でありながら、いろいろな期待があります。特に、3次元構造はDNAの機能を理解する糸口としても大切であると考えられています。
 たとえば、ある遺伝子群が、DNA上では遠く離れた位置でコードされているにもかかわらず、協調して働いているケースが多いのです。遠く離れているのに、なぜでしょう?協調する遺伝子群がDNAの3次元構造の中で近くに配置されていれば、同時に制御されるには都合が良いですね。もうひとつ例をあげます。多様な遺伝子がDNAから読みだされる量は大きく隔たりがあり、最大量と最小量のあいだには数万倍の開きがあります。これについても構造がある程度関与しているという推測があります。大量に読まれる遺伝子の周辺では、その遺伝子の開始部分と終了部分がループするようにDNAが折り畳まれていると考えると好都合です。なぜなら、遺伝子をクルクル何度も読みだすために有利な構造となるからです。
 DNAという小宇宙の3次元構造は依然として未知ですが、生命の本質を理解するための重要なヒントが隠されています。

(2011年9月, 「創成」第18号より転載)


コンピュータを用いた生命科学 

木立 尚孝

 1990年代に初めて生物の全ゲノムが解読されてから、これまでに微生物からヒトまで数千の生物種についてゲノムの解読が行われました。大規模なデータ計測の対象は、ゲノム配列のみにとどまらず、RNA、タンパク質、代謝物質、DNAの修飾状態など、生命活動を構成するさまざまな要素へ広がっています。これらの計測により得られる膨大なデータの中から科学的発見を行うオーミクス科学において、大量のデータを蓄積、検索、解析する学問である情報科学は益々重要性を増しています。
 情報科学は20世紀中盤に成立した比較的新しい学問ですが、この20年ほどの計算機の劇的な性能向上のおかげで、私たちの日常生活のみならず様々な科学分野においても、最も影響力の大きな基盤的学問になりました。生命科学分野でも、計測データが蓄積するに従い情報科学的手法は日々強力さを増しています。私自身はウェットの実験を行なわず、コンピュータのみを用いて研究をするドライ系の研究者であるため、この情報科学的手法の強力さが頼みの綱です。人類規模のプロジェクトの成果として大量データが公開されるたびに、これでまた情報科学が強力になったと、喜んでいます。
 私にとって大きな関心は、どうやれば、蓄積されたデータから得られる限りの知識を抽出できるかという点です。計測を行う実験者は、自らの生命に関する疑問を解決するために計測を行うものですが、得られるデータが包括的なものであることから、その実験者が思いもつかなかったような生物学的真実を、データが物語っているということがあり得ます。また、別々の研究プロジェクトで計測された大規模データ同士を相互に比較解析することでも、個々の研究では気づかなかった発見が期待されます。論文発表が済み、一般公開されて新規性の薄れたデータの中からでも、深い生物学的真実を掬いだせるような、技術力の高い研究を目指しています。
 今のところは、ゲノム配列に潜むシグナルを感度良く検出する方法論の開発を主体としています。進化系統樹の理論を用いたゲノム中の機能領域の発見、文脈自由文法という情報科学の概念を用いたRNAの二次構造の解析、ベイズ推定という統計的手法を用いた頻出配列モチーフの発見など、様々な方面での技術開発を進めています。現在の技術開発の日々の先に、ランダムな文字列数値列が並んでいるだけにも思える大規模データが、生物の本質を語る文章や絵画に見えてくる日が来るのではないかと期待しています。

(2011年9月, 「創成」第18号より一部改変し転載)


情報生命科学・バイオインフォマティクスを取り巻く現状と近未来 

服部 正平

 情報生命科学専攻(Department of Computational Biology)は平成13年の設立以来、計算機科学と生物学が融合したバイオインフォマティクスというダブルメジャーを有する人材の教育・養成と研究活動を独立した専攻として進めています。
 当専攻では、入学する学生の大部分が情報学か生物学のいずれかしか学んでいないという特殊性から、情報系学生には生物学、生物系学生には情報学のそれぞれの基礎的授業を開講しています。ついで、ゲノム生物学、システム生物学、環境ゲノム情報学、ソフトウェア論、データベース論等の専門性の高いバイオインフォマティクス講義・演習並びに各研究室での修士・博士研究を行っています。この教育システムは基幹講座(7研究室)、理学系生物化学科の兼担講座(4研究室)、協力講座(分子細胞生物学研究所と医科学研究所の4研究室)、連携講座(産業技術総合研究所と理化学研究所の2機関)の各教員によって実施されています。これらの教育・研究活動は、21世紀COE「言語から読み解くゲノムと生命システム」(平成16-20年度)とグローバルCOE「ゲノム情報ビッグバンから読み解く生命圏」(平成21-25年度)の競争的グラントをバネにして、生命系・基盤系・環境系とも連携した研究科全体の取り組みとして着実に進んでいます。
 学生に関する大きな変化は、理学部生物情報科学科の第一期生が平成23年度から当専攻に進学してくることです。平成19年度設置の生物情報科学科では、当専攻と理学系生物化学科の教員がその教育の中核を担っています。学部からの一貫したバイオインフォマティクス教育システムがここに確立され、全体的な質向上と多様な人材輩出が今後見込まれます。
 一方、ここ数年における生命科学分野での驚異的な技術革新のため、当専攻のミッションは大きな転換期を迎えています。たとえば、従来の数千倍のスピードを有する第2世代シークエンサー(DNA塩基配列解読装置)の実用化は、ヒト個人のゲノム解読、1分子レベルでの遺伝子発現解析、環境中の微生物群集の網羅的解析等、これまでとは桁違いの生物情報の取得を可能にし、バイオインフォマティクスの重要性を改めて認識させるとともに、研究者の研究観そのものも大きく変化させています。グローバルCOEはこのような技術革新への教育面での先取り的対応であり、平成20年度設置の当専攻とメディカルゲノム専攻の教員で構成されるオーミクス情報センターはゲノム、トランスクリプトーム、エピゲノム、メタゲノム等を集約したオーミクスという新たな研究領域をリードする最前線施設と位置づけられます。また、当センターは第2世代シークエンサーを用いた研究支援活動を内外の研究機関に開放し、新たな研究領域の開拓と推進を実践しています。
 シークエンサーは今後も驚異的なスピードで第3、4世代へとその技術革新が進み、それに伴って得られるDNA情報量はまさにビッグバン時代を迎えることは確実です。そして、その先には物質資源から情報資源を中心とした生命科学研究への大転換が予想されます。情報資源に基づいた研究及び産業の創成は物質資源に乏しい我が国の科学技術が取り得るひとつの合理的な戦略であり、バイオインフォマティクスの役割は食糧、環境、エネルギー、疾患等の人社会が抱える諸問題の解決に向けてますます増えると考えられます。当専攻はこのような将来に即した教育・研究に邁進したいと考えています。

(2011年3月, 「創成」第17号より転載)


未来へ 

岩崎 渉

 情報生命科学はマルチフロントな学問分野です。新たな網羅的生命科学データの計測、網羅的データを扱うためのより優れた情報処理、そして網羅的データからの新たな生命現象の発見と、それぞれが全体として一つの情報生命科学という学問を形作りつつ、一方で大きく異なったフィールドを形成しています。
 この「創成」でもすでに何度か触れられているように、情報生命科学はすでに確立し成熟した学問分野としての役割も期待されるようになりました。情報生命科学のそれぞれのフロントに精通した人材の重要性は今後も、特別な研究センターのみならず一般的な研究室や病院などでも網羅的データを取得できる解析装置の普及などによって、さらに高まっていくことでしょう。来年度は先ほど新設された理学部生物情報科学科の1期生が本研究科にも進学しますが、私自身も、この地で微力ながら貢献していければと考えています。
 さて一方で情報生命科学には、まだフロントがどこにあるかも定まっていない混沌としたフィールドもいくつか存在するようです。その一つが、爆発的に増え続けるデータを、新しい生命科学的な概念や仮説へと効果的に結びつけていくためにはどのようにすればよいかというものでしょう。私自身柏での研究を通じて今も模索を続けていますが、広大なフィールドの中で困惑を覚えることも少なくありません。
 漠とした未来に向かっていく上で頼りになるものは、やはり仲間なのでしょう。幸いにして、本研究科COEの後援で主催した「アジア/日台若手計算オーミクス研究者会議」や全国の仲間と設立した「生命情報科学若手の会」のメンバー達など、多くの語り合える仲間をこれまでに持つことができました。困難にあたれば助けあい、また新鮮なインスピレーションを与えてくれる彼らとともに、これからも情報生命科学の広大なフィールドの中で考えながら走り続けていければと考えています。

(2011年3月, 「創成」第17号より加筆修正し転載)


ゲノム情報ビッグバン 

森下 真一

 21世紀に入り、ゲノム解読は、応用を目指した生物学の中心的研究手段となっています。個別化医療を目指した医学的な応用は言うまでもなく、例えば、ヒトの腸内細菌や、地球の特殊環境下で生息する微生物のゲノムが数多く読まれ、有用な活性を示す酵素遺伝子の発見に役立っています。また、健康維持や病気発症のメカニズムを、食習慣や生活環境という漠然とした環境要因に帰するのではなく、環境中や消化器系に常在する細菌叢のゲノムから解明する研究が進んでいます。さらに、CO2を増加させないバイオマスエタノールを効率的に生産するために、セルロースを分解しエタノールを生成する酵素遺伝子が微生物ゲノム配列から探索され、それを組込んだ微生物が設計されつつあります。ゲノム解読は、医学に加え、健康・地球環境・エネルギー問題をも解決する手法として広がりました。
 このように研究が急速に進展している背景には「ゲノム情報ビッグバン」と我々が名付けるゲノム解読スピードの革命的向上があります。ゲノム解読装置1台が1日に解読できる量は2002年の200万塩基から2007年には3~5億塩基となり、5年間で約100倍改善しコストは劇的に下がりました。1分子計測技術が発展し、今後3年間でさらに約1,000倍改善し2兆塩基に達する可能性もあります。約30億塩基対のヒトゲノムの解読には17年間要しましたが、現在では約1ヶ月、3年後には10分程度になると予想されています。
 ゲノム情報ビッグバン革命が進むなか、私たちGCOEは、時代を先取りした情報生物学教育を幅広く展開し、世界トップレベルの教育研究拠点を形成することをめざします。具体的には、仮説の実験的検証にとどまらず、大量データから帰納的に真実を導く素養を持った研究者を養成する計画です。前回の21世紀COEでは超一流雑誌で成果報告ができるような世界トップレベルの若手研究者を養成しました。引き続き今後5年間で約20名輩出することを目標としています。
 平成21年7月から活動を開始し、当初の提案にしたがって以下の教育研究プログラムを実施
しており、おおむね目標通りの成果が出てきています。
●特任教員を公募し、特任准教授2名、特任講師2名、特任助教4名を採用し、全員平成22年4月までに着任しました。
●東京大学内に分散する柏、本郷、白金キャンパスおよび外部協力研究機関CBRCを接続する遠隔講義システムを完備しました。
●博士課程の大学院生からRA32名を選抜採用しました。平成22年2月にRA発表会を実施し、学生のもつあたらしい研究テーマを発掘し、支援しています。
●アジアにおけるゲノム情報ビッグバンの研究拠点である北京ゲノム研究所との共同ワークショップを中国シンセンで開催し活発に意見を交換しました。参加者は日中双方合計約30名で、非公開で最新の研究成果に関する情報交換をおこないました。
●「アジア若手科学者会議」を3月10-12日に台南(台湾)の国立成功大学で開催しました。公開の会議であり約100名が参加しました。参加した学生全員が英語でのポスター及び口頭での発表を行いました。
●国内外の研究者による特別講演を実施しました。
●本GCOEの全メンバー間の情報交換と最新の研究成果の発表の場として「GCOE談話会」を毎月1回企画しています。
●平成22年度における授業計画を策定しました。当初は学部3、4年、および大学院生を対象にした教育プログラムを中心にする計画でしたが、本分野の広がりを鑑みて、さらに学部1、2年生向けの入門的ゼミナールも企画しています。
●平成21年度の研究成果も順調であり、Nature、Science、PNAS、Genome Research等のインパクトファクターの高い雑誌に事業推進担当者の研究チームから論文が掲載されました。
●これらの研究成果は以下のホームページからも公開し、アウトリーチにも力を入れています。(URL http://www.cb.k.u-tokyo.ac.jp/gcoe/)

(2010年9月, 「創成」第16号より転載)


Automation of Science の可能性 

森下 真一

 科学はどの程度自動化できるか? この問題に取りつかれた人は多い。数学では、定理の証明を自動化することは一般には不可能であることが知られている。1931 年ゲーデルは、証明も反駁もできない性質を提示してみせた(不完全性定理)。その後、情報科学でも自動化の限界が分かりはじめる。1936 年チューリングは、ゲーデルの技法を応用して、停止するか否かの判定が不可能なプログラムを記述してみせた。
 視点をかえて、人間の知性は模倣できるか? たとえば、チャットした遠方の相手が、まさか機械だとは気づかなかったとしよう。その機械は人間の知性をもつと考えて良いか? この意味での知性をコンピュータゲームに感じることは多いだろう。これはチューリング・テストとよばれ1950 年にチューリングが提案した。  少し難易度をあげよう。生命科学者の知性をもつ機械をつくることができるか? チューリングの孫弟子のキングは、この命題を検討するため、実際に機械を作成している。ロボットの力を借り、サンプル調整、細胞の顕微鏡撮影、画像処理による細胞の微妙な変化の検出を自動化している。さらに、実験結果や過去の文献から、どの遺伝子の働きを制御した細胞を分析すべきかを考えるアルゴリズムを模索している。このプロセスを繰り返せば、いつかは遺伝子の新たな機能を自動的に発見できるかもしれない。現実には根気が必要で、ロボットの制御に多くの時間が取られたと言っていた。表題の“ Automation of Science” は、キングが2009年に発表した論文のタイトルである。過激なタイトルだが、掲載した Science 誌は歓迎してくれたそうである。
 我々のGCOEでも、DNAを解読しDNAのもつ機能を推定する方法論を、様々なレベルで自動化しようと試みている。では Automation of Science の道のりは明るいだろうか? 考えもしなかった新しい科学的発見に我々は感動する。これは到底自動化できないように思う。しかし自動化できる部分は少しずつ着実に広がるだろう。

(2010年6月、東大GCOEサイト「学生のみなさんへ」より転載)


ゲノム情報ビッグバンから読み解く生命システムの進化 

岩崎 渉

 生命の誕生以来、ゲノム情報は35 億年間途切れることなく連綿と、地球上の全ての生物にあまねく伝えられてきました。今世紀に入り、これら生命の樹全体に渡る生物群のゲノム情報がゲノム解読プロジェクトによって次々に明らかにされ、その数は1,000の大台に到達しています。この数は、本GCOE 拠点名称にもなっているゲノム情報ビッグバン、すなわち技術革新によるゲノム情報の爆発的な増大とともに今後さらに加速度的に増加することが確実視されています。
 複雑な生命システムはゲノム情報に基づいて形作られ、生き生きと活動する「生き物」としての姿を現します。生命の樹全体に渡るゲノム情報の解読は、その大規模比較による過去の生物のゲノム情報の復元、すなわちゲノム進化過程の再構築とともに、現在の生物の複雑な生命システムがどのように獲得されてきたかその過程を推定することが可能になりつつあることを意味しています。
 そこで我々は、ゲノム情報ビッグバンがもたらす膨大な生物種についてのゲノム情報を用いることで、ゲノム進化の歴史を再構築し生命システム進化の仕組みを明らかにすることを目指して研究を行っています。これまでに、急激なゲノムサイズの拡大や縮小を考慮できるゲノム進化解析アルゴリズムを開発し、ゲノム進化解析においてこれまで存在していた曖昧性を排除することに成功しました。さらにこのアルゴリズムを用いることで、複数の遺伝子が協調して機能を発揮するパスウェイやネットワークがどのようにして進化しうるのかという進化学上の大きな謎に関して解析を行いました。その結果、原核生物における代謝パスウェイの進化には相互作用しあう生物種群内での双方向的な遺伝子水平伝播が大きな役割を果たしたことが明らかになってきています。

(2010年6月、東大GCOEサイト「若手教員紹介」より転載)


情報生命科学のこれから 

浅井 潔

 生命科学は、構成要素個々の機能解明から、膨大なデータ解析による生命システムの理解へとその重点を移しつつあります。そのために不可欠な情報生命科学(バイオインフォマティクス)は、生命科学研究者に当然に求められる方法論となりつつあり、成熟した学問分野としての役割を期待されるようになりました。
 情報生命科学専攻は2003年の設立以来、計算機科学と生物学の学融合を目指し、系・部局・キャンパス・学内外を超えた教育活動を行ってきました。21世紀COE「言語から読み解くゲノムと生命システム」では、生命系だけでなく基盤系・環境系とも連携し、裾野の拡大を模索しました。理学系・医科研・分生研には学内協力講座、理研・産総研・かずさDNA研には学外連携講座を設置し、学内外をTV会議システムで結んだ遠隔講義を行っています。
 また、塩基読み取り速度が数年で1000倍以上も劇的に向上する大量データ解析時代の研究を推進するため、オーミクス情報センターが設置され(平成20年度)、国内の他機関だけでなく国外の研究所とも連携したグローバルCOE「ゲノム情報ビッグバンから読み解く生命圏」が開始(平成21年度)されました。
 柏キャンパスは今のままでも十分に魅力的であるように私には思えますが、学部学生の声から、受験生・学部学生に対する柏キャンパス・新領域の知名度が低いために、その良さを知ってもらう機会が少ないことが明らかになりました。グローバルCOEでは、全学自由ゼミなどを活用し、柏キャンパス、新領域、バイオインフォマティクスの啓蒙活動を行うことを計画中です。また、長期的視点に立てば、学外の(あるいは国外の)優秀な学生に対してアピールする活動もさらに強化しなければ、東京大学の大学院が生き残っていくことはできません。海外の機関との交換留学などの仕組みも活用し、国際的なキャンパスの実現に向けて活動していきたいと考えています。
 理学部では、バイオインフォマティクス教育を学部レベルから行うため、生物情報科学学部教育プログラム(平成14年度-18年度)が開講され、生物情報学科が新設(平成19年度)されました。生物情報科学科は、新領域情報生命科学専攻の基幹講座全教員と、理学系生物化学科の教員の一部がその教育の中核を担っていますが、平成22年夏には、その第一期生が大学院(修士課程)受験を迎えます。情報生命科学専攻では、本格的な学部レベルのバイオインフォマティクス教育を受けた初めての学生を受け入れ、同時に他分野からバイオインフォマティクスに転向して学ぶ学生にも魅力的な教育体制を整えていかなければなりません。そのためには、学内のバイオインフォマティクス関連の教員が一致協力して教育を行うことができるような環境を整備することも避けて通れない課題です。部局を超えて組織された今回のグローバルCOEがその契機となるかも知れません。皆様のご理解とご支援をお願いする次第です。

(2010年3月, 「創成」第15号より転載)


生命科学の新たな地平を開く情報生命科学専攻の歩み 

浅井 潔

 生命科学の目的は、生体高分子など個々の構成要素の機能解明から、膨大なデータ解析による生命のシステムとしての理解へと、変貌しつつあります。本研究科は、生物のシステム論的理解に本質的に不可欠なバイオインフォマティクスの研究と教育を行うため、2003年4月に情報生命科学専攻を設置しました。
 2004年には、本専攻を中心に研究科を横断した21世紀COE「言語で読み解くゲノムと生命システム」が採択され、柏キャンパスがバイオインフォマティクスの拠点として広く認知されることとなりました。2006年には、専攻発足時の基幹講座、分子細胞生物学研究所・医科学研究所の学内協力講座、かずさDNA研究所の連携講座に加え、理化学研究所・産業技術総合研究所に連携
講座が設置されると同時に、TV会議システムによる遠隔講義が本格的に導入されました。本専攻では、様々なバックグラウンドの学生に情報科学、生物学、バイオインフォマティクスの教育を行ってきましたが、新たな生命科学の地平を切り拓くことのできる人材の育成には、学部段階からの一貫した教育が不可欠です。このため、2007年に本学としては30年ぶりの新学科、生物情報学科が理学部に設置され、本専攻の教員の兼坦による学部・大学院を貫く教育体制が本格的に構築されました。
 柏キャンパスにおけるバイオインフォマティクスの発展に、新たなページを開こうとしているのが、本年のオーミクス情報センターの設立です。新型シークエンサーの登場により、数桁高速のゲノムシークエンス解析や従来の100倍以上の検出感度を有した遺伝子発現の解析が可能となる一方、より大規模で網羅的な情報解析技術が必要となりました。今後は、ゲノム・トランスクリプトーム・プロテオーム研究と大量情報解析技術を結集して生命科学のみならず環境科学などの諸分野との学術統合化を目指した活動が展開されることが期待されています。

(2009年3月, 「創成」第13号より転載)


あらゆる生命科学データの共有化を目指してー統合データベースプロジェクトの挑戦ー 

高木 利久

 ヒトゲノムの解読完了(2003年)を契機として、生命科学は仮説駆動型の科学からデータ駆動型の科学に大きく変貌を遂げようとしています。この傾向は、データ量だけから言えば、ヒトゲノム(30億塩基)の何倍もの塩基配列データをたった一日で産出可能な次世代型シークエンサーの登場により、ますます拍車がかかろうとしています。
 これまでの仮説駆動型の研究スタイルでは、研究者がそれまで蓄えた知識と深い洞察のもとに仮説をたて、それを巧妙かつ小規模な実験によって検証するということで生命科学が進められてきました。一方、データ駆動型では、ハイスループットな測定装置を使って、まずは網羅的に大量データを取得し、それを貯めておき、解くべき問題に応じて、その中から仮説候補を探し出すということで研究が進められます。ヒトゲノムにおける疾患関連遺伝子探索を例にとれば、すべてのヒト遺伝子はデータベース化されていますので、候補遺伝子はその中から探せば良いわけです。
 ところで、仮説駆動型の研究では、データはあくまでも仮説検証の根拠を示すためのものでしかなく論文や特許の付録物の意味しかもちませんが、データ駆動型の研究では、データそのものがまさに宝の山です。ヒトゲノムのデータを自分一人だけが所有している状況を想像してみてください。まさに宝の山です。このことは、ハイスループットな測定装置の出現が、研究スタイルを一変させ、データそのものの意義を大きく変容させたことを意味します。
 データの意義が増したことにより、データを囲い込もうという動きが起きるのは必然です。詳しくは述べませんが、国立大学の法人化、バイドール法の施行、欧米との激しい競争等がこのような動きを正当化し、加速化させてきました。民間企業の資金によって行われたものであれば致し方ありませんが、税金を使って行われたものについてもそのような傾向が見られるのはデータ産出者以外のものにとっては困ったことです。
 ゲノム配列データに関しては即時公開のルールがあり一般にそれが守られていますので、他のデータも同じように公開されているのではと一般に思われているかもしれませんが、ゲノム配列以外のデータは必ずしもそうはなっていません。また、税金で行われたものは公開するというルールになっているはずに違いないと。確かに、多くの場合「公開」はされています。しかし、「共有」可能までになっているものはそれほど多くありません。一般に「公開」と「共有」は似たような意味で使われることが多いと思いますが、そこから有用な知識や仮説を引き出そうとする場合にはまったく異なる概念です。
 何か質問をいれると、それにマッチしたデータを返してくれるという意味でのデータ公開はよく行われていますが、データの丸ごとダウンロードを許しているケースは多くありません。このような(共有ではない)公開では、利用者側にあらかじめ仮説(質問)がないとそれらのデータを有効活用できないということになります。
 冒頭に述べましたように、近年の測定技術の進展は目覚ましく、それらが生産するデータはとても膨大でデータ産出者を中心とした一部のグループだけで解析しつくせる代物ではありません。さまざまな問題意識、アプローチ、解析手法をもった研究者がさまざまな観点から解析することが必要であり、これがデータを、すなわち税金を有効に生かす道です。このためには、まさに「公開」ではなく、「共有」化が不可欠です。
 データ駆動型への移行により、我が国でもこれまでに網羅的なデータ産出を目的とした国家プロジェクトが大小いくつも企画実行され、それをもとにデータベースが多数作られてきました。しかしながら、上に述べたような事情から、それらのデータの流通が阻害され有効活用がなかなか進まないという状況が生まれています。
 さて、前置きが長くなりましたが、最近このような問題を解決しようという動きが生命科学にかかわるいくつかの省庁で出てきました。その一つが文科省のライフサイエンス統合データベースプロジェクト(平成19年から平成22年)です。筆者はこのプロジェクトの代表を務めていますが、このプロジェクトでは、種々のプロジェクトやデータベースのポータルサイトや横断検索などのサービスとそのための技術開発を行っています。詳しくは http://lifesciencedb.jp/ をご覧ください。「統合」という言葉からは、データ間の関連付けをしてデータの利便性を高めるということがメインの仕事と想像されるかもしれませんが、実はそれだけではありません。意図的にせよ、そうでないにせよデータベース産出者にとどまっているデータを受け入れ、共用可能にすることが、また、そのための共有ルールを関係各所に働きかけて作って行くこと、これこそがプロジェクトの使命です。その理由はいままさに上に書いた通りです。
 この使命は、しかしながら、データ産出者も含め、多くの生命科学研究者からの理解や賛同が得られなければまっとうできません。本稿が生命科学におけるデータ共有の重要性の理解に向けた一助となれば幸いです。どうかご理解、ご協力のほど何卒よろしくお願いします。

(2008年9月, 「創成」第12号より転載)


一網打尽─環境細菌叢のメタゲノム解析に挑戦する ヒトゲノムから環境ゲノムへ 

服部 正平

 ヒトゲノム計画が完了した今も生物ゲノムの解読スピードは指数関数的に増大しています。この背景には、DNAシークエンス技術の著しい進歩があります。現行のシークエンサーの1回当たりの解読塩基数は約30万塩基であり、これはヒトゲノムが開始された1990年頃の約100倍です。ところが、昨年及び今年になって市場にでてきた2つのタイプのシークエンサーの1回当たりの解読塩基数は、それぞれ1億塩基(100メガ塩基)及び10億塩基(1ギガ塩基)と、その詳細な原理は割愛しますが、実に現行の数百から数千倍と一挙に増えています。
 このようなシークエンサーの性能アップの第一の目的はヒト個人のゲノムを全解読するところにあります。ヒトゲノムは約3ギガ塩基であり、一個人のゲノムを1日または数時間で解読できるようになれば、数百名、数千名の病気の患者や健康な人のゲノムを隅々まで調べることが可能になり、その比較からより正確に病気とゲノム情報の関係を対応づけることができるわけです。
 一方で、このようなシークエンス技術の進歩によって、これまで不可能だったものがゲノム解析の対象となってきました。その中で、地球の自然環境中に棲息する細菌集団(細菌叢)のゲノム情報があります。細菌はヒトを含めた動植物や昆虫の体内、極低温や高熱、海、土壌、川などのいかなる環境中にも棲息でき、そのバイオマスは地球全生物種の1/3を占め、地球は細菌の惑星という考え方もあるほどです。これまでに2千種類ほどの細菌のゲノムが解読されています。しかし、それらの大部分は細菌叢から分離され、その純粋培養が実験室で成功したものに限られています。このような培養可能な細菌種はきわめて少数であり、地球上の全細菌種の99.9%以上が単独で培養ができない難培養菌です。この難培養菌の正体を明かすことも含めて、自然界細菌叢に含まれるゲノム・遺伝子情報を丸ごと獲得するメタ(超)ゲノム解析が考案されました。具体的には、細菌叢から直接調製したゲノムDNAの混合物をショットガンシークエンスして、大量のDNA配列データを得る方法です。そして、これらのDNA配列データの情報学的解析から、菌種の同定や構成比、遺伝子情報をベースにした叢全体の生体システム、さらにそれらが棲息する環境の状況を知る手がかりを得ることができます。たとえば、メタンを資化する遺伝子や菌種が多数を占めれば、その環境はメタンを豊富に含んでいることがわかります。このほかにも、共存する菌種間にある物質交換や共生系のしくみも知ることができます。このようなデータは、分離された細菌を個々に解析する従来のやり方では得ることができません。
 大半が未知菌種で構成される細菌叢が解析対象になることから、多数の新規な細菌、遺伝子、代謝反応、代謝物質の発見が見込まれます。これらは医療、エネルギー、食糧、環境等の幅広い分野において、これまでをはるかに凌駕した多種多様なバイオリソースになり、‘環境ゲノミクス’として21世紀のヒトと地球が抱える諸問題を生物の力で克服する突破口となると期待されています(図2)。たとえば、先行する大規模なプロジェクトとして、米国グループによる世界中の海洋細菌群のメタゲノム解析があります。このプロジェクトの目的のひとつは、光エネルギーを効率よく化学エネルギーに変換できる遺伝子の探索にあります。
 日本においても、マリアナ海溝、地殻深部、南極、水田土壌、私たちの研究グループのヒトの腸内細菌叢や昆虫の共生細菌叢などのプロジェクトが開始されています。ヒトの腸内細菌叢のメタゲノム解析では、ヒト個体をヒトゲノム(遺伝要因のデジタル情報)と腸内細菌叢メタゲノム(食事等の環境要因のデジタル情報)からなるひとつのスーパーキングダムとみなして、健康と病気のメカニズムの総合的な理解をめざしています。最後に、今後も世界的にとどまるところはなく膨大な量の生物データが生産されます。生物情報学の時代はまさにこれからが本番になると言えるでしょう。

(2007年9月, 「創成」第10号より転載)


生活に役立つ、代謝のナビゲーションシステム 

有田 正規

 最近、ビタミン剤のような栄養補助食品(サプリメント)だけでなく、機能性食品(functional foods)と呼ばれる、食べるだけで病気の予防に寄与する新食品がブームになっています。他にも、青魚に多く含まれるDHA(ドコサヘキサエン酸)は食べると頭がよくなると思われていますし、お酢を飲めば体が柔らかくなると根強く信じられています。こうした情報はどのような根拠に基づいているのでしょうか。また、どこまでが科学的で、どこからが噂なのでしょうか。
 その判断は研究者にとっても難しいものですが、内容が誇張されている部分も少なくないと思われます。例えば頭がよくなるDHAは、餌にDHAを多く含んだマウスがそうでないマウスに比べて同じ迷路を早く脱出できたという実験が根拠となっているだけです。お酢に至っては根拠すらありません。しかしそんな事情を知らされないまま、世の中のお母さんは子供に青魚を食べさせ、黒酢を飲んでいるのです。最先端の研究成果といっても難しいものばかりではありません。特に食品に関する話は、食べたものが「どういう流れで」体に効くのか、もっと理解してもらってよいのではないでしょうか。
 細胞内におけるアミノ酸や脂肪酸のような化学分子の振る舞いは代謝と呼ばれます。細胞内では数千を超える種類の物質が複雑なネットワークを構成しており、そのメカニズムの解明は専門の研究者にとっても面倒です。そこで私が取り組むのが、この代謝の流れを研究者、さらには一般の人々にもわかりやすく伝えられるソフトウェアの作成です。代謝のネットワークをカーナビや電車の乗り換え案内のように自在に検索、表示できるソフトウェアの作成を目標にしています。
 鉄道や道路網と代謝では、ネットワークの構造が根本的に異なります。化学小分子の構造が変化してゆく代謝は、いわば駅毎に電車の車両が組み替わるようなネットワークです。現在開発しているAtomic Reconstructionof Metabolism(ARM)システムは、この組み換え情報を代謝の基本ネットワークについて全て電子化し、あらゆる分子構造の組み換えに対して原子1個1個を追跡できる機能を実現した、世界で初めてのソフトウェアです(Arita M.(2004)Proc Natl Acad Sci USA,101(6)1543)。ゲノム計画によってその代謝が明らかになる生物種は10年後に1000種を超えるといわれています。その時代に、興味のある生物の代謝活動を自由にインターネット上で眺めたり、自分が食べた栄養素がどのように健康維持に役立つのかを分子のレベルで調べたりできるソフトウェア、ウェブサイトを開発したいと考えています。

(2005年3月, 「創成」第5号より転載)


タンパク質相互作用ネットワークを探る 

伊藤 隆司

  ゲノム計画によって様々な生物が持つ遺伝子の全貌が明らかになりました。しかしこれらの遺伝子の大半は、顔つき(配列)だけからでは働き(機能)の見当さえつかない連中でした。大腸菌や酵母のように分子生物学による長い研究の歴史がある単純な生物でも、遺伝子の約半数は機能推定不能だったのです。ゲノム計画の最大の発見は、われわれの知識の欠落の大きさだったのかも知れません。
 新規タンパク質の機能を知るには、そのタンパク質が相互作用する相手を見つけることが重要です。何故なら、タンパク質が生物学的な機能を発揮する際には必ず他の生体分子と相互作用するからです。膜表面のレセプターが機能するのはそれに結合するリガンドがあるからですし、酵素の機能も基質あってこそです。機能推定不能のタンパク質でも相互作用分子の機能が既知ならば、機能解明の方向が自ずと見えてきます。一方、既知タンパク質の側にとっても、新しい相互作用分子の発見は機能に関する未知の局面の存在を意味します。そして、こうした相互作用の全貌を明らかにすることは、生命の部品の配線図を明らかにすることにもつながり、システムとしての生命の理解にも貢献します。システム全体の中に位置づけられることで、個々の部品の持つ意味もより一層、理解が深まるでしょう。
 というわけで、私たちは真核細胞のモデルとして出芽酵母をとりあげ、それが持つ約6000の全遺伝子について「2ハイブリッド法」という分子遺伝学的手法を駆使してタンパク質間相互作用の「総当たり戦」解析を行いました(PNAS 98,4569,2001)。これは生体分子間相互作用の網羅的解析、つまりインタラクトーム解析の先駆けとなった研究のひとつです。その結果、総計で4569、信頼性の高いもので841の相互作用を同定しました。この膨大なデータの中には新規タンパク質の機能推定のヒントが沢山埋もれており、それらを契機に続々と新しい発見がなされています。と同時に、相互作用を扱う新しいバイオインフォマティクスを産む起爆剤にもなり、相互作用データに基づいて構築された巨大なタンパク質ネットワークについても数々の興味深い発見や研究が始まっています。
 但し、現在の相互作用ネットワークデータには時間的・空間的な分解能と定量性が欠落しています。今後はそれぞれの相互作用がいつ、どこで、どれくらい起こるのか、そしてその生物学的意味は何か、を探ることが重要です。単なる相互作用カタログづくりからネットワークの機能的解釈へとインタラクトーム解析を進化させて、生命システムの理解に貢献してゆきたいと私たちは考えています。

(2004年9月, 「創成」第4号より転載)


遺伝子破壊株イメージマイニング 

森下 真一

 1990年代半ばより、様々な生物のゲノム配列が解読されています。ゲノムにコードされている遺伝子を破壊もしくは働きを阻害したとき、生物に生じる変化を観察することで、遺伝子の機能を詳しく解析することが可能になります。たとえば1996年に真核生物として初めてゲノムが解読された出芽酵母については、個々の遺伝子を破壊した株が既に網羅的に構築されています。破壊株の細胞にはどのような形態的変化が起きているのか?その特徴を客観的な数値であらわすため、顕微鏡写真から細胞形態及び細胞内構造を自動的に認識することを先端生命科学専攻の大矢研究室とともに試みています。
 くわしくはまず、細胞の外郭、核、アクチン細胞骨格をそれぞれ異なる蛍光試薬で三重に染色し、各々の染色画像を撮影します。つづいて細胞の外郭を認識するプログラムを用いて母細胞と芽を認識しますが、小さな芽を認識するのは意外に困難でした。というのも外郭を均一に染色することが必ずしも容易でなく、色むらがある若干ぼやけた画像からでも母細胞と芽の輪郭を識別しなければなりませんでした。人間の目と同等の精度で自動認識するプログラムの研究開発に成功した後は、細胞の大きさ、細長さ、芽が出芽する位置、方向、大きさなどの数値が正確に計量できるようになりました。さらに、母細胞および芽の中での核の位置情報、アクチン骨格の細胞内局在に関する情報も自動的に収集できるようになりました。
 現在私たちは一つの破壊株から少なくとも200個以上の解析画像を抽出し、情報解析しています。解析の対象としているのは、破壊しても生命を維持できる約5000個の非必須な遺伝子の破壊株です。このように大規模で、定量的な形態情報はいまだかつて収集されたことがありません。解析が完了次第SCMD(The Saccharomyces Cerevisiae Morphological Database)からデータを公開しています。平成15年8月現在、1799個の遺伝子は買い株から686,675個の細胞が抽出されています。各細胞をコンピュータ解析し、70個を超える数値パラメータを計測しています。これらのパラメータ値を使うと、類似した破壊株をグループ分けでき、野生株と比べて個々の破壊株でどのパラメータが有意に変化しているか認識できるようになりました。
 今後は形態形成に関与する遺伝子の全体像を鳥瞰する一方で、個別の機能を緻密に調べることができるあたらしい方法論へと発展させたいと考えています。

(2003年9月, 「創成」第2号より転載)