レベル: 中級 Cameron Laird (Cameron@Lairds.com), Vice President, Phaseit, Inc.
2002年 11月 01日 生物情報科学 (bioinformatics) と生物科学 (bioscience) におけるオープン・ソースの利用は、いずれも、まだ、揺籃期にあります。しかし、これから大いに成長する分野です。そして、来年にかけて生物情報科学で最も重要な意味をもつことになる専門的なソフトウェアの開発がいくつか進められています。
生物科学には、2つの種類があります。オープン・ソースは、どちらの生物科学にとっても重要な役割を果たしますが、その果たし方は異なります。開発者の視点で、両方の種類の生物科学を眺めてみたいと思います。まずは、Edsger Dijkstraの思慮深い助言から。
「プログラマーは、極めて稀な立場に置かれている。というのは、[10の9乗] というわれわれの想像力をまったく困惑させてしまうような巨大な比率を、たった1つのテクノロジーで橋渡ししなければならない唯一の専門的職業であるという点においてである。プログラマーは、1個の知性がいまだかつて直面したこともない深い概念的な階層の観点から思考できなければならない。... [プログラム] には、不可避的に、最小の混乱、すなわち、1ビットの変化が、甚だしく劇的な結果をもたらしうるというやっかいな特性がある」 -- Edsger Dijkstra、1989年
最初の種類の生物科学は、「小さな」生物科学で、博物学 (natural history)、古生物学 (paleontology)、陸水学 (limnology) などの伝統的な研究です。この「小さい」というのは、予算上の制約を指すもので、知的な刺激や、ましてや自然科学上の挑戦において制約があるといっているわけではありません。当記事の趣旨からして、とりあえず、これらの生物科学を他の学問分野と一まとめにして扱わせていただきます。developerWorks は、最近、一般的な科学やエンジニアリングにおいてオープン・ソースが大きな役割を果たすようになってきていることを紹介しています (稿末の参考文献参照)。
もう一つの種類は、皆さんもビジネスやテクノロジーの世界で取り上げられているのを目にすることのある生物科学 すなわち生物情報科学 です。といっても、この分野のことを口にする人々は、決まって、もっと狭い範囲を念頭に置いています。医学的研究、もしくは、ときどきですが、農業面での利益を想定しています。巨大な投資共同資金はこちらの 生物科学に対するものであり、生物情報科学を明確に理解しておくためには、この研究から何がもたらされるかを理解しておくことが肝要です。
生物情報科学の展望
生物情報科学の発展は、現在、部分的に重複するところもある3つの大きなカテゴリーに集中しています。
 |
そんなに大きい話? (これらビッグ・ファーマのプロジェクトは、どの程度大きなものになる?)
本当に大きな生物情報科学プロジェクトがどの程度大きいのか感じを掴んでもらうには、それがペタバイトを必要とする 数少ないコンピューター・サイエンスの1つになろうとしている点に注目するとよいでしょう。
ペタバイト とは、2の50乗 (1,125,899,906,842,624) バイトのことです。これは、「約」1,000テラバイトです (正確には、1024テラバイトで、あるいはこちらのほうが憶えやすいかもしれません)。
1ペタバイトは、4千億ページぶんのテキストに相当します。比較のために示すと、Google は、そのエンジンでWeb 20億ページ、HTML以外の文書3千5百万個、およびUsenetメッセージ1兆個 (印刷ページにして約5千万ページ) 以上を検索するとしています。これが非常に大きな数字だとしても、(多くの人から最大のWeb検索エンジンであると考えられているGoogleで検索される範囲での) Webは、2,100,000,000ページ程度のようです。仮に、実際は、その2倍、すなわち全部で40億ページであったとしても (あるいはその2倍であろうが10倍であろうが)、ペタバイトの何分の1にしかなりません。
そのようなものを必要としているのは、非常にデータ量の多いわずかな数の分野にすぎず、ほとんどは、(お察しのとおり) ビッグ・ファーマの研究なのです。ゲノム解析 (genomics) やタンパク質機能分析 (proteomics) の分野の研究者は、ペタバイト・レベルのストレージ・システムを構築中であるか、すでに利用しています。IBM Researchにも、Blue Gene という名前のペタ・フロップ コンピューターについて研究を進めているプロジェクトがあります。このプロジェクトも、ゲノム解析用に立ち上げられつつあるものです (名前もそれに因んでいます)。
|
|
-
分子生物学 (Molecular biology) には、ゲノム解析、タンパク質機能分析、分子モデリング、化学分析、およびこれに関連する分野が含まれます。この分野では、基礎化学の理解に向けての興味深い科学的チャレンジと、膨大なデータセット、リアルタイムな分析、および革新的な科学機器の取扱を統合する必要性が組み合わされています
-
医学的画像処理 (Medical imaging) は、X線、超音波、PET (陽電子放射撮影法)、核磁気共鳴などのテクノロジーを活用して、放射線医学などの専門家に、診断に使用できる画像を提供する分野です。この分野では、画像の品質、コスト、納品のスピード、および結果を遠隔地に安全かつ迅速に表示する能力が追求されています。
-
ワークフロー管理 (Workflow management) は、それ自体、2つの側面を備えています。患者の記録の管理と、薬学的な承認へと結び付く (ビッグ・ファーマ -- 大手の多国籍製薬会社を表す業界用語 -- が関係してくる) 医学研究、の2つです。
生物情報科学プロジェクトに付き物の移り変わりや混乱の激しさは、誇張しすぎることがありません。これらのプロジェクトは、ソフトウェア・アーキテクトに技能の研鑚を要求します。というのも、生物情報科学では、とりわけ、滑稽なまでにスケールの異なるものが扱われるからです。医者の判読しがたい手書き文書や何十年もかけてやっと世に出される医学的結果に始まり、何千個もあるゲノムの中の1個のアミノ酸の置換によって生じる気の遠くなるような天文学的数の結果に至るまで、ありとあらゆるものが扱われるのです。
生物情報科学とそれ以外のすべての科学および工学的ソフトウェア開発の違いを説明するために、生物科学企業の最高法務責任者 (chief legal officers: CLO) の報酬に注目してみたいと思います。他の分野の企業の多くは、最高幹部の肩書のCLOすら置いて いません。これに対して、生物科学の分野では、法的な所有権が非常に重要な意味をもっているため、Clark/Bardes Consultingによる2002年の研究によると、CLOの平均的な報酬は、最高財務責任者 (chief financial officers: CFO) のそれを上回っていると言われます。すべての産業分野の中で、ほとんど唯一といってよいほど、生物科学系企業は、知的所有権 (IP) の保護と法令順守に関心を集中させています。生物科学系企業は、対外的には科学的革新を渇望していることを強調しますが、その知的資産の乏しい法的基盤を防衛するのに、保守的な経営を余儀なくされています。科学技術は、これらの企業が特許その他の知的所有権法を順守し、監督官庁から承認を受けるかぎりにおいてのみ価値があるのです。
このため、生物情報科学は、ソフトウェア・エンジニアからすると奇妙な展望を見せています。これらの企業は、一方で、承認されたソフトウェアに対して莫大なライセンス料を払うことが可能でもあれば、それを払うことを厭うこともせず、また技術的には簡単に自動化できそうなプロジェクトに多額の予算を費やしますが、他方で、ある匿名の研究者が「遅いし、バグが多く、自由度がない」と評している商業ソフトウェアに対しては不満が蔓延しています。経験を積んだ研究者は、技術的に優れたプログラムがまったく無料で利用できるとわかっても、もはや驚愕することはありません。
だからといって、生物科学系企業がオープン・ソースを歓迎しているというわけではありません 。これらの企業は、価格や工学的な特典よりも、法令の詳細のほうにはるかに強い関心があるという点に注意する必要があります。意図とリーダーシップが最善だったとしても、自動化プロジェクトは「性」をブーリアン変数にするか文字変数にするかを検討している間何ヶ月も泥沼に陥ったままとなることもあります。そのようなデータ辞書に関する論争などプログラマーにとっては取るに足らないことであるように思われるかもしれませんが、製品承認の基本的な根拠となる膨大な量の医学的記録を管理する者にとっては、まさに現実的な問題なのです。そのような環境では、いかなる変更も困難です。そしてオープン・ソースも一つの変更なのです。
それで、良い知らせとは ?
それで、オープン・ソースは、生物科学の分野で前進しているのでしょうか。もちろんです。Cold Spring Harbor Laboratoryの研究者であるLincoln Steinは、科学者によるヒト・ゲノムに対するアクセスと操作の両方を可能にするPerlベースのソフトウェアを開発し、それに対する少なからぬ賞賛を享受しています。O'Reillyは、Perlと生物情報科学を扱った書籍を、すでに2冊刊行しています。タンパク質の折畳みの研究者は、必要とするコンピューター・パワーを増強するために、Linuxのクラスターを利用しています。他のコンピューター分子生物学者たちも、Biopython、BioJava、BioRubyといったプロジェクトのWebサイトの運営に参加するところまで、組織化を進めてきています。いくつかの企業の開発チームは、プログラミングで重要な役割を果たす部分に、Postgres、Tcl、Octaveなど、際立ったオープン・ソース・テクノロジーを利用しています。
おそらく、それと同じぐらい重要なことですが、IBMや生物情報科学のいくつかの大手企業は、標準の「意味を理解」してきているようです。IBMは、同社の研究者陣が開発した生物情報科学のツールを、非営利品として、一般に利用できるようにしています。IBMが同社のライフ・サイエンス部門のゼネラル・マネージャーにCaroline Kovacを任命したのは、つい数年前のことでした。Kovac博士は、Interoperable Informatics Infrastructure Consortium (I3C) を支援していることと、「これらのデータベースはどれも相互に会話ができない、... なので、研究者が会話しなければならず、それもキーボードを叩いて会話しないといけない」として現状に満足していないことで知られている女性です。
大手の多国籍製薬企業は、オープン・ソースに対して、愛憎入り交じった態度をとり続けているか、むしろ悪感情を抱くようになっています。これらの企業の文化は、IP保護一色です。他方、記録保存にかかるコストは膨大なもので、臨床試験の協力者1人に約2万ドルかかることもしばしばであり、ビッグ・ファーマは、標準ベースのオープン・ソースがもたらす単純化を受容するようになってきています。
IBMなどのI3Cメンバーが意図していることの1つは、IPの所有権をレベル分けしようということです。ビッグ・ファーマは、基本的な科学データを共有することに関しては経験がありますが、同時に、製品の詳細データや文書は、用心深く保護します。I3Cは、それに類似した役割を果たします。企業が、インフラストラクチャーより上の層に位置する有償プログラム (proprietary programs) を頼みとするにしろ、インフラストラクチャーやミドルウェアは、標準ベースのオープン・ソースとすることができます。
タイムリーな技術革新は、オープン・ソースへの動きを促進します。分子データを扱うプログラミングでは、Webからいろいろなデータをかき集めてくるということがよく行われますが、Steinがいうように、これが「中世的な拷問」であるということを理解する開発者が増えています。Webサービスを利用した開発のほうが、はるかに満足度が高く、堅牢です。また、コンピューターのクラスターやグリッドを理解することで、「新たな局面が開け」、そこそこの研究予算でもスーパーコンピューティングが賄えそうであると考えられるようになりました。Webサービスやクラスター化 (clustering) の多くは、オープン・ソース・プロジェクトに先導されています。
知られていない利点
一方、こうした進展以外にも、オープン・ソースは、セキュリティー、戦略的所有権、および拡張性という3つの重要な利点を生物科学に提供しています。ビッグ・ファーマもやっとそのことを認識し始めるようになりました。
セキュリティーは、ビッグ・ファーマにとっては大きな問題です。医学データや研究データの扱いを誤ったことで払われた罰金は、公的記録に残っている事実です。Perseid Software Ltd. の社長であるBernard P. Wess Jr. が述べているように、「コンピューター業界の品質管理は、ずっとお粗末なものでした」。最近まで、生物科学は、所有権を前面に押し出したやり方でこの問題に対処し、告訴すべき者を捜すという方法をとってきました。といっても、オープン・ソースが、とりわけセキュリティーに優れた高品質のプログラムを提供することに関して、有償製品のベンダーと同等以上の成績を上げていることを示す証拠は数多くあります。投票の集計作業や国家のセキュリティーに関する最近の事件は、機密の問題に関して、有償プログラムが本当に 信頼できるのだろうかという疑問を投げかけています。生物科学系企業は、そのデータ・セキュリティーを改善するために、思いきった対策を講じるということであり、来年にかけて、この方面に劇的な出来事が起こることを期待したいと思います。
ビッグ・ファーマのIP文化は、ずっと、オープン・ソースに対する障害とみなされてきました。実際、保守的な生物科学系企業でオープン・ソースの利点を社内的に普及させることができなかったという失敗事例はたくさんあります。しかし、とうとう、こうした企業の1社が、この姿勢を転換し、オープン・ソースによってビジネス戦略をサポート できることを理解しようとしています。これは、Eric Raymondがよく行っている議論ですが、企業は、その戦略的資産を、どうして利害関係があちこちに発散しているようなベンダーに委ねようとするでしょうか。この点、オープン・ソースは、ベンダーの移り気に保険をかける意味で、理想的な方法です。Raymondが指摘するように、「皆さんの仕事にとって重要なインフラストラクチャーの部分に、ソースの閉ざされた (closed-source) ソフトウェアを採用した場合、その仕事は管理できなくなります。その中がどうなっているのかがわからないからです。オープン・ソースにすれば、管理権を取り戻すことができます」
生物科学における開発者の最後の戦いは、可能性を伝えることです。生物科学系企業のほとんどの研究者や医師やマネージャーは、あまりにも目前の責務にとらわれているため、パーベイシブ・オートメーションの好機を正しく理解できてはいません。そうした人々は、あるところから別のところにデータをもってくることに全力を注ぐのがせいぜいで、データフローが安全で確実に繋がっている場合にもたらされるであろう質的な改善を望むこともしません。数多くの生物科学者は、目前にある1つの問題を解決することに打ち込んでいます。彼らが、相当な量のスタッフの時間と資本を情報技術 (IT) に投資したとしても、ソフトウェア・エンジニアの間では当たり前の「再利用の文化」は、彼らには、ありません。彼らのIT生産性は低いのです。しかし、それよりもっと悪いことは、適切に一般化され、拡張性のある、オープンなソフトウェアが欠落している為に、スケールの大きなデータと理論の基づいて仕事を進めるという機会を彼らが恐らく逃しているということです。
依然としてほとんど理解されていない別の可能性とは、IP保護と有償ソフトウェアを利用することの両方を補完する ことのできるオープン・ソースの能力です。標準ベースのオープン・ソースのソフトウェアは、有償ソフトウェアから引き出される価値を高めるという独特な役割を果たします。既存のプログラムやデータは、オープン・ソースという「接着剤 (glue)」を用いて他のプロセスや資源と組み合わせることで、すぐに価値の高いものになります。真のIPセキュリティーは、オープン・ソース・ソフトウェアが研究室のIT処理の品質をアップグレードし、IPであるものと日用のデータの境界をより明確なものにするときのみ成長します。
まとめ
生物科学は特殊な分野です。研究に関る金、人、時間のスケールは、他に類を見ません。法令やIP保護の文化は、他の科学分野よりも法律関係の仕事に近いものがあります。
最近まで、オープン・ソースは、しばしば、生物科学者にとっては、ある種目新しいもの、あるいは悪くするとIP保護に対する驚異と見られてきていました。しかしながら、ここ数年、クラスター化、ゲノム・データ管理、Web出版、また多くの「バーティカル」アプリケーションにおいて着実な実績を重ねていることから、オープン・ソースは、重要な技術的な選択肢の一つとしての地歩を固めるに至りました。
ビッグ・ファーマやその他の生物科学系企業は、オープン・ソースを利用することで体系的に、コストの削減、セキュリティーの改善、社員の注意を占有的なIT技術に関した専門知識からその企業の核である専門分野に戻すこと、さらには科学を向上させることができる、ということを認識し始めたばかりです。われわれは、オープン・ソースのITによって生物科学の目標をサポートするための、より良き道を教えるという劇的で伝道的な運動の真っ只中にいます。おそらく、最も重大な変化は、標準ベースのオープン・ソースによって生物科学の根本的な価値を高める ことができるということを関係者が理解し始めたということでしょう。今は、オープン・ソースの生物情報科学にとって刺激的な時代なのです。
参考文献
著者について  | 
|  | Cameronは、Phaseit, Inc. の常勤のコンサルタントです。オープン・ソースなどの技術的なトピックについて、数々の執筆や発言を行っています。Cameronのメール・アドレスはclaird@phaseit.net です。 |
記事の評価
|