データ拡張とは

共同執筆者

Jacob Murel Ph.D.

Senior Technical Content Creator

Business Development + Partnerships

IBM Research

データ拡張とは

データ拡張では、既存のデータを使用して、モデルの最適化と一般化可能性を向上させる新しいデータ・サンプルを作成します。

最も一般的な意味において、データ拡張とは、データ・セットの分析可能性を高めるために、欠落しているデータ・ポイントを提供することで、いわゆる不完全なデータ・セットを補完する方法を指します。¹これは、機械学習において、データ・セットのサイズと多様性を増やすために既存のデータの変更されたコピーを生成するという方法に表れています。したがって、機械学習に関しては、拡張データは、実在しない可能性があるデータを人工的に供給するものとして理解することができます。

データ拡張により、機械学習モデルの最適化と一般化が向上します。言い換えれば、データ拡張により、過剰適合を減らし、モデルの頑健性を向上させることができます。²大規模で多様なデータ・セットがモデルの性能を向上させるというのは、機械学習の公理です。それにもかかわらず、倫理やプライバシーの懸念をはじめ、単に必要なデータを手作業でまとめるには手間がかかるといったさまざまな理由で、十分なデータを取得することが難しい場合があります。データ拡張は、データ・セットのサイズと変動性を増やす効果的な手段の1つです。実際、研究者は不均衡なデータ・セットを修正するためにデータ拡張を広く使用しています。³

PyTorch、Keras、Tensorflowなどの多くのディープラーニング・フレームワークは、データ（主に画像データ・セット）を拡張するための機能を提供しています。Pythonパッケージ、Ablumentations（Githubで入手可能）も、多くのオープンソース・プロジェクトで採用されています。Albumentationsは、画像やテキスト・データを拡張できます。

拡張データと合成データの比較

データ拡張は合成データとは異なることに注意してください。確かに、どちらも機械学習モデルの性能を向上させるために、データ・コレクションに新しいデータを追加する機械学習モデルです。ただし、合成データは、完全に人工的なデータを自動的に生成することを指します。物体検出モデルの学習に、実世界のデータではなく、コンピューターで生成した画像を使用するといった例があります。対照的に、データ拡張は既存のデータをコピーし、それらのコピーを変換することで、与えられたセット内のデータの多様性と量を増やします。

IBMニュースレター

The DX Leaders

AI活用のグローバル・トレンドや日本の市場動向を踏まえたDX、生成AIの最新情報を毎月お届けします。登録の際はIBMプライバシー・ステートメントをご覧ください。

データ拡張の技法

データ拡張の方法にはさまざまな種類があります。データを拡張するために使用される具体的な技法は、ユーザーが扱うデータの性質によって異なります。データ拡張は通常、トレーニング・データ・セットの前処理中に実装されることに注意してください。検証セットやテスト・セットでの拡張の効果を調査した研究もありますが、トレーニング・セット以外での拡張の適用はめったにありません。⁴

画像拡張

データ拡張は、画像分類から物体検出まで、さまざまなコンピューター・ビジョン・タスクの研究で広く実装されています。そのため、画像処理における最先端の畳み込みニューラル・ネットワーク（CNN）のパフォーマンスを拡張画像がどのように向上させるかについて数多くの研究が行われています。

多くのチュートリアルや非学術的リソースは、画像データ拡張を幾何学変換と測光（または色空間）変換という2つのカテゴリーに分類しています。どちらも比較的単純な画像ファイル操作で構成されています。幾何学変換というカテゴリーは、サイズ変更、ズーム、向きの変更（水平反転など）など、元の画像のスペースやレイアウトを変更する技法を指します。測光変換は、画像のRGB（赤、緑、青）チャンネルを変更します。測光変換の例としては、彩度調整や画像のグレースケール処理などがあります。⁵

ソースによって、ノイズ注入を幾何学的変換と分類するものもあれば⁶、測光変換と分類するものもあります。⁷ノイズ注入は、ガウス分布に従ってランダムな黒、白、または色のピクセルを画像に挿入します。

ノイズ注入が示すように、画像拡張技法を幾何学的なものと測光的なものに二分するだけでは、可能な拡張戦略のすべての範囲をカバーすることはできません。その他の画像拡張技法は、カーネル・フィルタリング（画像をシャープにしたり、ぼかしたりすること）と画像混合です。後者の例としては、ランダムなトリミングやパッチがあります。この技法では、複数の画像からランダムにセクションをサンプリングして、新しい画像を作成します。この新しい画像は、入力画像のサンプリングされたセクションから作成された複合画像です。関連する技法として、画像のランダムな部分を削除するランダム消去があります。⁸実際のユースケースでは、機械が部分的に隠された物体を識別する必要があるかもしれないため、このようなタスクは画像認識タスクに役立ちます。

別の拡張として、インスタンスレベルの拡張があります。インスタンスレベルの拡張は、基本的に、ある画像からラベル付けされた領域（例えば、バウンディング・ボックス）をコピーして、別の画像に挿入します。このようなアプローチは、異なる背景の物体や他の物体によって隠された物体を識別するために画像をトレーニングします。インスタンスレベルの拡張は、物体検出や画像セグメンテーション・タスクのような領域固有の認識タスクに特に有効なアプローチです。⁹

テキスト拡張

画像拡張と同様に、テキスト・データ拡張は、さまざまな自然言語処理（NLP）タスクで使用される多くの技法と手法で構成されています。いくつかのリソースでは、テキスト拡張がルールベース（または「簡単な」）手法とニューラル手法に分けられています。もちろん、画像拡張技法の二分法と同様、この分類はすべてをカバーしているわけではありません。

ルールベースのアプローチには、ランダム削除や挿入のような、比較的単純な検索と置換の技法が含まれます。ルールベースのアプローチには、同義語の置き換えも含まれます。この戦略では、文字列内の1つまたは複数の単語が、WordNetやParaphrase Databaseなどの事前に定義されたシソーラスに記録されているそれぞれの類義語に置き換えられます。目的語と主語が入れ替わる文の倒置や受動態も、ルールベースのアプローチの例です。¹⁰

分類によると、ニューラル法は、ニューラル・ネットワークを使用して、入力データから新しいテキスト・サンプルを生成します。注目すべきニューラル手法の1つに、バックトランスレーション（逆翻訳）があります。これは、機械翻訳を使用して入力データをターゲット言語に翻訳し、次に元の入力言語に戻します。このように、バックトランスレーションは、自動翻訳の結果として生じる言語的な差異を利用して、拡張を目的とした単一言語データ・セットの意味的な差異を生成します。研究によると、機械翻訳モデルの性能を向上させるには、この方法が効果的であることが示されています。¹¹

「I am dancing in the club」というフレーズを使った翻訳拡張を視覚化したもの

Mix-Upテキスト拡張も戦略の1つです。このアプローチでは、ニューラル・ネットワークの埋め込みを利用したルールベースの削除と挿入の手法をデプロイします。具体的には、事前学習をするトランスフォーマー（例えば、BERT）は、テキストの単語または文レベルの埋め込みを生成し、bag of wordsモデルのように、テキストをベクトル・ポイントに変換します。テキストをベクトル・ポイントに変換することは、一般に言語的な類似性を捉えることを目的としています。つまり、ベクトル空間内で互いに近い単語や文は、似たような意味や頻度を共有していると考えられます。Mix-up拡張は、指定された距離内にあるテキスト文字列を補間して、入力データの集合体である新しいデータを生成します。¹²

IBMお客様事例

お客様のビジネス課題（顧客満足度の向上、営業力強化、コスト削減、業務改善、セキュリティー強化、システム運用管理の改善、グローバル展開、社会貢献など）を解決した多岐にわたる事例のご紹介です。

参考情報

AIの専門知識のレベルアップを図る

ハンズオン・ラボ、コース、指導付きプロジェクト、トライアルなどで、基本的な概念を学び、スキルを身につけていただけます。

生成AI + MLの力を解き放つ

生成AIと機械学習をビジネスに活用する確実な方法を学びましょう。

AIの活用を本格化：生成AIでROI向上

AIの投資対効果を高めるために、主要な分野で生成AIの活用を拡大することで、どのように革新的な新規ソリューションの構築、提供を支援し、変化をもたらすかを紹介します。

適切な基盤モデルを選ぶ方法

ユースケースに最適なAI基盤モデルを選択する方法について説明します。

IBM Graniteはこちら

IBM Graniteは、ビジネス向けにカスタマイズされ、AIアプリケーションの拡張に合わせて最適化された、オープンで高性能、かつ信頼性の高いAIモデル・ファミリーです。言語、コード、時系列、ガードレールのオプションをご覧ください。

AIの新時代に信頼と自信を持って成功する方法

強力なAIストラテジーの3つの重要な要素である、競争優位性の創出、ビジネス全体へのAIの拡張、信頼できるAIの推進について詳しく説明します。

AI in Actionレポート

2,000の組織を対象に、AIへの取り組みについて調査を行い、何が機能し、何が機能していないのか、どうすれば前進できるのかを明らかにしました。

脚注

すべてのリンク先は、ibm.comの外部です。

^f Martin TannerとWing Hung Wong、「The Calculation of Posterior Distributions by Data Augmentation」、「Journal of the American Statistical Association」誌、Vol.82、No. 398（1987年）、528～540ページ。

² Sylvestre-Alvise Rebuffi, Sven Gowal, Dan Andrei Calian, Florian Stimberg, Olivia Wiles, and Timothy A Mann, “Data Augmentation Can Improve Robustness,” Advances in Neural Information Processing Systems, Vol. 34, 2021.

³ Manisha Saini and Seba Susan, “Tackling class imbalance in computer vision: A contemporary review,” Artificial Intelligence Review, Vol. 54, 2023.

⁴ Fabio Perez, Cristina Vasconcelos, Sandra Avila, and Eduardo Valle, “Data Augmentation for Skin Lesion Analysis,” OR 2.0 Context-Aware Operating Theaters, Computer Assisted Robotic Endoscopy, Clinical Image-Based Procedures, and Skin Image Analysis, 2018.

⁵ Connor Shorten and Taghi M. Khoshgoftaa, “A survey on Image Data Augmentation for Deep Learning,” Journal of Big Data, 2019.

⁶ Duc Haba、 Data Augmentation with Python、Packt Publishing社、2023年。

⁷ Mingle Xu, Sook Yoon, Alvaro Fuentes, and Dong Sun Park, “A Comprehensive Survey of Image Augmentation Techniques for Deep Learning,” Patter Recognition, Vol. 137.

⁸ Connor Shorten and Taghi M. Khoshgoftaa, “A survey on Image Data Augmentation for Deep Learning,” Journal of Big Data, 2019, . Terrance DeVries and Graham W. Taylor, “Improved Regularization of Convolutional Neural Networks with Cutout,” 2017.

⁹ Zhiqiang Shen, Mingyang Huang, Jianping Shi, Xiangyang Xue, and Thomas S. Huang, “Towards Instance-Level Image-To-Image Translation,” Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 2019, pp. 3683-3692, . Golnaz Ghiasi, Yin Cui, Aravind Srinivas, Rui Qian, Tsung-Yi Lin, Ekin D. Cubuk, Quoc V. Le, and Barret Zoph, “Simple Copy-Paste Is a Strong Data Augmentation Method for Instance Segmentation,” Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 2021, pp. 2918-2928.

¹⁰ Connor Shorten, Taghi M. Khoshgoftaar and Borko Furht, “Text Data Augmentation for Deep Learning,” Journal of Big Data, 2021, . Junghyun Min, R. Thomas McCoy, Dipanjan Das, Emily Pitler, and Tal Linzen, “Syntactic Data Augmentation Increases Robustness to Inference Heuristics,” Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics, 2020, pp. 2339-2352.

¹¹ Connor Shorten, Taghi M. Khoshgoftaar, and Borko Furht, “Text Data Augmentation for Deep Learning,” Journal of Big Data, 2021, . Rico Sennrich, Barry Haddow, and Alexandra Birch, “Improving Neural Machine Translation Models with Monolingual Data,” Proceedings of the 54th Annual Meeting of the Association for Computational Linguistics, 2016, pp. 86-96.

¹² Connor Shorten, Taghi M. Khoshgoftaar, and Borko Furht, “Text Data Augmentation for Deep Learning,” Journal of Big Data, 2021. Lichao Sun, Congying Xia, Wenpeng Yin, Tingting Liang, Philip Yu, and Lifang He, “Mixup-Transformer: Dynamic Data Augmentation for NLP Tasks,” Proceedings of the 28th International Conference on Computational Linguistics, 2020. Hongyu Guo, Yongyi Mao, and Richong Zhang, “Augmenting Data with Mixup for Sentence Classification: An Empirical Study,” 2019.

¹³ Suorong Yang, Weikang Xiao, Mengchen Zhang, Suhan Guo, Jian Zhao, and Furao Shen, “Image Data Augmentation for Deep Learning: A Survey,” 2023. Alhassan Mumuni and Fuseini Mumuni, “Data augmentation: A comprehensive survey of modern approaches,” Array, Vol. 16, 2022. Evgin Goveri, “Medical image data augmentation: techniques, comparisons and interpretations,” Artificial Intelligence Review, Vol. 56, 2023, pp. 12561-12605.

¹⁴ Ekin D. Cubuk, Barret Zoph, Dandelion Mane, Vijay Vasudevan, and Quoc V. Le, “AutoAugment: Learning Augmentation Strategies From Data,” Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 2019, pp. 113-123.

¹⁵ Barret Zoph, Ekin D. Cubuk, Golnaz Ghiasi, Tsung-Yi Lin, Jonathon Shlens, and Quoc V. Le, “Learning Data Augmentation Strategies for Object Detection,” Proceedings of the 16^th European Conference on Computer Vision, 2020.

¹⁶ Sandareka Wickramanayake, Wynne Hsu, and Mong Li Lee, “Explanation-based Data Augmentation for Image Classification,” Advances in Neural Information Processing Systems, Vol. 34, 2021.

¹⁷ rishna Chaitanya, Neerav Karani, Christian F. Baumgartner, Anton Becker, Olivio Donati, and Ender Konukoglu, “Semi-supervised and Task-Driven Data Augmentation,” Proceedings of the 26^th International Conference on Information Processing in Medical Imaging, 2019.

¹⁸ Cédric Rommel, Thomas Moreau, Joseph Paillard, and Alexandre Gramfort, “ADDA: Class-wise Automatic Differentiable Data Augmentation for EEG Signals,” International Conference on Learning Representations, 2022.

¹⁹ Maayan Frid-Adar, Idit Diamant, Eyal Klang, Michal Amitai, Jacob Goldberger, and Hayit Greenspan, “GAN-based synthetic medical image augmentation for increased CNN performance in liver lesion classification,” Neurocomputing, 2018, pp. 321-331.

²⁰ Veit Sandfort, Ke Yan, Perry Pickhardt, and Ronald Summers, “Data augmentation using generative adversarial networks (CycleGAN) to improve generalizability in CT segmentation tasks,” Scientific Reports, 2019.

²¹ Kang Min Yoo, Dongju Park, Jaewook Kang, Sang-Woo Lee, and Woomyoung Park, “GPT3Mix: Leveraging Large-scale Language Models for Text Augmentation,” Findings of the Association for Computational Linguistics: EMNLP 2021, pp. 2225-2239. Haixing Dai, Zhengliang Liu, Wenxiong Liao, Xiaoke Huang, Yihan Cao, Zihao Wu, Lin Zhao, Shaochen Xu, Wei Liu, Ninghao Liu, Sheng Li, Dajiang Zhu, Hongmin Cai, Lichao Sun, Quanzheng Li, Dinggang Shen, Tianming Liu, and Xiang Li, “AugGPT: Leveraging ChatGPT for Text Data Augmentation,” 2023.

²² Bram Vanherle, Steven Moonen, Frank Van Reeth, and Nick Michiels, “Analysis of Training Object Detection Models with Synthetic Data,” 33^rd British Machine Vision Conference, 2022. Martin Georg Ljungqvist, Otto Nordander, Markus Skans, Arvid Mildner, Tony Liu, and Pierre Nugues, “Object Detector Differences When Using Synthetic and Real Training Data,” SN Computer Science, Vol. 4, 2023. Lei Kang, Marcal Rusinol, Alicia Fornes, Pau Riba, and Mauricio Villegas, “Unsupervised Writer Adaptation for Synthetic-to-Real Handwritten Word Recognition,” Proceedings of the IEEE/CVF Winter Conference on Applications of Computer Vision (WACV), 2020, pp. 3502-3511.

データ拡張とは

共同執筆者

データ拡張とは

拡張データと合成データの比較

The DX Leaders

ご登録いただきありがとうございます。

データ拡張の技法

画像拡張

テキスト拡張

IBMお客様事例

最近の研究

自動拡張

生成ネットワーク

参考情報

脚注