データ拡張では、既存のデータを使用して、モデルの最適化と一般化可能性を向上させる新しいデータ・サンプルを作成します。
最も一般的な意味において、データ拡張とは、データ・セットの分析可能性を高めるために、欠落しているデータ・ポイントを提供することで、いわゆる不完全なデータ・セットを補完する方法を指します。1これは、機械学習において、データ・セットのサイズと多様性を増やすために既存のデータの変更されたコピーを生成するという方法に表れています。したがって、機械学習に関しては、拡張データは、実在しない可能性があるデータを人工的に供給するものとして理解することができます。
データ拡張により、機械学習モデルの最適化と一般化が向上します。言い換えれば、データ拡張により、過剰適合を減らし、モデルの頑健性を向上させることができます。2大規模で多様なデータ・セットがモデルの性能を向上させるというのは、機械学習の公理です。それにもかかわらず、 倫理やプライバシーの懸念をはじめ、単に必要なデータを手作業でまとめるには手間がかかるといったさまざまな理由で、十分なデータを取得することが難しい場合があります。データ拡張は、データ・セットのサイズと変動性を増やす効果的な手段の1つです。実際、研究者は不均衡なデータ・セットを修正するためにデータ拡張を広く使用しています。3
PyTorch、Keras、Tensorflowなどの多くのディープラーニング・フレームワークは、データ(主に画像データ・セット)を拡張するための機能を提供しています。Pythonパッケージ、Ablumentations(Githubで入手可能)も、多くのオープンソース・プロジェクトで採用されています。Albumentationsは、画像やテキスト・データを拡張できます。
データ拡張は合成データとは異なることに注意してください。確かに、どちらも機械学習モデルの性能を向上させるために、データ・コレクションに新しいデータを追加する機械学習モデルです。ただし、合成データは、完全に人工的なデータを自動的に生成することを指します。物体検出モデルの学習に、実世界のデータではなく、コンピューターで生成した画像を使用するといった例があります。対照的に、データ拡張は既存のデータをコピーし、それらのコピーを変換することで、与えられたセット内のデータの多様性と量を増やします。
データ拡張の方法にはさまざまな種類があります。データを拡張するために使用される具体的な技法は、ユーザーが扱うデータの性質によって異なります。データ拡張は通常、トレーニング・データ・セットの前処理中に実装されることに注意してください。検証セットやテスト・セットでの拡張の効果を調査した研究もありますが、トレーニング・セット以外での拡張の適用はめったにありません。4
データ拡張は、画像分類から物体検出まで、さまざまなコンピューター・ビジョン・タスクの研究で広く実装されています。そのため、画像処理における最先端の畳み込みニューラル・ネットワーク(CNN)のパフォーマンスを拡張画像がどのように向上させるかについて数多くの研究が行われています。
多くのチュートリアルや非学術的リソースは、画像データ拡張を幾何学変換と測光(または色空間)変換という2つのカテゴリーに分類しています。どちらも比較的単純な画像ファイル操作で構成されています。幾何学変換というカテゴリーは、サイズ変更、ズーム、向きの変更(水平反転など)など、元の画像のスペースやレイアウトを変更する技法を指します。測光変換は、画像のRGB(赤、緑、青)チャンネルを変更します。測光変換の例としては、彩度調整や画像のグレースケール処理などがあります。5
ソースによって、ノイズ注入を幾何学的変換と分類するものもあれば6、測光変換と分類するものもあります。7ノイズ注入は、ガウス分布に従ってランダムな黒、白、または色のピクセルを画像に挿入します。
ノイズ注入が示すように、画像拡張技法を幾何学的なものと測光的なものに二分するだけでは、可能な拡張戦略のすべての範囲をカバーすることはできません。その他の画像拡張技法は、カーネル・フィルタリング(画像をシャープにしたり、ぼかしたりすること)と画像混合です。後者の例としては、ランダムなトリミングやパッチがあります。この技法では、複数の画像からランダムにセクションをサンプリングして、新しい画像を作成します。この新しい画像は、入力画像のサンプリングされたセクションから作成された複合画像です。関連する技法として、画像のランダムな部分を削除するランダム消去があります。 8実際のユースケースでは、機械が部分的に隠された物体を識別する必要があるかもしれないため、このようなタスクは画像認識タスクに役立ちます。
別の拡張として、インスタンスレベルの拡張があります。インスタンスレベルの拡張は、基本的に、ある画像からラベル付けされた領域(例えば、バウンディング・ボックス)をコピーして、別の画像に挿入します。このようなアプローチは、異なる背景の物体や他の物体によって隠された物体を識別するために画像をトレーニングします。インスタンスレベルの拡張は、物体検出や画像セグメンテーション・タスクのような領域固有の認識タスクに特に有効なアプローチです。9
画像拡張と同様に、テキスト・データ拡張は、さまざまな自然言語処理(NLP)タスクで使用される多くの技法と手法で構成されています。いくつかのリソースでは、テキスト拡張がルールベース(または「簡単な」)手法とニューラル手法に分けられています。もちろん、画像拡張技法の二分法と同様、この分類はすべてをカバーしているわけではありません。
ルールベースのアプローチには、ランダム削除や挿入のような、比較的単純な検索と置換の技法が含まれます。ルールベースのアプローチには、同義語の置き換えも含まれます。この戦略では、文字列内の1つまたは複数の単語が、WordNetやParaphrase Databaseなどの事前に定義されたシソーラスに記録されているそれぞれの類義語に置き換えられます。目的語と主語が入れ替わる文の倒置や受動態も、ルールベースのアプローチの例です。10
分類によると、ニューラル法は、ニューラル・ネットワークを使用して、入力データから新しいテキスト・サンプルを生成します。注目すべきニューラル手法の1つに、バックトランスレーション(逆翻訳)があります。これは、機械翻訳を使用して入力データをターゲット言語に翻訳し、次に元の入力言語に戻します。このように、バックトランスレーションは、自動翻訳の結果として生じる言語的な差異を利用して、拡張を目的とした単一言語データ・セットの意味的な差異を生成します。研究によると、機械翻訳モデルの性能を向上させるには、この方法が効果的であることが示されています。11
Mix-Upテキスト拡張も戦略の1つです。このアプローチでは、ニューラル・ネットワークの埋め込みを利用したルールベースの削除と挿入の手法をデプロイします。具体的には、事前学習をするトランスフォーマー(例えば、BERT)は、テキストの単語または文レベルの埋め込みを生成し、bag of wordsモデルのように、テキストをベクトル・ポイントに変換します。テキストをベクトル・ポイントに変換することは、一般に言語的な類似性を捉えることを目的としています。つまり、ベクトル空間内で互いに近い単語や文は、似たような意味や頻度を共有していると考えられます。Mix-up拡張は、指定された距離内にあるテキスト文字列を補間して、入力データの集合体である新しいデータを生成します。12
多くのユーザーは、どのデータ拡張戦略を実装するべきかを見極めるのに苦労しています。データ拡張技法はデータ・セットとタスクの間で有効性が異なるのでしょうか。データ拡張技術に関する比較研究によると、1つの拡張よりも複数の拡張の方がプラスの影響が大きいことが示唆されています。一方、技法の最適な組み合わせの判断は、データ・セットとタスクに依存します。13では、最適な技法を選択するにはどうすればよいのでしょうか。
この問題に取り組むために、研究では自動データ拡張に目を向けています。自動拡張アプローチの1つは、強化学習を使用して、与えられたデータ・セットで最高の検証精度を返す拡張技法を特定します。14このアプローチは、サンプル内とサンプル外のデータの両方でパフォーマンスを向上させる戦略を実装することを示しています。15自動拡張のもう1つの有力なアプローチは、分類器の出力から偽陽性を識別して拡張することです。このようにして、自動拡張は、頻繁に誤分類される項目を修正するための最適な戦略を特定します。16
最近の研究では、タスク依存17やクラス依存18の最適な拡張戦略を特定するために、生成ネットワークやモデルが注目されています。これには敵対的生成ネットワーク(GAN)を使った研究も含まれます。GANは、合成データを生成するために一般的に使用されるディープラーニング・ネットワークであり、最近の研究では、データ拡張へのGANの利用が調査されています。例えば、いくつかの実験では、医用画像セットの合成データ拡張が、従来の拡張よりも分類19およびセグメンテーション20・モデルの性能を向上させることが示唆されています。これに関連して、テキスト拡張の研究では、大規模言語モデル(LLM)とチャットボットを活用して、拡張データを生成しています。これらの実験では、LLMを使用して、Mix-upおよびSynonymizing技法を使用して入力データの拡張サンプルを生成しています。これは、従来の拡張と比べてテキスト分類モデルに大きなプラスの影響があることを示しています。21
研究者や開発者は、さまざまな機械学習タスクのモデルをトレーニングする際に、データ拡張技法を広く採用しています。対照的に、合成データは比較的新しい研究分野です。合成データと実データの比較実験では、結果はまちまちで、合成データのみでトレーニングしたモデルが、実データでトレーニングしたモデルを上回ることもあれば、下回ることもあります。当然のことながら、この研究は、合成データが実世界のデータの特徴を反映しているときに最も有用であることを示唆しています。22
ABIソリューションの進化する状況について独自の洞察を提供し、データおよび分析のリーダーにとって重要な調査結果、仮定、推奨事項をご覧ください。
データ・アクセスを簡素化し、データ・ガバナンスを自動化します。ワークロードのコスト最適化、AIと分析の拡張など、データレイクハウス戦略をデータ・アーキテクチャーに統合することで、あらゆるデータをあらゆる場所で利用できるようになります。
データ駆動型の組織を構築し、ビジネス上の優位性を推進するためのデータ・リーダー向けガイドはこちらです。
オープンなデータレイクハウス・アプローチがどのように信頼できるデータを提供し、分析とAIプロジェクトをより迅速に実行できるかをご覧ください。
4つの重要なステップで、データおよび分析戦略をビジネス目標に結び付けましょう。
ビジネス・インテリジェンスの課題がなぜ解決されないのか、そしてそれが組織全体のユーザーにとって何を意味するのかを詳しく見てみましょう。
企業が繁栄するには、データを活用して顧客ロイヤルティーを構築し、ビジネス・プロセスを自動化し、AI駆動型のソリューションで業務を刷新する必要があります。
IBMコンサルティングと連携することで、企業データの価値を引き出し、ビジネス上の優位性をもたらす洞察を活用した組織を構築します。
より良い意思決定を可能にする、AIを活用して洞察を引き出すCognos Analytics 12.0をご紹介します。
f Martin TannerとWing Hung Wong、「The Calculation of Posterior Distributions by Data Augmentation」、「Journal of the American Statistical Association」誌、Vol.82、No. 398(1987年)、528~540ページ。
2 Sylvestre-Alvise Rebuffi、Sven Gowal、Dan Andrei Calian、Florian Stimberg、Olivia Wiles、Timothy A Mann、「Data Augmentation Can Improve Robustness」、Advances in Neural Information Processing Systems、Vol. 34、2021年、 https://proceedings.neurips.cc/paper_files/paper/2021/hash/fb4c48608ce8825b558ccf07169a3421-Abstract.html。
3 Manisha SainiとSeba Susan,「Tackling class imbalance in computer vision: A contemporary review」、Artificial Intelligence Review、Vol.54、2023年、 https://link.springer.com/article/10.1007/s10462-023-10557-6。
4 Fabio Perez、Cristina Vasconcelos、Sandra Avila、Eduardo Valle、「Data Augmentation for Skin Lesion Analysis」、または2.0 Context-Aware Operating Theaters、Computer Assisted Robotic Endoscopy、Clinical Image-Based Procedures、Skin Image Analysis、2018年、 https://link.springer.com/chapter/10.1007/978-3-030-01201-4_33。
5 Connor ShortenおよびTaghi M. Khoshgoftaa、「A survey on Image Data Augmentation for Deep Learning」、 「Journal of Big Data」誌、2019年、 https://journalofbigdata.springeropen.com/articles/10.1186/s40537-019-0197-0。
6 Duc Haba、 Data Augmentation with Python、Packt Publishing社、2023年。
7 Mingle Xu、Sook Yoon、Alvaro Fuentes、Dong Sun Park、「A Comprehensive Survey of Image Augmentation Techniques for Deep Learning」、 Patter Recognition、Vol.137、 https://www.sciencedirect.com/science/article/pii/S0031320323000481。
8 Connor ShortenおよびTaghi M. Khoshgoftaa、「A survey on Image Data Augmentation for Deep Learning」、 「Journal of Big Data」誌、2019年。 https://journalofbigdata.springeropen.com/articles/10.1186/s40537-019-0197-0。Terrance DeVriesおよびGraham W. Taylor、「Improved Regularization of Convolutional Neural Networks with Cutout」、2017年、 https://arxiv.org/abs/1708.04552。
9 Zhiqiang Shen、Mingyang Huang、Jianping Shi、Xiangyang Xue、Thomas S. Huang、「Towards Instance-Level Image-To-Image Translation」、IEEE/CVF Conference on Computer Vision and Pattern Recognition(CVPR)における議事録、2019年、3683~3692ページ、https://openaccess.thecvf.com/content_CVPR_2019/html/Shen_Towards_Instance-Level_Image-To-Image_Translation_CVPR_2019_paper.html。Golnaz Ghiasi、Yin Cui、Aravind Srinivas、Rui Qian、Tsung-Yi Lin、Ekin D. Cubuk、Quoc V. Le、Barret Zoph、「Simple Copy-Paste Is a Strong Data Augmentation Method for Instance Segmentation」、IEEE/CVF Conference on Computer Vision and Pattern Recognition(CVPR)における議事録、2021年、2918~2928ページ、https://openaccess.thecvf.com/content/CVPR2021/html/Ghiasi_Simple_Copy-Paste_Is_a_Strong_Data_Augmentation_Method_for_Instance_CVPR_2021_paper.html。
10 Connor Shorten、Taghi M. Khoshgoftaar、Borko Furht、「Text Data Augmentation for Deep Learning」、 「Journal of Big Data」誌、2021年、 https://journalofbigdata.springeropen.com/articles/10.1186/s40537-021-00492-0。Junghyun Min、R. Thomas McCoy、Dipanjan Das、Emily Pitler、Tal Linzen、「Syntactic Data Augmentation Increases Robustness to Inference Heuristics」、第58回Association for Computational Linguistics年次総会議事録、2020年、2339~2352ページ、https://aclanthology.org/2020.acl-main.212/。
11 Connor Shorten、Taghi M. Khoshgoftaar、Borko Furht、「Text Data Augmentation for Deep Learning」、 「Journal of Big Data」誌、2021年、 https://journalofbigdata.springeropen.com/articles/10.1186/s40537-021-00492-0。Rico Sennrich、Barry Haddow、Alexandra Birch、「Improving Neural Machine Translation Models with Monolingual Data」、第54回Association for Computational Linguistics年次総会議事録、2016年、86~96ページ、 https://aclanthology.org/P16-1009/。
12 Connor Shorten、Taghi M. Khoshgoftaar、Borko Furht、「Text Data Augmentation for Deep Learning」 「Journal of Big Data」誌、2021年、 https://journalofbigdata.springeropen.com/articles/10.1186/s40537-021-00492-0。Lichao Sun、Congying Xia、Wenpeng Yin、Tingting Liang、Philip Yu、Lifang He、「Mixup-Transformer: Dynamic Data Augmentation for NLP Tasks」、第28回International Conference on Computational Linguisticsの議事録、2020年、 https://aclanthology.org/2020.coling-main.305/。Hongyu Guo、Yongyi Mao、Richong Zhang、「Augmenting Data with Mixup for Sentence Classification: An Empirical Study」、2019年。https://arxiv.org/abs/1905.08941。
13 Suorong Yang、Weikang Xiao、Mengchen Zhang、Suhan Guo、Jian Zhao、Furao Shen、「Image Data Augmentation for Deep Learning: A Survey」、2023年。 https://arxiv.org/pdf/2204.08610.pdf。Alhassan MumuniおよびFuseini Mumuni、「Data augmentation: A comprehensive survey of modern approaches」、Array、Vol. 16、2022年、 https://www.sciencedirect.com/science/article/pii/S2590005622000911。Evgin Goveri、「Medical image data augmentation: techniques、comparisons and interpretations」、Artificial Intelligence Review、Vol.56、2023年12561~12605ページ、 https://link.springer.com/article/10.1007/s10462-023-10453-z。
14 Ekin D. Cubuk、Barret Zoph、Dandelion Mane、Vijay Vasudevan、Quoc V. Le、「AutoAugment: Learning Augmentation Strategies From Data」、IEEE/CVF Conference on Computer Vision and Pattern Recognition(CVPR)における議事録、2019年、113~123ページ、 https://openaccess.thecvf.com/content_CVPR_2019/papers/Cubuk_AutoAugment_Learning_Augmentation_Strategies_From_Data_CVPR_2019_paper.pdf。
15 Barret Zoph、Ekin D. Cubuk、Golnaz Ghiasi、Tsung-Yi Lin、Jonathon Shlens、Quoc V. Le、「Learning Data Augmentation Strategies for Object Detection」、第16回European Conference on Computer Visionの議事録、2020年、 https://link.springer.com/chapter/10.1007/978-3-030-58583-9_34。
16 Sandareka Wickramanayake、Wynne Hsu、Mong Li Lee、「Explanation-based Data Augmentation for Image Classification」、Advances in Neural Information Processing Systems、Vol. 34、2021年、 https://proceedings.neurips.cc/paper_files/paper/2021/hash/af3b6a54e9e9338abc54258e3406e485-Abstract.html。
17 rishna Chaitanya、Neerav Karani、Christian F. Baumgartner、Anton Becker、Olivio Donati、Ender Konukoglu、「Semi-supervised and Task-Driven Data Augmentation」、第26回International Conference on Information Processing in Medical Imagingの議事録、2019年、 https://link.springer.com/chapter/10.1007/978-3-030-20351-1_3。
18 Cédric Rommel、Thomas Moreau、Joseph Paillard、Alexandre Gramfort、「ADDA: Class-wise Automatic Differentiable Data Augmentation for EEG Signals」、International Conference on Learning Representations、2022年、 https://iclr.cc/virtual/2022/poster/7154。
19 Maayan Frid-Adar、Idit Diamant、Eyal Klang、Michal Amitai、Jacob Goldberger、Hayit Greenspan、「GAN-based synthetic medical image augmentation for increased CNN performance in liver lesion classification」、Neurocomputing、2018年、321~331ページ、 https://www.sciencedirect.com/science/article/abs/pii/S0925231218310749。
20 Veit Sandfort、Ke Yan、Perry Pickhardt、Ronald Summers、「Data augmentation using generative adversarial networks (CycleGAN) to improve generalizability in CT segmentation tasks」、Scientific Reports、2019年、 https://www.nature.com/articles/s41598-019-52737-x。
21 Kang Min Yoo、Dongju Park、Jaewook Kang、Sang-Woo Lee、Woomyoung Park、「GPT3Mix: Leveraging Large-scale Language Models for Text Augmentation」、Findings of the Association for Computational Linguistics: EMNLP 2021年、2225~2239ページ、https://aclanthology.org/2021.findings-emnlp.192/。Haixing Dai、Zhengliang Liu、Wenxiong Liao、Xiaoke Huang、Yihan Cao、Zihao Wu、Lin Zhao、Shaochen Xu、Wei Liu、Ninghao Liu、Sheng Li、Dajiang Zhu、Hongmin Cai、Lichao Sun、Quanzheng Li、Dinggang Shen、Tianming Liu、Xiang Li、「AugGPT: Leveraging ChatGPT for Text Data Augmentation」、2023年、 https://arxiv.org/abs/2302.13007。
22 Bram Vanherle、Steven Moonen、Frank Van Reeth、Nick Michiels、「Analysis of Training Object Detection Models with Synthetic Data」、 第33回British Machine Vision Conference、2022年、https://bmvc2022.mpi-inf.mpg.de/0833.pdf。Martin Georg Ljungqvist、Otto Nordander、Markus Skans、Arvid Mildner、Tony Liu、Pierre Nugues、「Object Detector Differences When Using Synthetic and Real Training Data」、 SN Computer Science、Vol. 4、2023年、 https://link.springer.com/article/10.1007/s42979-023-01704-5。Lei Kang、Marcal Rusinol、Alicia Fornes、Pau Riba、Mauricio Villegas、「Unsupervised Writer Adaptation for Synthetic-to-Real Handwritten Word Recognition」、 IEEE/CVF Winter Conference on Applications of Computer Vision (WACV)における議事録、2020年、3502~3511ページ、 https://openaccess.thecvf.com/content_WACV_2020/html/Kang_Unsupervised_Writer_Adaptation_for_Synthetic-to-Real_Handwritten_Word_Recognition_WACV_2020_paper.html。