如今,数据正在大规模生成,为机器学习 (ML) 计划提供了绝佳的机会。然而,这些数据中很大一部分仍超出数据科学家和 ML 从业者的权限范围。严格的隐私法规、高昂的成本和漫长的处理时间阻碍了数据处理。
因此,Gartner 估计85% 的 AI 项目都以失败告终。这时,合成数据 就大有裨益。
合成数据是系统借助详细算法和模拟生成的人工数据。它是完全匿名的数据,是真实数据的绝佳替代品,因为它允许组织按需创建任意大小的训练数据。
什么是合成数据?
人工智能算法人工创建合成数据,但它是在真实数据集上训练的,具有 与原始数据相同的属性。 由于合成数据与实际数据没有 一一对应的关系,因此重新识别的机会较少。
因此, 数据科学家 可以放心地复制和使用数据进行测试和建模,而不会面临泄露个人身份信息 (PII)和违反监管机构的 风险。
合成数据是如何生成的?
生成合成数据的方法有很多种。较简单的方法包括蒙特卡洛模拟和从分布集中抽取数字,但如果数据集比较复杂,则通常首选生成模型。
生成模型基于神经网络,可自动从现实世界数据中发现的模式中学习并生成与其准确匹配的信息。生成对抗网络 (GAN) 和变分自动编码器 (VAE) 是两种常见的生成模型架构。
在 GAN 模型中,两个神经网络模型(称为生成器和鉴别器)在零和游戏中竞争,其中一个网络的收益就是另一个网络的损失。另一方面,VAE 是采用编码器-解码器概念的无监督模型。
哪些工具有助于生成合成数据?
以下是可用于创建合成数据的工具示例。
- Datagen是一种合成数据集解决方案,可提供可用于物联网 (IoT)、机器人和增强现实 (AR) 的逼真的数据集。
- Scikit-learn基于 Matplotlib、NumPy 和 SciPy 构建,是一个提供生成合成数据集的工具的开源Python 库。
- Pydgben是一个 Python 库,可以创建常见条目,如姓名、工作、信用卡号、电子邮件地址等。
- Parallel Domain是一个合成数据平台,可生成高质量的传感器数据以改进 ML 模型和计算机视觉工作流程。
使用合成数据的好处
在构建机器学习模型时,合成数据比其他类型的数据更具可扩展性、更易于使用且更具成本效益。
可扩展性
ML 模型会消耗 大量数据。获取如此大量的相关数据用于训练和测试 几乎是不可能的。借助合成数据工具,数据科学家可以根据需要创建任意数量的数据副本,以构建高质量的 AI/ML 模型。
易于使用
处理真实数据时,保护个人信息、 消除不准确信息和 高效处理各种格式的数据至关重要。 合成数据更容易处理,因为它可以屏蔽私人信息、消除错误并标准化格式,以便更直接地标记。
经济高效
获取真实的训练数据可能会花费企业很多钱。此外,手动标记数据非常耗时。使用 合成数据生成工具,可以简化该过程,使其成为更具成本效益和更快捷的过程。
使用合成数据的挑战
合成数据具有多种优势, 但也存在一定的局限性。例如,其中一个显著的缺点 是,要有效使用合成数据,需要技术娴熟的分析师,他们知道如何使用复杂的数据生成器工具。这通常很困难,因为就业市场上 缺乏合格的人工智能工作者。
此外,合成数据的质量只与原始数据一样好,而真实数据往往 充满偏见。因此,当神经网络在有偏见的历史数据上进行训练时,它们会反映出相同的偏见。这通常会导致机器学习模型的输出不准确。
合成数据的用例
合成数据最突出的两个用例是自动驾驶汽车和医疗保健。
自动驾驶汽车
自动驾驶汽车是迄今为止合成数据的最佳用例。 汽车制造商必须考虑数百万种场景并据此收集数据,以打造安全的汽车。
在现实中这是不可能做到的,但利用合成数据,组织可以对任何可以想象的驾驶场景产生数百万甚至数十亿种排列组合,以得出安全的驾驶解决方案。
卫生保健
医疗保健是一个受到严格监管的行业,对患者数据的使用有严格的法律规定。由于合成数据完全匿名且不存在重新识别的风险,因此医疗机构可以轻松地将其用于在医疗保健行业进行科学研究、临床试验和训练 ML 模型。
合成数据的未来
合成数据生成是一种革命性的方法,可以创建 具有成本效益且高度可扩展的数据。随着人们对合成数据及其各种好处的认识不断提高,越来越多的企业将利用其潜力来获取利益。
此外,随着隐私法的收紧,组织将别无选择,只能使用合成数据。因此,合成数据将继续受到欢迎,直到完全成为主流。