深度学习训练数据不平衡问题怎么解决?

2025-10-13 22:21:00
aiadmin
原创
50

当咱们管理任何呆板进修题目时,咱们面对的最大题目之一是磨练数据不屈均。不屈均数据的题目正在于学术界看待雷同的界说、寓意和能够的管理计划存正在分化。咱们将测试用图像分类题目来解开磨练数据中不屈均种别的神秘。

正在一个分类题目中,若是正在一共你念要预测的种别里有一个或者众个种别的样本量额外少,那你的数据也许就面对不屈均种别的题目。

2.它对验证和测试样本的获取形成了一个题目,由于正在少许类观测极少的情状下,很难正在类中有代外性。

-随机删除观测数目足够众的类,使得两个种别间的相比照例是明显的。固然这种格式利用起来额外简陋,但很有能够被咱们删除了的数据包罗着预测类的紧要讯息。2.

-看待不屈均的种别,咱们利用拷贝现有样本的格式随机扩展观测数目。理念情状下这种格式给了咱们足够的样本数,但过采样能够导致过拟合磨练数据。3.

-该技艺条件咱们用合成格式获得不屈均种别的观测,该技艺与现有的利用比来邻分类格式很形似。题目正在于当一个种别的观测数目相当稀有时该奈何做。例如说,咱们念用图片分类题目确定一个少睹物种,但咱们能够只要一幅这个少睹物种的图片。只管每种格式都有各自的长处,但没有什么特定的开导式格式告诉咱们什么时间利用哪种格式。咱们现正在将利用

图像分类中的不屈均类正在本节中,咱们将选择一个图像分类题目,此中存正在不屈均类题目,然后咱们将利用一种简陋有用的技艺来管理它。

-咱们正在 kaggle 网站上采用「座头鲸识分手间」,咱们企望管理不屈均种别的离间(理念情状下,所分类的鲸鱼数目少于未分类的鲸类,而且也有少数罕睹鲸类咱们有的图像数目更少。)来自 kaggle :

正在这场角逐中,你面对着设立一个算法来识别图像中的鲸鱼品种的离间。您将阐述 Happy Whale 数据库中的胜过25,000张图像,这些数据来自磋商机构和大家功绩者。 通过您的功绩,将会助助掀开相闭环球海洋哺乳动物种群动态丰裕的解析范畴。」

又有少许类中有2-5个图片。现正在,这是一个首要的不屈均类题目。咱们不行盼望用每个种别的一张图片对深度进修模子举办磨练(固然有些算法能够恰是用来做这个的,比方 one-shot 分类题目,但咱们现正在漠视先这一点)。这也会出现一个题目,即何如划分磨练样本和验证样本。理念情状下,您会生气每个类都正在磨练和验证样本中有所显露。

- 对磨练样本举办庄敬的数据加强(咱们能够做到这一点,但由于咱们只需求针对特定类的数据加强,这能够无法全部到达咱们的主意)。以是,我采用了看起来很简陋的选项2。

-形似于我上面提到的过采样选项。我仅仅利用差别的图像加强技艺将不屈均类的图像正在磨练数据中复制了15次。这受到了杰里米·霍华德(Jeremy Howard)的开导,我猜他正在一次深度进修讲座(fast.ai course课程的第1片面)里提到过这一点。

正在上面的代码中能够看到,咱们正在这个熟习中庄敬利用 pillow (一个 python 图像库)。

咱们简陋推敲这个题目。咱们只念确保咱们的模子不妨取得鲸鱼尾的详明视图。为此,咱们将变焦图包罗到图像加强中。

咱们用 Resnet50 模子举办了很少的迭代(先冻结模子,再解冻)。出现冻结的模子看待这个题目也额外有效,由于 imagenet 中有鲸鱼尾图像。

最终咱们正在 kaggle 排行榜上取得了底细。咱们的提出的管理计划正在本次角逐中排名34,前五的均匀正确度为0.41928 :)

结论有时,最简陋的格式是最合理的(若是你没有更众的数据,只需稍加变动地拷贝现有的数据,冒充对模子来说这一种别的大大批观测与它们根本形似)。它们最有用而且能够更容易和直观地竣事事业。

联系我们
联系人: 王先生
电话: 15640228768
微信: 1735252255
地址: 沈阳市铁西区兴华南街58-6号