AI教学 K-means– –聚类时发现异常

默认分类 · 2023-12-14 · 2950 人浏览

K-means– –聚类时发现异常

11月4日至5日,BigML加入了哈马德·本·哈利法大学的一部分的卡塔尔计算机研究所 (QCRI),将一台机器学习学校带到卡塔尔多哈!我们很高兴有这个机会与QCRI合作。

会议期间,Sanjay Chawla博士讨论了他的与异常k-means-聚类的算法。我们认为使用我们的领域特定语言来实 现它的变体来自动化机器学习工作流程WhizzML将会是一个有趣的练习。

算法

k均值算法的通常过程如下。它以一些数据集,一些聚类k和一些预期离群值l开始。它随机选择k个质心, 并根据最接近的质心将数据集的每个点分配给这些质心之一。到目前为止,这就像香草k均值。在香草k均值中, 您现在将找到每个聚类的均值并将其设置为新的质心。在K-指-然而,你先找到升离其指定的质心最远的点, 并从数据集中过滤掉它们。使用剩余的点找到新的质心。通过在进行过程中删除这些点,我们将找到不受异常 值影响的质心,从而获得不同的(最好是更好的)质心。

我们已经有了一个实现在BigML k均值,群集资源。但这不是香草k均值。BigML的实现方式不是通过对集群中的 所有点求平均来找到新的质心,而是通过对点进行采样并使用梯度下降方法来更快地工作。BigML还选择了比香草 k均值更好的初始条件。为了避免失去这些好处,我们将使用Chawla的k均值-在核心迭代中使用完整的BigML集群资源。

这个WhizzML脚本是我们实现的重点。

(define (get-anomalies ds-id filtered-ds k l)
(let (cluster-id (create-and-wait-cluster {"k" k 
                                         "dataset" filtered-ds})
    batchcentroid-id (create-and-wait-batchcentroid 
                        {"cluster" cluster-id 
                         "dataset" ds-id 
                         "all_fields" true 
                         "distance" true 
                         "output_dataset" true})
    batchcentroid (fetch batchcentroid-id)
    centroid-ds (batchcentroid "output_dataset_resource")
    sample-id (create-and-wait-sample centroid-ds)
    field-id (((fetch centroid-ds) "objective_field") "id") 
    anomalies (fetch sample-id {"row_order_by" (str "-" field-id) 
                                "mode" "linear"
                                "rows" l
                                "index" true}))
(delete* [batchcentroid-id sample-id])
{"cluster-id" cluster-id 
 "centroid-ds" centroid-ds
 "instances" ((anomalies "sample") "rows")}))

让我们逐行检查它。除了在算法的每个步骤中删除l个离群值之外,让我们在删除异常之前运行整个k均值序列。

cluster-id (create-and-wait-cluster {"k" k "dataset" filtered-ds})

然后创建带有输出数据集并附加到质心的距离的批处理质心非常容易。

batchcentroid-id (create-and-wait-batchcentroid {"cluster" cluster-id 
                                             "dataset" ds-id 
                                             "all_fields" true 
                                             "distance" true 
                                             "output_dataset" 
                                               true})

为了获得特定点,我们需要使用BigML示例资源来获得最远的点。

sample-id (create-and-wait-sample centroid-ds

现在,我们可以找到与第l个实例关联的距离,然后从我们的原始数据集中过滤出所有大于该距离的点。

anomalies (fetch sample-id {"row_order_by" (str "-" field-id) 
                        "mode" "linear"
                        "rows" l
                        "index" true}))

我们重复此过程,直到质心稳定为止(通过在算法的后续迭代中在异常值集之间传递Jaccard系数的阈值确定),或者直到达到用户设置的最大迭代次数为止。

您可以在GitHub或BigML画廊中找到完整的代码。

脚本在行动

那么,当我们运行此脚本时会发生什么呢?让我们尝试一下红酒质量数据集。这是使用ak的13(使用BigML g-means群集选择)和l的10时的结果。
img
我们可以导出集群摘要报告,并将其与具有相同k的原始BigML集群进行比较。正如您可能期望的那样,通过除去外围点,k均值的质心标准偏差的平均值减去两个结果:0.00128与0.00152。

我们作为异常值删除的点又如何呢?我们知道它们是否真的异常吗?当通过BigML异常检测器运行wine数据集时,我们可以根据隔离林获得前十大异常。与脚本找到的十个离群值相比,我们 看到有六个共同的实例。这是一个体面的协议,我们已删除了真正的异常值

  1. 《极速赛车手》动作片高清在线免费观看:https://www.jgz518.com/xingkong/63932.html

  2. 《幸福的脚步》国产剧高清在线免费观看:https://www.jgz518.com/xingkong/33411.html

  3. 《八万罪人国语》剧情片高清在线免费观看:https://www.jgz518.com/xingkong/27151.html

  4. hnunkxdvut 3 天前

    《一种谋杀》剧情片高清在线免费观看:https://www.jgz518.com/xingkong/7295.html

  5. shhzlxjioj 3 天前

    《香江花月夜1995》剧情片高清在线免费观看:https://www.jgz518.com/xingkong/93086.html

  6. shuurypoon 3 天前

    《蓝风筝1993》剧情片高清在线免费观看:https://www.jgz518.com/xingkong/87858.html

  7. mtluuceeft 5 天前

    《一种谋杀》剧情片高清在线免费观看:https://www.jgz518.com/xingkong/7295.html

  8. giwnmlxivl 7 天前

    你的文章让我感受到了艺术的魅力,谢谢! http://www.55baobei.com/WmNCVUkGl9.html

  9. ucercgfdpp 7 天前

    你的文章让我学到了很多知识,非常感谢。 https://www.4006400989.com/qyvideo/89932.html

  10. gmyzvmzlww 8 天前

    《别有用心》剧情片高清在线免费观看:https://www.jgz518.com/xingkong/59234.html

  11. pommykvhyo 9 天前

    你的文章充满了欢乐,让人忍不住一笑。 http://www.55baobei.com/yOlYPZ1nB1.html

  12. ivotimulcf 9 天前

    你的文章让我感受到了快乐,每天都要来看一看。 https://www.4006400989.com/qyvideo/43699.html

  13. cmanmmkjxp 9 天前

    你的文章内容非常用心,让人感动。 https://www.yonboz.com/video/95475.html

  14. olpbbsqbdc 9 天前

    你的文章让我感受到了生活的美好,谢谢! https://www.4006400989.com/qyvideo/49650.html

  15. rlaeeeqphk 11 天前

    每次看到你的文章,我都觉得时间过得好快。 http://www.55baobei.com/s1SKlOYfph.html

  16. wutsrvgsda 11 天前

    你的文章让我心情愉悦,真是太棒了! https://www.4006400989.com/qyvideo/60232.html

  17. nwlwiufvug 11 天前

    你的文章充满了欢乐,让人忍不住一笑。 https://www.yonboz.com/video/57426.html

  18. ropbssrqpg 11 天前

    你的文章让我感受到了快乐,每天都要来看一看。 http://www.55baobei.com/Sv1dhQC19c.html

  19. wbwpjcphnq 11 天前

    《大冬瓜国语》香港剧高清在线免费观看:https://www.jgz518.com/xingkong/98960.html

  20. lvytgfzbuq 12 天前

    《别有用心》剧情片高清在线免费观看:https://www.jgz518.com/xingkong/59234.html

  21. ellpoaylyy 13 天前

    你的文章充满了创意,真是让人惊喜。 http://www.55baobei.com/nPsY0SZA85.html

  22. otgafmfrxb 13 天前

    你的文章让我感受到了艺术的魅力,谢谢! https://www.4006400989.com/qyvideo/57267.html

  23. upknnvjnif 14 天前

    真棒!

  24. xrtfrqgedp 16 天前

    你的文章让我感受到了无尽的欢乐,谢谢分享。 http://www.55baobei.com/Na9AqKp71t.html

  25. yfaevvxode 16 天前

    你的才华让人惊叹,请继续保持。 https://www.4006400989.com/qyvideo/70558.html

  26. vwcuaclndu 16 天前

    你的文章让我感受到了艺术的魅力,谢谢! http://www.55baobei.com/4Fi0BeQloU.html

  27. yrfywcbhal 22 天前

    《反派本色》欧美动漫高清在线免费观看:https://www.jgz518.com/xingkong/51163.html

  28. twwpugkvns 22 天前

    传奇私服中背包物品编号规则有何特殊之处?:https://501h.com/lianji/2024-08-27/31022.html

  29. xlmomhfavx 23 天前

    飞雪传奇版本库:探寻完美游戏之旅:https://501h.com/heji/8469.html

  30. eojbppnhsq 23 天前

    《津轻涂的女儿》剧情片高清在线免费观看:https://www.jgz518.com/xingkong/15914.html

  31. 兄弟写的非常好 https://www.cscnn.com/

  32. 看的我热血沸腾啊www.jiwenlaw.com

  33. 想想你的文章写的特别好https://www.237fa.com/

  34. 不错不错,我喜欢看 https://www.237fa.com/

  35. 怎么收藏这篇文章?

  36. 看的我热血沸腾啊

  37. 想想你的文章写的特别好https://www.jiwenlaw.com/

  38. 不错不错,我喜欢看 https://www.jiwenlaw.com/

  39. 叼茂SEO.bfbikes.com

  40. 叼茂SEO.bfbikes.com

Theme Jasmine by Kent Liao