k-means 算法是一个常见的聚类算法,其基本思路如下:
选取样本中给定数量的 k 个样本作为初始簇中心,遍历样本分别对每个聚类中心计算距离,将样本分配至距离最近的簇中。
更新每个簇中心为簇中全部样本的均值。
使用新的簇中心重新分配全部样本。
重复 2、3 步,直至簇不再发生变化。
以下是在上一篇文章所述的 e-hentai 数据集上实现的 k-means 算法:
k-means 算法是一个常见的聚类算法,其基本思路如下:
选取样本中给定数量的 k 个样本作为初始簇中心,遍历样本分别对每个聚类中心计算距离,将样本分配至距离最近的簇中。
更新每个簇中心为簇中全部样本的均值。
使用新的簇中心重新分配全部样本。
重复 2、3 步,直至簇不再发生变化。
以下是在上一篇文章所述的 e-hentai 数据集上实现的 k-means 算法:
E 绅士、即 e-hentai,以其丰富的内容受到了各国阿宅们的赞美与欢迎,是广大人民喜闻乐见的优秀漫画网站。
同时,E 绅士因其囊括作品的数量、多样性、多语言版本、齐全而丰富的 tag 标注,成为了用于机器学习等领域的天然优秀数据集。
关于 e-hentai 数据集更多的论述请参考这篇博文:HHHentaiCollection☆!!! —— 一个ML数据集的设想。
同时,一个 E 绅士爬虫项目 E-HentaiCrawler 发布了其截至今年一月爬取到的所有数据,并发布了简单的统计报告:从 E 绅士(Ehentai)47 万条本子数据看各国死宅的兴趣爱好。
伴随着人类的通信史,如何安全的传递信息一直是一个非常重要的议题。在网络发达的今天,通信安全更是诸多服务赖以开展的基础。而目前主流的安全通信手段的核心部分,就是非对称加密算法。与需要采用相同密码加解密的对称加密算法不同,非对称加密算法实现了无需在将密码明文传输的情况下,通过公开密钥中公钥部分,就可以实现加密信息的传递。可以说非对称加密算法,构成了现代通信安全的基石(当然需要实现安全通信还需要防止中间人攻击,证书体系被引入用于解决这个问题)。目前主流的非对称加密算法为 RSA 算法,关于其更多的知识请看RSA算法原理。
这篇文章简单介绍两个自由软件项目,用于实现非对称加密信息传递体系的 GPG 与基于点对点网络的去中心通信软件 Tox 。