按脏话数/版本号统计
按脏话密度/版本号统计
上图显示的是对Linux内核里的c,h和S源代码里的脏话统计结果,我会每月更新一次这些数据,当有新版本发布时也会更新一次。我是受the linux kernel fuck count的启发,但遗憾的是它里面的数据已经过期了。
从图中可以很明显的看出,自从2.4版开始,脏话的数量有大量的增加。然而,总的代码量也增加了很多,所以,总的来看,平均每行的诅咒密度是减少的。
介绍一下统计方法:不论任何地方出现的脏话词汇都会计入总数——出现在另一个词内也算。本来可以做的更合理些,但结果发现FreeBSD的正则表达式引擎有严重的内存泄漏问题,我也就没有再改进了。一行里对一个脏词可能会统计出多次,因为有时候一个程序员会遇到非常非常懊恼的一天。
你可以在找到这个脚本,但它写的实在是太乱了,不推荐。