滥用本福特定律？

发布于：2021-01-27 被浏览：3831次

本福特定律是源于现实生活的第一个数据集数定律，近年来在很多数据欺诈识别方法中似乎都得到了神坛。有人认为，仅通过第一批数据的分布规律就有助于判断上市公司是否涉嫌财务欺诈，更有助于学术界判断各国披露的新冠肺炎患者数量的真实性。

本福特定律是什么，其科学依据是什么？本福特定律的适用范围是什么，如果适用范围内的数据符合本福特定律，那么数据集不是人为伪造的概率是多少？本文仅作简要论述，仅供抛砖引玉。如果能介绍杰德就太好了。

本文约1600字，阅读时间约5分钟

一个

本福特定律释义

什么是本福特定律？在十进制的情况下，一个数据集的第一位数字为n的概率是lg[(n ^ 1)/n]，其中LG是以十为基数的对数。在第一个数为1的概率中应用比较广泛，即lg230.1%。本文不讨论这个规律的证明过程，有兴趣的投资者可以自行搜索相关论文。

本福特定律如何适用？国内很多相关概述文章都有以上图片。经过搜索，我们在《华尔街日报》网站上找到了图片来源，并支付4美元下载了相关文章。作者乔克雷文麦金蒂于2014年12月5日发表了题为“会计师越来越多地使用数据分析来捕捉欺诈”的文章。

然而，本文主要介绍了一个呼叫中心的调查，它只在一段中提到“会计学教授丹阿米拉姆等人展示了他们将本福特定律应用于公司损益表、资产负债表和现金流量表的公共数据的方法。比如安然2000年以来的造假会计数据，就明显不同于本福特定律。”

定律的应用范围

《华尔街日报》这篇文章的最后，作者还提到：“本福特定律不是万能的，它只是一种方法，并不适用于所有数据集。当它是一个好的工具时，它只是识别数据中的异常，这必须通过进一步的分析来解释。在许多情况下，(数据第一位数分布和本福特定律)之间的不一致是有合理解释的。”

事实上，中和罗明的研究团队已经统计了2017年至2019年a股数据的三个表格，数千家上市公司所有财务数据集的第一个数字的分布确实与本福特定律高度一致。但如果分别研究上市公司第一批财务数据的分布，就会发现，康美康德等涉嫌财务舞弊的上市公司与本福特定律的一致性并不低于甚至显著高于一些公认的优质上市公司。

在分析了几篇文章的结论后，我们认为，对于试图通过第一批有限公共会计数据的实际分布规律来分析上市公司财务舞弊可能性的投资者来说，本福特定律可能是更适合审计师的工具。例如，审计人员可以将被审计单位会计记录中包含的所有数据信息视为数据集，包括销售发票、采购发票、工资单等。并使用这个数据集来实现这个福特定律一致性测试。

但如果数据本身不符合随机性，但至少有一部分数据具有一定的规律性，比如公司面向C端，大部分客户套餐主要集中在一个有限的集合价格上，那么数据集的第一个数可能集中在少数几个数上，其分布可能不符合本福特定律。

三

分布的伪造难度

此外，由于本福特定律越来越受到重视，也许欺诈者在编造数据时会试图使编造的数据更符合本福特定律。根据一些研究，由于庞大数据集的复杂性和数据生成往往持续到会计期末，很难构建符合本福特定律的虚假数据。

但是，根据我们的判断，实际情况未必如此。即使公司的数据由于明显的包价优先规则或商业惯例而不适用于本福特定律一致性检验，公司将构建的虚假数据作为一个整体，使其符合本福特定律就足够了，因为除虚假数据本身以外的真实数据符合本福特定律的概率很大。

但是，我们可以为审计人员提供一个增强本福特定律有效性的新思路，即可以分析第一批数据集在不同基下的分布情况。比如我们在分析四元系统的数据集时，“第一个数为1”的分布概率应该接近log(2/1)=50%(注：基数4)。在我们看来，要在所有系统中编造出符合本福特定律的数据要困难得多。

文末，也要提醒大家。如果会计记录不连贯，即要么是主营业务变更后的新业务记录，要么是新兴数据集，那么数据集的编造就容易得多。比如我们可以在所有真实数据的基础上，放大或者缩小一个倍数(比如10倍最容易理解)，转换后的数据集也会符合本福特定律。

标签：福特定律数据

本类推荐

TOP 10