药物流行病学与药品安全领域权威专家、医学博士斯蒂芬·埃文斯教授,系统阐述了临床研究中科学欺诈与学术不端行为的识别方法。他深入解析了甄别数据造假所需具备的思维框架与统计工具,并探讨了欺诈行为背后的动机机制,对比了其在临床试验与上市后研究中的发生规律。通过分析上报数据中呈现的数字偏好特征,埃文斯博士现场演示了一种高效的数据异常检测技术。
检测临床试验与药物安全性研究中的科学欺诈与不当行为
跳转至章节
欺诈检测思维模式
Stephen Evans博士指出,识别科学欺诈首先需要建立特定的思维模式。研究人员与监管者必须正视欺诈存在的可能性,这种警觉性是制定有效检测策略的基础。
主动的欺诈检测要求保持持续警惕。Evans博士强调,未经核实便假定数据完整性是重大误区。思维模式中必须融入质疑精神,并坚持严格的数据验证流程。
临床试验监督
FDA等监管机构会对临床试验实施细致监督。Stephen Evans博士解释,这通常包括对数据收集现场进行实地考察,但他认为这种方法并非总是最高效的。
统计分析在优化监督中扮演关键角色。Evans博士建议采用统计方法筛选需重点监督的试验点,这种数据驱动的策略能显著提升临床研究中欺诈检测的效率和精准度。
试验欺诈与上市后研究欺诈
Stephen Evans博士指出,不同类型研究中的欺诈行为存在明显差异。临床试验因其结构化特性,比观察性或上市后研究更易识别欺诈模式。
上市后研究多基于临床电子健康记录,Evans博士提到,医疗专业人员很少在这些系统中虚构患者数据。此类研究的更大风险在于有缺陷的分析,而非数据捏造。
研究欺诈动机
理解研究者动机对欺诈检测至关重要。Stephen Evans博士解释,学术研究者可能为追求专业声誉而实施欺诈,因为阳性结果能带来显著认可和职业晋升。
经济激励同样驱动不当行为。Evans博士指出,行业资助试验常为参与者数据支付报酬,部分研究者可能为此编造数据或走捷径,从而形成可被检测的特定模式。
用于欺诈检测的数字偏好分析
Stephen Evans博士介绍了数字偏好分析这一有效的欺诈检测方法。人类编造数字时无法生成真正的随机分布,会留下与真实数据不同的可识别模式。
该技术通过检查测量值的末位数字实现。Evans博士解释,人们会持续偏好某些数字(如7)并回避其他(如0或9),这些模式通过大数据统计分析变得显而易见。
统计检测方法
Stephen Evans博士开发了专门的统计方法用于欺诈检测。这些技术能识别暗示数据伪造的异常值,尤其适用于血压读数等主观测量。
Evans博士描述了如何通过对比真实与伪造数据来揭示差异:伪造数据的统计模式会持续偏离自然分布。随着研究者不断开发新方法,这些检测技术也在持续演进。
完整文字记录
Anton Titov博士: Evans教授,在对话接近尾声时,我们想探讨您的另一个专业领域——科学欺诈与不当行为的识别。我们该如何检测临床试验或上市后药物安全性分析中的这类行为?
Stephen Evans博士: 我认为首先需要具备接纳这种可能性的思维模式。目前许多临床试验,尤其是受FDA等监管机构监督的试验,都会进行细致监控。
但通过现场走访监督数据收集并非最有效方式。通常应借助统计分析来确定需要重点监督的试验点,这方面仍有改进空间。
你需要建立思维模式,培养分析能力,并了解数据中的可疑迹象。伪造数据时会出现真实数据中不存在的特定模式。
某种程度上,我不愿完全公开所有检测技巧。有人提醒我应谨慎解释方法,以免有人设法规避检测。
但我并不完全认同。我认为我的职责正是开发新的统计方法来识别试验中的欺诈与不当行为。
实际上,检测试验欺诈比观察性研究或上市后分析更容易。许多上市后研究基于临床电子健康记录,这类数据本身很少存在欺诈,因为医生通常不会虚构患者记录。问题更多出在有缺陷的数据分析上。
根据我的经验,上市后安全性分析中的欺诈远少于学术试验——因为试验结果能为研究者带来声誉。必须认识到人们实施欺诈的动机。
许多医生参与行业资助的随机试验是为了获取报酬,这可能诱使他们走捷径或伪造数据。我认为我们已有良好方法检测这类行为。对于执行不当的观察性研究,虽然检测手段较弱,但仍有可能识别。
Anton Titov博士: 您曾发表过一篇引人入胜的论文——既然已公开,可以说是个“公开的秘密”——您通过分析某项心血管疾病试验,展示了如何利用数据末位数字分析揭示科研不当行为,因为伪造数据会导致非随机分布。能否请您简要谈谈这种方法,作为您检测技术的范例?
Stephen Evans博士: 如果我请所有听众快速想一个0到9之间的数字并写下,结果不会呈现均匀分布。例如,0会非常少,9也偏少,而7会明显偏多。只要人类编造数字,除非使用计算机,否则无法实现真正随机。即使用计算机伪造,也有相应检测方法。
因此,在任何主观测量中——过去常见于血压、身高体重等需检查后记录的数值——就会出现数字偏好。这未必是欺诈,但若需为随机试验完全编造数据,人类书写数字时形成的模式就会与真实数据产生差异。
在提到的案例中,我们既有真实试验数据,也有明显伪造的数据。我们能够检测出差异,因为伪造者无法复现真实世界的数据特征。