服务器

    创业者瞄准医疗难题:大数据能治疗癌症

         [ 腾讯科技 转载 ] 暂无评论

    信念坚定

    特纳和温伯格不是在宣传高科技乌托邦,不是在说大数据可以根除癌症的负担,但是他们希望,这可以带来有意义的成果。“我们只是在说,如果我们从其他行业学到了一个经验,那就是数据具有价值,”特纳说。“这个价值究竟有多大,我们还不知道。”即使成果很小,那也可能会影响数以百万计的人。

    “如果整体来说,我们能对癌症产生5%的影响......”他没有继续说下去。2014年美国新诊断出的癌症患者有将近170万人,如果患者的生存率整体提高5%,相当于仅在今年就拯救了数以万计的生命。

    特纳的父亲是一名地球物理学家,在石油勘探行业工作。特纳年少时在德州、路易斯安那州、荷兰和苏格兰居住过。虽然浅棕色的头发已经开始后褪,露出他宽阔的前额,但特纳的面庞看上去仍像是个研究生。

    成功的连续创业者往往相当招摇,成功的创新者也常常带着一种自信可以改变世界的专横,但特纳既不招摇也不专横。他和在曼哈顿上西城长大的温伯格拥有一个共同的坚定信念:在挽救癌症患者的生命方面,技术可以发挥重大作用。“当你对医疗领域和肿瘤学有所了解,你就会发现,一个谦虚精干的团队,可以帮助解决那里存在的很多问题。”温伯格说。

    特纳最初对癌症产生兴趣是在2009年,当时他和家人到北卡罗来纳州度假的时候,他7岁的表弟布伦南-西姆金斯(Brennan Simkins)生了病,经过一系列测试,他被确诊患有急性髓系白血病。接下来的一年中,这个孩子经历了骨髓移植、复发、再移植,再复发。总之,西姆金斯不仅忍受了4次痛苦的骨髓移植,还经历过一些误诊。不过2011年之后,西姆金斯的病情得到了缓解。

    表弟这段令人痛苦的求生经历,让特纳和温伯格开始思考,他们可以做些什么来帮助其他有类似遭遇的人。他们考虑创办一家新公司,最初的想法是通过互联网提供治疗的参考意见。两人花了六个月时间来了解癌症。他们在克里希纳-耶斯万特(Krishna Yeshwant,是名医生,也是谷歌风险投资公司从事生命科学领域投资的合伙人)的不时陪伴下,走访了60多家癌症中心,与专家们交谈,和医生们一起查房,并和他们讨论各种商业理念的可能性。

    经过数十次这样的交谈后,特纳和温伯格产生了一个新想法。有大量临床数据散落在全国各地肿瘤治疗中心的备案系统中,他们想收集这些数据——通过数字和其他方式——然后整理它们,聚合它们,并把他们反馈给医生,帮助医生在如何治疗患者方面做出更好的决定。

    迎难而上

    对于特纳和温伯格这样的数据极客来说,临床肿瘤学在数据方面的问题既明显又熟悉。尽管医疗机构多年前就开始说服医生和医院接受电子病历(简称EMR),但是要获得和使用肿瘤数据仍然十分困难。

    “EMR的数据太烂了,”特纳说。同一个病人的数据可能分散在很多地方:内科、肿瘤科、放射科、外科、实验室和病理报告处等等。即使进行了数字化,数据也往往采用的是非结构化格式。它会以不同的格式,出现在不同的实验室报告和记录中,而不是有条理地归整在数据库中。

    更糟糕的是,仍然有大量数据隐藏在手写和扫描的报告中,隐藏在没人会去听的音频报告中,或者以低分辨率的PDF文件格式印在传真纸上。此外,五花八门的不兼容的系统,以及严格的关于个人健康信息的隐私法规,更是让数据在数以千计的肿瘤治疗者之间共享变得难上加难。

    从理论上讲,电子病历应该让这样的数据聚合和整合变得容易。但实际上没有这么简单,就拿癌症患者经常要做白蛋白测试来说,同一家癌症诊所采用的同一种电子病历中就存在30多个不同格式。乘上100多种不同的蛋白质和基因测试、切片,以及癌症诊疗中使用的其他诊断方法——然后再乘以不同的电子病历系统,不同的癌症中心的数量——这下你知道有多复杂了吧。

    Flatiron Health把这些信息综合到一张表格中,方式是(a)对于不同的癌症中心和实验室,创建一个通用的数据模型,(b)通过匹配算法处理数据;对于这些数据使用的术语,该算法可以识别出其中90%,(c)使用一个数据处理引擎,实时转码术语,及(d)标出任何不匹配的术语,由医生或护士进行人工识别。

    一开始,特纳和温伯格花了两年多时间来研发他们所说的数据模型,这个模型可以把海量临床信息整理成有条理的类别。他们很快就意识到,同时对每种癌症都采用这个方法太过复杂。因此,他们在一些医生的帮助下,把侧重点放在了结肠癌上。他们从已经发表的临床试验报告中提取一切信息,比如人口统计内容和居住地,癌症的分期,对疗法的反应等等,一共有350多个数据类别。然后他们在其他类型的癌症上重复这个过程。

    为了能自动从电子病历提取数据,Flatiron Health采用的多种计算机技术,比如从实验室报告中寻找数值的匹配算法。他们还微调了自然语言处理技术,让计算机能够“读取”文件,并从中提取数据。由于这种系统非常容易出错,所以Flatiron Health又开发了一个混合人机学习系统,以便捕捉和纠正错误。

    公司还聘请了50名护士,手工输入了500名患者的数据,从而获得了特纳所说的“训练集”,它可以用来检测自动收集的数据中的错误。然后把差异反馈给系统,以便完善这个自动收集过程。从理论上说,这是一个动态的系统,可以持续提高自身精度。

    标签:服务器
    提示:支持键盘“← →”键翻页
    本文导航

    关注排行榜

    产品品牌

    文章推荐

    互动沙龙

    相关内容 网友评论 返回首页
    专家咨询