全球疫情实时数据库CovidNet:超 2.25 亿访问量,522 个机构使用
科技
科技 > 互联网 > 正文

全球疫情实时数据库CovidNet:超 2.25 亿访问量,522 个机构使用

​文丨《亲爱的数据》,作者丨谭婧

新冠疫情追踪平台——CovidNet,背后是一批50多人组成的志愿者队伍。

志愿者精神,是一种互助、不求回报的精神。

志愿者精神,是文明社会的动力。

骄傲地说:“如今, 已成为约翰霍普金斯大学(JHU)疫情追踪平台,是美国疾控中心(CDC)使用参考数据来源之一,也是维基百科新冠全球大流行页面的北美数据主要引用来源。”

超过 2.25 亿访问量,被 522 个组织或机构使用,这是一个庞大的数字。

数据库中的北美数据提供细分到州/省,市/郡的新冠疫情追踪。可以覆盖北美市、郡共 3169 个,记录了包括确诊、死亡、治愈、检测、住院数等数据。

注意,是实时数据。

论文预印本已在 arXiv (一个收集物理学,数学,计算机科学与生物学论文预印本的网站)发布。

截至论文发布日,是同类数据库中覆盖国家范围最广、实时性最强且地理区域颗粒度最细的疫情平台。

这是一支非常用心的志愿者团队。

2020 年 1 月底开始,汇总搜集北美实时疫情信息,整合全球数据,搭建了目前全世界最实时、广泛、地理区分度最细的新冠疫情追踪平台。

值得一提的是,CovidNet 创办人郭昱,在旧金山 Uber 公司担任自动驾驶机器学习平台高级工程经理一职。

这是一个非常用心的数据库。

实时、精确、范围广、颗粒度精细是数据库的目标。人工主动搜索录入、自动化数据抓取和汇总,以及用户反馈线索的众包方法公用。

在疫情发展的不同阶段对数据的展示和格式进行了多次调整。不仅有实时更新的数据追踪网站,还有 API 接口工具,给研究者、学校、研究机构、企业使用。

同时,数据追踪网站中提供了多种地理分布与时间序列的交互式数据可视化工具。

州/省-市/郡的交互式病例分布地图

州/省-市/郡的数据筛选与排序

跨国家/地区/区域的疫情发展趋势横向比较动态展示图

全景的时间疫情趋势折线图

新冠疫情追踪平台志愿者团队、联络人陈娉莹女士告诉《亲爱的数据》,数据抓取保持全天实时更新,优化了数据搜索、整理和发布的流程,包括:

1. 优先使用相较基层卫生部门发布的最新数据更新数据平台,因为高层级卫生部门统计收集、发布时间滞后,会导致的数据不及时。

2. 如确诊数目非常规的波动,或累计数字出现下降等情况,为应对客观原因导致的原始数据中的噪声。对比多条信源来进行合理的修正。

3. 如果发现数据有异常波动,会有相应的志愿者进行手工核查。比如设置网页前端发布的特定统计量变化限制,对比后端最新录入数据与历史数据,以防正在更新核查中的数据被错误的部署到网页前端。

4. 大量的用户报告提高了数据的及时性、准确性。“用户反馈入口”给志愿者提供当地的最新疫情信息或新闻线索。

5. 对相关地区的历史数据进行全面复查。

最值得一提的是,CovidNet的志愿者团队成员主要是,在美华人、在美读书的留学生、科研相关的工作人员、大学教授、在职的软件工程师、数据科学家、医生,还有正在备孕的准妈妈们。

爱人者,人恒爱之;敬人者,人恒敬之。

亲爱的凤凰网用户:

您当前使用的浏览器版本过低,导致网站不能正常访问,建议升级浏览器

第三方浏览器推荐:

谷歌(Chrome)浏览器 下载

360安全浏览器 下载