主页 > K懂生活 >Google 推出新的搜寻服务 Dataset Search >

Google 推出新的搜寻服务 Dataset Search

2020-06-07 责任编辑:

Google 推出新的搜寻服务 Dataset Search

Google 和资料技术的发展一直齐头并进,现在 Google 透过更快搜寻数据资料进一步强化大众和资料的关係。

好消息又来了:Google 再次宣布开放全新的搜寻服务:Dataset Search(资料集搜寻)。

Google 推出新的搜寻服务 Dataset Search

还记得不久前 Google 发表的 Google Scholar(学术搜寻)吗?当时 Google Scholar 填补了快速查找学术资料的空白;这次 Google 直接将注意力精準聚焦到资料集,简直「体贴又细心」!

Google 人工智慧研究科学家 Natasha Noy 表示,科学家、研究人员、数据资料记者和其他有兴趣使用数据的人,是这个工具的主要受众,与此同时,Google 认为这些资料集在整个 Google 产品的地位将更突出。

数据工作者的又一「神器」

首先,资料集到底是什幺?Dataset(数据集)又称为数据集、数据集合或资料集合,是一种由数据资料组成的集合。Dataset 通常以表格形式出现。每一列代表一个特定变量,每一行都对应某一成员资料集的问题。它列出的价值观为每个变量,如身高和体重的一个物体或价值的随机数。每个数值称为数据资料。对应行数,该资料集的数据可能包括一个或多个成员。

从历史上看,这个术语起源于大型电脑领域,那里它有明确界定的意义,非常接近现代的电脑档案。

Natasha Noy 表示,这个新服务会将数万个不同线上资料集存档统一起来。那最终这些资料集的归属在哪呢?Natasha Noy 谈到:「我们想让这些数据可被发现,但数据仍保留在原始位置。」

如何执行?我们尝试进行了操作

这个 Dataset Search 怎幺执行的?事实上,即使对组织最完善、数据最丰富的人来说,也需要利用源于外部的数据。

举个天气和环境数据的典型例子。

假设你想要将农业数据与天气现象相关联以预测作物生长,或者想研究天气对整个历史时期发生现象的影响,这种历史天气数据,几乎不可能由单一组织积累和策划,很可能由 NOAA 和 NASA 等组织随时提供(注:NOAA 是美国国家海洋和大气管理局,NASA 是美国国家航空暨太空总署) 。

这些组织会透过专用数据门户定期策划和发表数据,因此,如果你需要定期获取数据,可能需要熟悉透过这些门户定位数据的过程。当然,你还必须同时关注 NOAA 和 NASA 之外的其他可能消息来源。

如果不仅需要天气数据,还想找到正确的来源,然后再找到这些来源的更多正确数据,之前一个搜寻介面根本无法做到,现在 Google 开发了 Dataset Search,可达成一个介面就搜寻到,是不是很惊喜很意外?

实际上,Google 对结构化数据的热爱一直持续,代表性事件就是收购 Metaweb 整合 Google 的知识图谱,并透过 schema.org 支援结构化诠释资料。

Google 推出新的搜寻服务 Dataset Search

搜寻资料集会检索查询的多个结果,显示资料集提供者和时间段。

我们尝试进入 Dataset Search 官网,发现在搜寻页面,如果一个资料集直接对应一个出版物,那幺资料集名称旁边就会有出版物的连结。此外 Google 还提供参考资料集的出版物大致数量。

诸多问题值得考虑:错误内容、排名与盈利的可能

推出这个搜寻,不仅方便专业用户使用,且对资料集提供商也大有好处。NOAA 的 CDO(首席开发长)Ed Kearns 是该计画的坚定支持者,并帮助 NOAA 在该工具搜寻了许多资料集。

Google 推出新的搜寻服务 Dataset Search

Dataset Search 搜寻后进入某个资料集连结,对一些讯息的排名。

为了避免资料集提供商将内容错误描述为「资料集」,Google 能告诉它「这不是一个资料集」或降低排名吗?Google 并没有给予明确的应对措施,只表示,Google 会在用户开始使用该工具后获得更多经验去改进,努力提高结果品质。

如何解决被搜出的资料集排名问题呢?Google 表示,对资料集来源页面使用 Web 排名组合(基于 Google 演算法),并将其与资料集特定信号(如数据品质、引用等)相结合。

再进一步想,如果排除在搜寻排名盈利的可能,Google 哪一天会不会拿它出来营利?比如从销售通路收集数据,并使用它们来生成具有洞察力的定期报告?

不论如何,这个计画有助于科学决策,需要的人士儘管放心使用。不过随着数据价值越来越突显,Google 也越来越重视,包括云端计算和 AI 不断增加投入,大胆猜测一下,Dataset Search 会是 Google 在学术数据领域商业化的第一步。

相关阅读