Cloudera等大数据供应商谈论了Hadoop和其他数据如何为用户“民主化数据”。Cloudera公司的Justin Kestelyn表示,他们实现这一目标的的做法之一是为数据分析师提供多种方法来访问数据:“分析师现在可以使用BI工具、SAS、SQL命令行,或者甚至是自由文本搜索来访问Hadoop,为各类用户提供了各种选择。”
但Kestelyn展示的其实是为某一类用户提供多种选择。
除了数据科学专家,对于大多数用户而言,大数据也意味着大痛苦,这里的原因也很显而易见。正如Mitchell Sanders所指出的,最好的数据科学家应该具备域知识、编程技能以及数学/统计分析技能。我们可能想要民主化对数据的访问,但做起来很困难。
MongoDB公司的Joe Drumgoogle无奈地指出:“有些东西并不适合大众市场,例如驾驶飞机或者做数据分析。”
即使对于数据科学家而言,Hadoop也很复杂。尽管如此,DataStax的Alex Popescu表示,这种复杂性是可以理解的,因为Hadoop让我们可以实验和尝试新的想法,同时继续积累和存储你的数据。“它是开源且免费的,让试错过程很廉价。”
但如果大数据仍然只是数据精英的工具,大数据并不会走太远。
民主化大数据
Kestelyn表示:“BI和Hadoop具有相同的挑战,这并不是技术挑战,而是如何让企业变成数据驱动的企业。”
如果是这样,那么,只有少数人具有查询数据的能力,岂不是更强大?但事实是,如果你不能访问数据,很难做到“数据驱动”,并且通常情况下,最深入了解公司业务的人并不是懂得Spark或Hive的人。
现代BI和大数据离主流用户很远,正如Serendipity公司的Mare Lucas所说:
多年来,关于BI和数据分析的谈话主要围绕如何聚合海量数据,然后让数据科学家从中发现价值。现在,尽管信息泛滥,企业决策者往往无法以有效的方法来访问数据。这些工具通常是针对懂得算法和统计分析的人,一般用户很难使用这些工具。最终的结果?大数据的发展速度会很慢,大数据的魔力掌握在少数人手中。
行业专家Peter Goldmacher解释说:“大数据领域最大的赢家并不是大数据技术供应商,而是利用大数据来创造全新业务或扰乱传统业务的公司。”
但由于只有数据科学家拥有分析数据的能力,这并不会很快发生。
大数据和你
Tableau、Clearstory和Domo等新一代数据可视化工具旨在让更广泛的受众来使用企业数据。这些公司提供交互式仪表板来显示各种数据来源(Hadoop或Spark集群;Teradata EDW;MongoDB、MySQL、Cassandra或Oracle数据库等),让所有企业用户都可以使用,并不需要特殊技能。
让大数据更简单的市场要比构建大数据基础设施的市场大得多。因此,鉴于销售开源基础设施支持合同的困难度,我们可以看看,现在的Hadoop供应商是否会购买Clearstorys和SlamData来真正实现数据民主化。
但就目前而言,大多数企业应该密切关注数据可视化供应商。在大多数情况下,这些不会是过去的BI供应商(他们都在努力应对非结构化数据),而是现代BI初创公司,他们了解现在的数据很混乱,但可以通过正确的可视化工具来挖掘其价值。