北极星

搜索历史清空

  • 水处理
您的位置:电网信息化物联网评论正文

大数据要“落地” 还缺些什么?

2014-01-03 13:31来源:安防知识网关键词:大数据存储物联网收藏点赞

投稿

我要投稿

大数据”是在2013年被用滥了的词汇,但实际上,由于数据量缺失、大数据清洗和分析能力不足,以及数据可视化瓶颈等问题,“大数据”一直未能迟迟落地。而在最近,随着基础设施的发展,意味着大数据的发展又走到新的一个临界点。系统软件供应商SoftwareAG的GaganMehra,在Venturebeat网站阐述了他对于大数据接下来发展的认识,他认为更快地数据处理、更可靠地数据质量,以及给更加细分的应用市场,是大数据2.0时代的重要特征。

更快的数据处理速度

由于数据量指数型增长,使得对于数据的快速分析的需要已经变得比以往任何时候都要迫切。几乎每家大数据厂商,都想要兜售比别家处理速度更快的产品。Hadoop发布的新品Hadoop2.0/YARN,几乎能实时分析数据。而下一代大数据的计算牵引框架ApacheSpark,它的速度比Hadoop快100倍。硅谷风险投资机构AndreessenHorowitz,已经以1400万美元的价格,领投了一家以ApacheSpark为业务核心的初创企业Databricks。不久前,亚马逊也上线了实时流数据服务Kinesis,来帮助没有数据处理能力的公司解决这一问题。

许多分析供应商都已经认识到了数据处理速度的重要性,并建立了能够每秒处理TB数据的产品。传感器数据分析、物联网在工业和消费级市场快速发展的势头,驱动了这次变革。比如一家企业的传感器,能够每秒产生出数百次的事件,实时处理这些数据难度很高。特别是当实时处理的传感器数据,激增到一天5TB的时候,速度,就成了尤为关键的指标。

同时,尽管数据存储成本已经累年下降,但数据存储的费用还是不小的一笔支出。部分商家相比存储完整数据流而言,更倾向于保存过滤掉噪音的数据。

智能清洗“垃圾数据”

在本就难以计数的数据量继续以指数模型激增时,对于数据质量的强化,便摆上了许多数据供应商的议程。换句话说,在庞大数据面前,即使计算机能够高效的处理它们,但大量无用的“垃圾”数据,只会给系统带来负担,并增添存储、主机等设备成本。这就需要数据处理过程中,根据特定的规则和参数,对涌进数据流进行“清洗”和分析,并自动决策该去处理哪些数据,这一切不再需要人工去干预。

投稿与新闻线索:陈女士 微信/手机:13693626116 邮箱:chenchen#bjxmail.com(请将#改成@)

特别声明:北极星转载其他网站内容,出于传递更多信息而非盈利之目的,同时并不代表赞成其观点或证实其描述,内容仅供参考。版权归原作者所有,若有侵权,请联系我们删除。

凡来源注明北极星*网的内容为北极星原创,转载需获授权。