业界动态
对象存储服务 OBS 中说存储非结构化数据,什么是非结构化数据?
2024-10-22 05:27

前提

阅读 对象存储服务 OBS 的介绍时对里面所说的“可存储任意数量和形式的非结构化数据”产生一个问题,什么是非结构化数据?

对象存储服务(Object Storage Service)是一款稳定、安全、高效、易用的云存储服务,具备标准Restful API接口,可存储任意数量和形式的非结构化数据

非结构化数据(Unstructured Data)

非结构化数据是数据结构不规则或不完整,没有预定义的数据模型,不方便用数据库二维逻辑表来表现的数据。包括所有格式的办公文档、文本、图片、XML, HTML、各类报表、图像和音频/视频信息等等。

非结构化数据的优势

有大量的数据需要处理

非结构化数据在任何地方都可以得到。 这些数据可以在你公司内部的邮件信息、聊天记录以及搜集到的调查结果中得到,也可以是你对个人网站上的评论、对客户关系管理系统中的评论或者是从你使用的个人应用程序中得到的文本字段。 而且也可以在公司外部的社会媒体、你监控的论坛以及来自于一些你很感兴趣的话题的评论。

蕴藏着大量的价值

有些企业正投资几十亿美金分析结构化数据, 却对非结构化数据置之不理, 在非结构化数据中蕴藏着有用的信息宝库, 利用数据可视化工具分析非结构化数据能够帮助企业快速地了解现状、显示趋势并且识别新出现的问题。

不需要依靠数据科学家团队

分析数据不需要一个专业性很强的数学家或数据科学团队,公司也不需要专门聘请IT精英去做。 真正的分析发生在用户决策阶段,即管理一个特殊产品细分市场的部门经理,可能是负责寻找最优活动方案的市场营销者,也可能是负责预测客户群体需求的总经理。 终端用户有能力、也有权利和动机去改善商业实践,并且视觉文本分析工具可以帮助他们快速识别最相关的问题,及时采取行动,而这都不需要依靠数据科学家。

终端用户授权

正确的分析需要机器计算和人类解释相结合。机器进行大量的信息处理,而终端客户利用他们的商业头脑,在已发生的事实基础上决策出最好的实施方案。 终端客户必须清楚的知道哪一个数据集是有价值的,他们应该如何采集并将他们获取的信息更好地应用到他们的商业领域。 此外,一个公司的工作就是使终端用户尽可能地收集到更多相关的数据并尽可能地根据这些数据中的信息作出最好的决策。   很明显,非结构化数据分析可以用来创造新的竞争优势。 新的前沿可视化工具使用户容易解释,让他们在点击几下鼠标之后就能清楚地了解情况。 从非结构化的数据源中挖掘信息从来就没有像这样如此简单。

对象存储服务 OBS 中说存储非结构化数据,什么是非结构化数据?

非结构化数据的采集

非结构化数据的查询

随着计算机、互联网和数字媒体等的进一步普及,以文本、图形、图像、音频、视频等非结构化数据为主的信息急剧增加,面对如此巨大的信息海洋,特别是非结构化数据信息,如何存储、查询、分析、挖掘和利用这些海量信息资源就显得尤为关键。 传统关系数据库主要面向事务处理和数据分析应用领域,擅长解决结构化数据管理问题,在管理非结构化数据方面存在某些先天不足之处,尤其在处理海量非结构化信息时更是面临巨大挑战。为了应对非结构化数据管理的挑战,出现了各种非结构化数据管理系统,例如基于传统关系数据库系统扩展的非结构化数据管理系统,基于NoSQL的非结构化数据管理系统等。 在非结构化数据管理系统中,查询处理模块是其中一个重要的组成部分,针对非结构化数据的特性设计合理的查询处理框架和查询优化策略对于非结构数据的快速、有效访问极为重要。 传统的结构化查询处理过程是:首先翻译器翻译查询请求生成查询表达式,然后由优化器优化查询表达式,得到优化过的查询计划,最后由执行器选择最优的查询计划执行,得到查询结果。 查询处理的主要操作包括选择操作、连接操作、投影操作、聚合函数、排序等。查询优化的方法包括基于代价估算的优化和基于启发式规则的优化等。 非结构化查询处理过程中除了结构化数据查询处理所包含的操作外,还有两个重要的操作相似性检索和相似性连接。 相似性检索是指给定一个元素,在由该种类元素组成的集合中寻找与之相似的元素。 例如论文查重系统用到文本的相似性检索,谷歌的以图搜图的功能用到图像的相似性检索,手机上根据哼唱匹配音乐是音频的相似性检索等。相似性连接是数据库连接操作在非结构化数据上的一种扩展,它寻找两个元素种类相同的集合之间满足相似性约束的元素对,在数据清洗、数据查重、抄袭检测等领域有着重要的作用。非结构化查询处理框架要针对这两种非结构化数据特有的查询操作对结构化查询处理框架进行改进。 非结构化查询优化,在代价估算上除了要考虑结构化数据的代价估算模型外,还要设法建立相似性查询和相似性连接的代价估算模型,对于针对非结构化数据的全文索引和空间索引,也应该有不同与B树索引的代价估算模型。代价估算模型除了要考虑CPU时间、IO时间外,由于非结构化数据一般都存储在分布式系统之上,还需要考虑到中间结果网络传输所用的时间,所以中间结果的大小估算对于非结构化数据的查询优化比结构化数据的查询优化更为重要。非结构化数据的查询优化中的启发式规则和结构化数据也有所不同。

非结构化数据的存储

据IDC的一项调查报告中指出:企业中80%的数据都是非结构化数据,这些数据每年都按指数增长60%。 据报道指出:平均只有1%-5%的数据是结构化的数据。 如今,这种迅猛增长的从不使用的数据在企业里消耗着复杂而昂贵的一级存储的存储容量。 如何更好的保留那些在全球范围内具有潜在价值的不同类型的文件,而不是因为处理它们却干扰日常的工作?云存储是越来越多的IT公司正在使用的存储技术。

总结

1:非结构化数据是数据结构不规则或不完整,包括所有格式的办公文档、文本、图片、XML, HTML、各类报表、图像和音频/视频信息 2:数据量大,格式多样,是一个信息的宝库 3:有许多开源库己经实现了从非结构化文档中采集关键信息的功能。 4:非结构化查询处理过程中除了结构化数据查询处理所包含的操作外,还有两个重要的操作相似性检索和相似性连接。 5:非结构化数量多,增长迅速。企业中80%的数据都是非结构化数据,这些数据每年都按指数增长60%。 6:使用云存储

对象存储服务 OBS

版权声明:本文内容由网络用户投稿,版权归原作者所有,本站不拥有其著作权,亦不承担相应法律责任。如果您发现本站中有涉嫌抄袭或描述失实的内容,请联系我们jiasou666@gmail.com 处理,核实后本网站将在24小时内删除侵权内容。

    以上就是本篇文章【对象存储服务 OBS 中说存储非结构化数据,什么是非结构化数据?】的全部内容了,欢迎阅览 ! 文章地址:http://sjzytwl.xhstdz.com/news/7468.html 
     资讯      企业新闻      行情      企业黄页      同类资讯      首页      网站地图      返回首页 物流园移动站 http://mip.xhstdz.com/ , 查看更多   
最新新闻
新时代青年要不忘初心牢记使命
“青年兴则国家兴,青年强则国家强,有理想、有本领、有担当,国家就有前途,民族就有希望。”这是习总书记对当代青年人的殷切寄
立马昆仑凌云志 浮舟沧海“正”扬帆
政者,正也。2022年中强调:“我们唯有踔厉奋发、笃行不怠,方能不负历史、不负时代、不负人民。”号角连营、战鼓催征,当立马昆
亿翰今日资讯|恒隆集团、恒隆地产:陈启宗将退任集团董事长、执董及执行委员会主席职位
亿翰热搜榜·?上海优化住房限购政策?支持非户籍单身人士购房·?苏州市住建局:六区取消限购,但未取消限售·?消息指绿城中国区首
对象存储服务 OBS 中说存储非结构化数据,什么是非结构化数据?
前提阅读 对象存储服务 OBS 的介绍时对里面所说的“可存储任意数量和形式的非结构化数据”产生一个问题,什么是非结构化数据?对
2016安徽公务员考试每日一练(3月15日)
  安徽公务员考试网同步安徽公务员考试网考试动态信息:2016安徽公务员考试每日一练(3月15日)。更多关于安徽省考,2016安徽省考
冬天适合喝什么茶
一般情况下,冬天喝以下茶比较好,需要根据个人的口感和喜好适量饮用。冬季气候寒凉,可能会导致女性有痛经的症状,冬季适量喝玫
Mysql索引优化
可以知道以下内容:假设现在我们使用命令查看当前 SQL 是否使用了索引,先通过 SQL导出相应的执行计划如下:
MySQL笔记(一)SQL基础
数据定义语言(Data Definition Language,DDL) 用来创建或删除数据库以及表等对象,主要包含以下几种
国庆游来抄作业!南昌一日攻略~团团独家推荐路线!
国庆小长假来临你还在纠结去哪玩么那不妨来看看团团专属南昌一日游推荐南昌,一座被时间偏爱的城市这座承载着千年历史与现代活力
本企业新闻