header-lo-res_0006_wm-shoot-2074.jpg.jpg
header-lo-res_0006_wm-shoot-2074.jpg.jpg
加载……
发现你的下一步
这只需要一点时间。
你对什么项目感兴趣?
这是谁是谁?
通过点击“提交”,我同意提供上面列出的联系信息,以获得有关教育计划和机会的通信。
谢谢你的投稿!
哎呀!出事了。
首页 在线业务的博客 Hadoop Data Lake软件:它是什么,如何使用?

Hadoop Data Lake软件:它是什么,如何使用?

7月28日
hadoop_clusters_yarn_nodes.
Marcos AntonioMouriñoGarcía,CC By-SA 4.0 <https://creativeCommons.org/licenses/by-sa/4.0.>,通过维基共享

随着过去十年的数据可用性快速上升,现代企业处理的数据量远远超过了传统数据库所提供的资源。随着人工智能(AI)和机器学习的整合,复杂的数据解析和分析现在是现代企业的常见功能。然而,新数据的频率可用,使得难以以经济实惠和可管理的方式进行处理和存储。1

数据仓库和第三方解决方案(如Amazon Web Services)在解决这一问题方面取得了进展,但它们成本高昂,且可访问性有限。为了满足低成本、容易访问、高度可扩展的数据库需求,数据湖越来越受欢迎。开源Apache Hadoop软件就是这样一个数据湖解决方案,以低成本提供极高的可伸缩性。2

什么是hadoop?

那些新的数据库技术可能不熟悉Hadoop,但它已经存在了近20年。在谷歌声名鹊起之前的2002年,Doug Cutting和Mike Cafarella开发了一个名为Nutch的分布式存储和搜索引擎。2006年加盟雅虎后,Cutting将Nutch平台分成了两个独立的部分,将分布式存储部分命名为Hadoop。

不久之后,雅虎将Hadoop作为一个开源项目发布,并最终将其置于非营利组织Apache软件基金会(ASF)的监督之下。作为一个免费使用的开源项目,Hadoop在发展现代数据库相关技术方面非常有益,比如物联网(IoT),大数据和人工智能。它通常用于存储一系列非关系数据,如互联网记录、日志文件、图像和传感器指标。3.

Hadoop不是专注于快速的处理速度,而是面向存储来自多个数据源的大量数据。它是一个高度可伸缩的分布式计算解决方案,可以在一个数据湖中支持数千台服务器。在容错方面,Hadoop解决了应用层的故障,在不需要立即更换硬件的情况下保持高可用性。4.

什么是数据湖?

顾名思义,数据湖是由来自广泛来源的信息填充的,就像溪流进入真正的湖一样。与名称所暗示的不同,数据湖不一定是存储在一个大容器中的数据体;它通常广泛地分布在多个服务器上。它的主要优点是低成本的存储和更灵活的数据处理环境,支持多种格式和文件类型。5.

虽然数据被分发,但是存储库集中,提供了对大量的原始数据的单一访问点。与数据仓库不同,数据湖中的信息通常是未定义的,并且非结构化,通常由AI算法访问,可以快速提取和转换数据而无需严格的组织。

这使得数据湖泊在以自动时尚收集大量原始数据的情况下特别有用。数据湖泊还作为不适用于组织主数据仓库模型的数据存储库。在某些情况下,数据湖中的数据可以在使用前多年存储,如果它全部使用。对于数据科学家来说,这种环境提供了丰富的以前未被发现的数据,例如度量标准和统计数据,这是分析成熟的。6.

Hadoop数据湖的利弊

虽然Hadoop数据湖相对于其他数据库解决方案有几个强大的优势,但它并不完美。根据您的业务类型和需求,您需要评估收益是否大于限制。

Hadoop数据湖环境的主要优势包括:7.

  • 来自多种来源的大量数据的快速存储和处理
  • 由于具有自动重定向和故障转移处理的分布式节点,具有极高的容错耐受性
  • 能够存储任何格式的数据,而不需要预处理
  • 免费使用的开源软件,用于高量存储廉价的商品硬件

尽管有这些令人印象深刻的凭据,但Hadoop数据湖仍然存在一些缺点:

  • Hadoop使用MapReduce编程,这不是由于所需的阶段和文件数量的迭代和交互式分析任务是理想的
  • mapreduce不是直观的,并且具有高的学习曲线,吸引了一个非常有限的技能程序员供应
  • 尽管Hadoop正在进行改进,但它的碎片化数据环境缺乏其他一些数据库解决方案的高安全性
  • Hadoop不适合实时数据交互,因为它仅使用批处理

Hadoop从多个源存储和处理数据的能力使其在其他数据湖解决方案中具有重要的优势。但是,此功能也使其在实时处理数据稍慢且不适合。

与其他一些数据湖解决方案不同,Hadoop使用批处理而不是流处理。这也使其不太适合实时处理,但是用于处理大型数据集的理想选择。8.

参与令人兴奋的大数据世界。

扩大您的工作机会并最大限度地提高您的工作数据科学凭证。威廉和玛丽的在线商业分析理学硕士计划准备您进入高增长,高影响数据科学领域。这强化32-credit-hour课程将向您教授使用大数据集,机器学习和人工智能的必要分析技能。

今天与威廉和玛丽招生顾问要了解如何在数据科学中迈向令人兴奋的未来。

来源:
1.于2021年5月18日从researchgate.net/publication/264624667_The_rise_of_Big_Data_on_cloud_computing_Review_and_open_research_issues检索
2.于2021年5月18日从segment.com/blog/data-lakes/检索
3.从SAS.com/EN_USIGHTS/BIG-DATA/HADOOP.HTML中检索在2021年5月18日
4.于2021年5月18日从searchdatamanagement.techtarget.com/definition/Hadoop-data-lake检索
5.从qlik.com/us/data-lake/data-lake-vs-lake/data -lake-vs-lake-warehouse检索到5月18,2021
6.于2021年5月18日从bluegranite.com/blog/bid/402596/top-five-differences-between-data-lakes-and-data-warehouses检索
7.在5月18日,2021年5月从Data-flair.Training/Blogs / Addants-Ands-disAdvantares-Hadoop/
8.于2021年5月18日从geeksforgeeks.org/hadoop-pros-and-cons/检索

问题吗?我们联系了。