大数据-木叶科研通

2022-08-16
大数据

Dagster

Dagster是一个用于机器学习、分析和ETL的数据编排器。Dagster让你以可重复使用的逻辑组件之间的数据流来定义管道，然后在本地测试并在任何地方运行。通过对管道和它们产生的资产的统一视图，Dagster可以调度和编排Pandas、Spark、SQL或任何其他Python可以调用的东西。Dagster是为数据平台工程师、数据工程师和全堆栈数据科学家设计的。用

2022-08-16
大数据

Gamestonk Terminal

GamestonkTerminal是一个股票和加密市场的投资研究终端，为投资研究提供了一个基于Python的现代集成环境，允许交易者使用最先进的数据科学和机器学习技术。作为一个现代的基于Python的环境，GamestonkTerminal开放了对数据科学(Pandas、Numpy、Scipy、Jupyter)，机器学习(Pytorch、Tensorflow、Sklearn

2022-08-16
大数据

Flink Remote Shuffle

FlinkRemoteShuffle是一种批场景下利用外部服务完成任务间数据交换的Shuffle实现，本文后续将详细介绍FlinkRemoteShuffle研发的背景，以及FlinkRemoteShuffle的设计与使用。重要特性存储计算分离：存储计算分离使计算资源与存储资源可以独立伸缩，计算资源可以在计算完成后立即释放，Shuffle稳定性

2022-08-16
大数据

Apache SeaTunnel

seatunnel是一个非常易用的支持海量数据实时同步的超高性能分布式数据集成平台，每天可以稳定高效同步数百亿数据，已在近百家公司生产上使用。为什么我们需要seatunnelseatunnel尽所能为您解决海量数据同步中可能遇到的问题：数据丢失与重复任务堆积与延迟吞吐量低应用到生产环境周期长缺少应用运行状态监控seat

2022-08-16
大数据

Dlink

实时即未来，Dlink为ApacheFlink而生，让FlinkSQL纵享丝滑，并致力于实时计算平台建设。Dinky基于ApacheFlink实现Dlink，增强Flink的应用与体验，探索流式数仓。即站在巨人肩膀上创新与实践，Dinky在未来批流一体的发展趋势下潜力无限。最后，Dinky的发展皆归功于ApacheFlink等其他优秀的开源项目的指导

2022-08-16
大数据

Debezium

Debezium是一个为捕获数据更改(ChangeDataCapture,CDC)提供低延迟的流式处理平台，利用Kafka和KafkaConnect实现了持久性、可靠性和容错性。Debezium有很多非常有价值的使用场景，我们在这儿仅仅列出几个更常见的使用场景。缓存失效(Cacheinvalidation)在缓存中缓存的条目(entry)在源头被

2022-08-16
大数据

fq

fq是一个用于检查二进制数据的工具和解析器。在大多数情况下，fq的工作方式与jq相同，但它不是读取JSON，而是读取二进制数据。结果是一个JSON兼容的结构，其中每个值都有一个位范围、符号解释并知道如何以有用的方式呈现。目标使二进制格式可访问和可查询嵌套格式和面向位的解码快速而舒适的CLI工具位和字节转换和转换程序员的

2022-08-16
大数据

Datashim

Datrashim是一个Kubernetes框架，它支持在pod中轻松访问S3和NFS数据集，以协调每个数据集所需的持久卷声明和ConfigMap的配置。Datashim 框架引入了DatasetCRD，它是指向现有S3和NFS数据源的指针，包括将这些数据集映射到用户可以在其pod中引用的持久卷声明和ConfigMap的必要逻辑，让他们专注于工作负

2022-08-16
大数据

Amundsen

Amundsen是一个数据发现和元数据引擎，用于提高数据分析师、数据科学家和工程师在与数据交互时的工作效率。它通过索引数据资源（表、仪表板、流等）和基于使用模式（例如，查询次数多的表比次数少的表出现得更早）支持页面排名样式搜索来实现这一点。包括三个微服务、一个数据提取库和一个公共库。amundsenfrontendlibrary：前端服务，它是一个带有React前端的

2022-08-16
大数据

Arctic

软件简介

2022-08-16
大数据

Hadoop

软件简介

2022-08-16
大数据

Apache HBase

软件简介