大数据-木叶科研通

2022-08-16
大数据

Pilosa

Pilosa是一个开源的分布式位图索引，可以在多个海量数据集中显著加速查询。它主要为速度和水平扩展性而设计。如果拥有数十亿的数据并且这些数据拥有数百万的属性，而你希望弄清楚其中的关系，那么Pilosa可以提供帮助。

2022-08-16
大数据

OpenFEA

一、简介FEA是一站式大数据敏捷分析中间件，融合了内存计算、机器学习、交互分析、可视化分析等技术，涵盖数据收集、数据探索、构建模型、发布模型、可视化展示、分析门户等功能，无需复杂编程即可快速实现大数据分析及构建态势感知系统。FEA，让大数据分析变的简单。更多介绍请访问http://www.openfea.cn/二、效果图三、架构（全景图）

2022-08-16
大数据

corona-cli

corona-cli是一个跟踪新型冠状病毒肺炎（COVID-19）的命令行工具。特点：响应时间 <100ms获取全球COVID-19报告每天主动报告选定国家的COVID-19统计信息数据包括：国家、案例数、死亡数、康复数……排序方式：cases、 cases-today、 deaths、 deaths-today、 recovere

2022-08-16
大数据

Moonbox

Moonbox是一个DVtaaS（DataVirtualizationasaService）平台解决方案。Moonbox基于数据虚拟化设计思想，致力于提供批量计算服务解决方案。Moonbox负责屏蔽底层数据源的物理和使用细节，为用户带来虚拟数据库般使用体验，用户只需通过统一SQL语言，即可透明实现跨异构数据系统混算和写出。此外Moonbox还提供数据服务、数据管理、数据工具、数据开

2022-08-16
大数据

Nextjournal

Nextjournal是一款多语言notebook，从头开始设计，使复杂的数据科学无痛。允许用户灵活地使用Bash、Python、R、Julia或Clojure进行编码，而且可以创建包含多个运行时的notebook。另外，Nextjournal还集成了Colab目前不提供的数据、内容和计算环境的自动版本控制。而且项目支持多人协作、notebook历史等功能。可以说是一个不仅功能强大，而且

2022-08-16
大数据

Elasticsearch

Elasticsearch是一个分布式的RESTful风格的搜索和数据分析引擎，能够解决越来越多的用例。作为ElasticStack的核心，它集中存储您的数据，帮助您发现意料之中以及意料之外的情况。Elasticsearch 是一个实时的分布式搜索分析引擎，它能让你以一个之前从未有过的速度和规模，去探索你的数据。它被用作全文检索、结构化搜索、分析以及这三个功能的组合：

2022-08-16
大数据

iceoryx

iceoryx是一个适用于各种操作系统的进程间通信（IPC）中间件（目前已支持Linux、macOS和QNX）。它起源于汽车行业，当涉及到驾驶辅助或自动驾驶系统时，大量的数据必须在不同的进程之间传输。高效的通信机制也可以应用于更广泛的用例，例如在机器人或游戏开发领域。iceoryx使用了真正的零拷贝，共享内存的方法，允许从发布者到订阅者的数据传输，而没有创建单一的副本。这

2022-08-16
大数据

Tuplex

Tuplex是一个并行的大数据处理框架，它以编译代码的速度运行用Python编写的数据科学管道。Tuplex具有与ApacheSpark或Dask类似的PythonAPI ，但与调用Python解释器不同，Tuplex为给定的管道和输入数据集生成优化的LLVM字节码。在底层，Tuplex基于数据驱动编译和双模式处理，这两项关键技术使Tuplex能够提供与手工优化的C

2022-08-16
大数据

Databend

Databend是一个具有云原生架构的现代实时数据处理和分析DBMS，旨在简化数据云。PrinciplesFearless没有数据竞争，没有不安全，最大限度地减少未处理的错误高性能一切都是平行的高可扩展性一切都是分布式的高可靠性

2022-08-16
大数据

OpenMetadata

OpenMetadata 是元数据的开放标准，发现、协作和正确获取数据的单一场所。OpenMetadata包括以下内容：元数据模式-定义元数据的核心抽象和词汇表，其中包含类型、实体、实体之间的关系的模式。这是开放元数据标准的基础。元数据存储-存储连接数据资产、用户和工具生成的元数据的元数据图。元数据API -用于生成

2022-08-16
大数据

Hadoop-PDL

该项目提出了一种有效的基于组合设计工具PBD(PairwiseBlockDesign)的数据布局PDL，以加快混合EC分布式存储系统中单节点故障的数据修复。由于减少了机架间的通信量，并在修复过程中实现了读写I/O的负载平衡，因此它实现了几乎均匀的数据分布以及更高的修复性能。我们设计了数据的放置策略以及相应的故障恢复方案，并且在Hadoop3.1.1中实现了它们。

2022-08-16
大数据

Big Data Sampling Under Chi-square

基于卡方检验的大数据抽样工具介绍抽样是数据科学中的基本方法之一。它可以降低数据规模并简化计算。本工具包给出一种保持分布不变性的抽样工具，使得即使在小样本数据量下也不会影响这些数据分析模型的准确性。本工具包基于皮尔逊检验的保持分布不变的启发式抽样压缩算法。该算法基于两个评分函数进行抽样，其中一个评分函数基于皮尔逊检验，另一个评分函数基于似然函数。使用方法大数据抽样压缩