corona-cli是一个跟踪新型冠状病毒肺炎(COVID-19)的命令行工具。特点:响应时间 <100ms获取全球COVID-19报告每天主动报告选定国家的COVID-19统计信息数据包括:国家、案例数、死亡数、康复数……排序方式:cases、 cases-today、 deaths、 deaths-today、 recovere
Nextjournal是一款多语言notebook,从头开始设计,使复杂的数据科学无痛。允许用户灵活地使用Bash、Python、R、Julia或Clojure进行编码,而且可以创建包含多个运行时的notebook。另外,Nextjournal还集成了Colab目前不提供的数据、内容和计算环境的自动版本控制。而且项目支持多人协作、notebook历史等功能。可以说是一个不仅功能强大,而且
Elasticsearch是一个分布式的RESTful风格的搜索和数据分析引擎,能够解决越来越多的用例。作为ElasticStack的核心,它集中存储您的数据,帮助您发现意料之中以及意料之外的情况。Elasticsearch 是一个实时的分布式搜索分析引擎, 它能让你以一个之前从未有过的速度和规模,去探索你的数据。它被用作全文检索、结构化搜索、分析以及这三个功能的组合:
OpenMetadata 是元数据的开放标准,发现、协作和正确获取数据的单一场所。OpenMetadata包括以下内容:元数据模式-定义元数据的核心抽象和词汇表,其中包含类型、实体、实体之间的关系的模式。这是开放元数据标准的基础。元数据存储-存储连接数据资产、用户和工具生成的元数据的元数据图。元数据API -用于生成
该项目提出了一种有效的基于组合设计工具PBD(PairwiseBlockDesign)的数据布局PDL,以加快混合EC分布式存储系统中单节点故障的数据修复。由于减少了机架间的通信量,并在修复过程中实现了读写I/O的负载平衡,因此它实现了几乎均匀的数据分布以及更高的修复性能。我们设计了数据的放置策略以及相应的故障恢复方案,并且在Hadoop3.1.1中实现了它们。
基于卡方检验的大数据抽样工具介绍抽样是数据科学中的基本方法之一。它可以降低数据规模并简化计算。本工具包给出一种保持分布不变性的抽样工具,使得即使在小样本数据量下也不会影响这些数据分析模型的准确性。本工具包基于皮尔逊检验的保持分布不变的启发式抽样压缩算法。该算法基于两个评分函数进行抽样,其中一个评分函数基于皮尔逊检验,另一个评分函数基于似然函数。使用方法大数据抽样压缩