• Spark-SQL学习与快速入门

    2023-01-06 Scala 0 ℃
    0 什么是 SPARK SQL Spark SQL 是 Spark 用于结构化数据(structured data)处理的 Spark 模块. 与基本的 Spark RDD API 不同, Spark SQL 的抽象数据类型为 Spark 提供了关于数据结构和正在执行的计算的更多信息. 在内部, Spark SQL 使用这些额外的信息去做一些额外的优化. 有...
  • Error: A JNI error has occurred, please check your installation and try again Exception in thread “m

    2023-01-06 Scala 0 ℃
    1 说明 在flink提交运行任务到yarn上运行时,报错如下: Error: A JNI error has occurred, please check your installation and try again Exception in thread “main” java.lang.NoClassDefFoundError: org/apache...
  • Flink流式计算介绍之Transformer

    2023-01-06 Scala 0 ℃
    0 准备 准备测试数据: sensor_1,1624006065247,43.92789292115926 sensor_2,1624006065247,97.45845640790921 sensor_3,1624006065247,41.35949935067326 sensor_4,1624006065247,86.68115422056633 sen...
  • Fllink流式计算Sink介绍

    2023-01-06 Scala 4 ℃
    0 说明 Flink没有类似于spark中foreach方法,让用户进行迭代的操作。虽有对外的输出操作都要利用Sink完成。最后通过类似如下方式完成整个任务最终输出操作。 stream.addSink(new MySink(xxxx)) 官方提供了一部分的框架的sink。除此以外,需要用户自定义实现sink 1 KAFKA 1.1 添加依赖 org.apac...
  • Flink流式计算之时间语义与watermark

    2023-01-06 Scala 0 ℃
    1 说明 在Flink的流式处理中,会涉及到时间的不同概念,如下图所示: Event Time:是事件创建的时间。它通常由事件中的时间戳描述,例如采集的日志数据中,每一条日志都会记录自己的生成时间,Flink通过时间戳分配器访问事件时间戳。 Ingestion Time:是数据进入Flink的时间。 Processing Time:是每一个执行基于时间操作的...
  • Flink流式计算之ProcessionFunction说明与案例

    2023-01-06 Scala 0 ℃
    0 PROCESSFUNCTION API 我们之前学习的转换算子是无法访问事件的时间戳信息和水位线信息的。而这在一些应用场景下,极为重要。例如MapFunction这样的map转换算子就无法访问时间戳或者当前事件的事件时间。 基于此,DataStream API提供了一系列的Low-Level转换算子。可以访问时间戳、watermark以及注册定时事件。还...
  • Scala入门教程(一)

    2023-01-06 Scala 2 ℃
    简介 Scala(斯嘎啦),Scalable Language(可伸缩编程语言),它是基于JVM的多范式编程语言,通俗的讲SCALA是一种运行在JVM上 的函数式面向对象的编程语言。它集成了面向对象和面向函数式编程的各种特性,以及更高层的并发模型。Scala的运行环境和Java类似,也是依赖JVM的,同时Scala支持多种编程风格。 特点 * 兼容Java,...
  • Spark 3.0 - 17 ML PCA 主成分分析理论与实战

    2023-01-04 Scala 3 ℃
    目录 一.引言 二.PCA 理论 1.主成分分析定义 2.数学基础 A.数据归一化 B.协方差矩阵计算 C.计算协方差矩阵的特征向量和特征值,以识别主成分 D.构造特征向量矩阵 E.沿着主成分轴重新计算数据 三.PCA 实战 1.数据准备 2.PCA 初始化 3.数据降维 四.总结 ------------------------- 一.引言 主成分分析 (...
  • Structured Streaming报错记录:Overloaded method foreachBatch with alternatives

    2023-01-03 Scala 6 ℃
    STRUCTURED STREAMING报错记录:OVERLOADED METHOD FOREACHBATCH WITH ALTERNATIVES 【文章目录】 * Structured Streaming报错记录:Overloaded method foreachBatch with alternatives * Structured Streaming报...
  • RuntimeError: grad can be implicitly created only for scalar outputs的原因:Pytorch不支持对张量的求导

    2023-01-03 Scala 0 ℃
    一、背景介绍 原则上,Pytorch不支持对张量的求导,即如果z是张量的话,需要先将其转为标量。 浏览了很多博客,给出的解决方案都是说在求导时,加一个torch.ones_like(z)的参数。 下面给出一个实例来分析一下torch.ones_like(z)的作用。简而言之,TORCH.ONES_LIKE(Z)相当于在对Z进行求导时,对Z中的元素进行求和操作...