《Spark内核设计的艺术架构设计与实现》的笔记

发表于 2019-12-10 | 分类于大数据 |

为什么什么买这本书最近想为Spark社区做点贡献吧，又不知道从何下手，就想先买本Spark原理的书来研究下先。于是在淘宝上花了90多买了这本《Spark内核设计的艺术架构设计与实现》 Akka 到 ...

阅读全文 »

Tmux简明教程

发表于 2019-09-02 | 分类于 tmux |

前言你经常可能会遇到这样的情况：你在vim编辑你在远程服务器上面的代码，然后你要新开一个窗口再次ssh到这个远程服务器来测试运行你的代码。此外，如果你的WIFI断线了，你的所有session都会挂掉， ...

阅读全文 »

Hexo博客SEO优化，添加robots.txt

发表于 2019-07-30 | 分类于 hexo |

前言最近一时兴起，想提高自己博客的点击率，就尝试做了一些SEO优化，并且加入了Google Adsense广告。呵呵，写博客这么辛苦，赚点钱是应该的嘛。正文废话不说了，直接进入主题。都知道要想在百度 ...

阅读全文 »

PySpark 会比Scala或Java慢吗（译）？

发表于 2019-07-04 | 分类于大数据 |

首先，你必须知道不同类型的API（RDD API，MLlib 等），有它们不同的性能考虑。 RDD API（带JVM编排的Python结构）这是一个会被Python代码性能和PySpark实施影响最 ...

阅读全文 »

自建家用服务器集群，打造一个私有云

发表于 2019-07-02 | 分类于运维 |

背景我的战神还记得17年的时候，那时深度学习刚火起来，幼稚的我居然打算往这个领域去研究（根本没有意识到这领域需要的数学功底要多深）。俗话说，工欲善其事，必先利其器，于是乎，一股脑地跑到广州的岗顶那买了 ...

阅读全文 »

SQLAchemy的多进程实践

发表于 2019-07-02 | 分类于 python |

前言最近上头说我写的ETL工具从MySQL导出为CSV的速度太慢了，需要性能优化。的确，有部分数据因为在MySQL里面做了分表分库，而我目前的导出实现是一个一个对小表进行导出。其实，这一步完全是可以并 ...

阅读全文 »

Hive 使用orc进行事务操作(update)

发表于 2019-06-22 | 分类于大数据 |

需求背景需求方需要用Hive来进行一些update操作。以往一般用Parquet这种格式作为Hive的存储格式，查文档得知Parquet不支持update，orc格式可以支持update。开始试验创 ...

阅读全文 »

经典的大数据面试题

发表于 2019-06-02 | 分类于大数据 |

前言最近面试大数据工程师岗位，同一个问题被连续问了两次。题目大概是这样的：如果你有一台机器，内存是有限的，要你统计一个很大的日志文件里的数据，比如统计UV top-N；另外一个公司是这么问：如果你有一 ...

阅读全文 »

Hive bucket和partition的区别

发表于 2019-06-02 | 分类于大数据 |

Hive partition和bucket的区别翻译文为了更好地阐述partition和bucket的区别，我们先看看数据是怎么保存在Hive上面的。比如，你有一个表：123456CREATE ...

阅读全文 »

Spark什么时候用 persist

发表于 2019-05-02 | 分类于大数据 |

前言最近在用Spark做一些数据统计，有个任务要跑几个小时，所以需要优化一下。首先想到的是用 persist或者cache(persist的其中一种方式) 正文场景一首先看看在Stackoverflo ...

阅读全文 »

Dennis

Hi, I'm a data engineer for several years being enthusiastic about programming (Python and Java), studying and making money. Regarding entertainments, I enjoy playing badminton and travelling.

GitHub 知乎 StackOverflow Quora