Dennis' Blog

欢迎各位领导前来指导工作


  • 首页

  • 关于

  • 标签

  • 分类

  • 归档

  • 搜索

《Spark内核设计的艺术架构设计与实现》的笔记

发表于 2019-12-10 | 分类于 大数据 |
为什么什么买这本书最近想为Spark社区做点贡献吧,又不知道从何下手,就想先买本Spark原理的书来研究下先。于是在淘宝上花了90多买了这本 《Spark内核设计的艺术架构设计与实现》 Akka 到 ...
阅读全文 »

Tmux简明教程

发表于 2019-09-02 | 分类于 tmux |
前言你经常可能会遇到这样的情况:你在vim编辑你在远程服务器上面的代码,然后你要新开一个窗口再次ssh到这个远程服务器来测试运行你的代码。此外,如果你的WIFI断线了,你的所有session都会挂掉, ...
阅读全文 »

Hexo博客SEO优化,添加robots.txt

发表于 2019-07-30 | 分类于 hexo |
前言最近一时兴起,想提高自己博客的点击率,就尝试做了一些SEO优化,并且加入了Google Adsense广告。呵呵,写博客这么辛苦,赚点钱是应该的嘛。 正文废话不说了,直接进入主题。都知道要想在百度 ...
阅读全文 »

PySpark 会比Scala或Java慢吗(译)?

发表于 2019-07-04 | 分类于 大数据 |
首先,你必须知道不同类型的API(RDD API,MLlib 等),有它们不同的性能考虑。 RDD API(带JVM编排的Python结构) 这是一个会被Python代码性能和PySpark实施影响最 ...
阅读全文 »

自建家用服务器集群,打造一个私有云

发表于 2019-07-02 | 分类于 运维 |
背景我的战神还记得17年的时候,那时深度学习刚火起来,幼稚的我居然打算往这个领域去研究(根本没有意识到这领域需要的数学功底要多深)。俗话说,工欲善其事,必先利其器,于是乎,一股脑地跑到广州的岗顶那买了 ...
阅读全文 »

SQLAchemy的多进程实践

发表于 2019-07-02 | 分类于 python |
前言最近上头说我写的ETL工具从MySQL导出为CSV的速度太慢了,需要性能优化。的确,有部分数据因为在MySQL里面做了分表分库,而我目前的导出实现是一个一个对小表进行导出。其实,这一步完全是可以并 ...
阅读全文 »

Hive 使用orc进行事务操作(update)

发表于 2019-06-22 | 分类于 大数据 |
需求背景需求方需要用Hive来进行一些update操作。以往一般用Parquet这种格式作为Hive的存储格式,查文档得知Parquet不支持update,orc格式可以支持update。 开始试验创 ...
阅读全文 »

经典的大数据面试题

发表于 2019-06-02 | 分类于 大数据 |
前言最近面试大数据工程师岗位,同一个问题被连续问了两次。题目大概是这样的:如果你有一台机器,内存是有限的,要你统计一个很大的日志文件里的数据,比如统计UV top-N;另外一个公司是这么问:如果你有一 ...
阅读全文 »

Hive bucket和partition的区别

发表于 2019-06-02 | 分类于 大数据 |
Hive partition和bucket的区别 翻译文 为了更好地阐述partition和bucket的区别,我们先看看数据是怎么保存在Hive上面的。比如,你有一个表:123456CREATE ...
阅读全文 »

Spark什么时候用 persist

发表于 2019-05-02 | 分类于 大数据 |
前言最近在用Spark做一些数据统计,有个任务要跑几个小时,所以需要优化一下。首先想到的是用 persist或者cache(persist的其中一种方式) 正文场景一首先看看在Stackoverflo ...
阅读全文 »
1234…8
Dennis

Dennis

Hi, I'm a data engineer for several years being enthusiastic about programming (Python and Java), studying and making money. Regarding entertainments, I enjoy playing badminton and travelling.

74 日志
23 分类
41 标签
GitHub 知乎 StackOverflow Quora
© 2021 Dennis
由 Hexo 强力驱动
|
主题 — NexT.Mist v5.1.4