自由的雏鸟

博文

目前显示的是七月, 2013的博文

Spark内存溢出调试笔记

最近在玩 Spark ，它是个基于内存的分布式计算框架，用起来还是挺方便的，而且相当适合需要迭代计算的算法，比如PageRank和机器学习的算法。Spark的社区相当活跃，每天都有很多user提问，每天的commit数也是超过1000的。以前Spark利用mesos集群或者用自己启动的集群来进行分布式计算。由于国内很多公司只维护了hadoop集群，我没能看到Spark有投入到生产中（要维护多一个mesos集群成本可是很高的）。然而，在0.6的版本中加入了 on Yarn 模块。这使得很多部署了hadoop集群的公司（升级成支持Yarn的hadoop）可以轻易的使用Spark了。要好好玩Spark还是需要一点时间的，因为现在的版本还是有不少bug和todo的。最近玩的时候还是遇到了个比较让人头大的问题的，当我迭代调用collect方法的时候，会出现一个让人比较头大的问题： Master无缘无故就跑的很慢使得akka超时 Yarn的ResourcesManager告诉我Master用的内存超出预算出现这个问题之后，我还是真不知道怎么定位原因，现在解决了之后，感觉自己的编程经验还真是太少了。 print GC 首先，我PrintGC的信息，在启动参数中加入下面的参数： -verbose:gc：输出GC信息 -XX:+PrintGCTimeStamps：输出GC时间 -XX:+PrintGCDetails：输出GC详细信息，比如新生代GC情况，永久代GC情况，内存的GC汇总等在这里，我发现Master崩溃前会不断Full GC，并且Full GC后，老年代的内存用量没有降下来，这只可能是用的内存真的需要这么多（给了10G的内存还崩溃真说不过去），或者内存泄露。 dump 内存这里说的dump就是抽取jvm内存使用状况的快照。启动参数里面还是有不少关于dump的参数的： -XX:-HeapDumpOnOutOfMemoryError：在OOM时，输出一个dump文件，记录当时的内存快照 -XX:HeapDumpPath=/tmp/dump.hprof：把dump信息输出到/tmp/dump.hprof中 dump文件的大小通常是jvm占用内存的大小，所以文件可能会很大。分析...

阅读全文

[转]Java 6 JVM参数选项大全（中文版）

作者： Ken Wu Email: ken.wug@gmail.com 转载本文档请注明原文链接 http://kenwublog.com/docs/java6-jvm-options-chinese-edition.htm ！本文是基于最新的 SUN官方文档 Java SE 6 Hotspot VM Options 编写的译文。主要介绍 JVM 中的非稳态选项及其使用说明。为了让读者明白每个选项的含义，作者在原文基础上补充了大量的资料。希望这份文档，对正在研究 JVM 参数的朋友有帮助！另外，考虑到本文档是初稿，如有描述错误，敬请指正。非稳态选项使用说明 -XX:+<option> 启用选项 -XX:-<option> 不启用选项 -XX:<option>=<number> 给选项设置一个数字类型值，可跟单位，例如 32k, 1024m, 2g -XX:<option>=<string> 给选项设置一个字符串值，例如 -XX:HeapDumpPath=./dump.core 行为选项选项默认值与限制描述 -XX:-AllowUserSignalHandlers 限于 Linux 和 Solaris ，默认不启用允许为 java 进程安装信号处理器。 Java 信号处理相关知识，详见 http://kenwublog.com/java-asynchronous-notify-based-on-signal -XX:-DisableExplicitGC 默认不启用禁止在运行期显式地调用 System.gc() 。开启该选项后， GC 的触发时机将由 Garbage Collector 全权掌控。注意：你熟悉的代码里没调用 System.gc() ，不代表你依赖的框架工具没在使用。例如 RMI 就在多数用户毫不知情的情况下，显示地调用 GC 来防止自身 OOM 。请仔细权衡禁用带来的影响。 -XX:-RelaxAccessCont...

阅读全文