基于Redis Lua脚本实现的分布式锁

最近项目中需要用到一个分布式的锁,考虑到基于会话节点实现的zookeeper锁性能不够,于是想使用redis来实现一个分布式的锁。看了网上的几个实现方案后,发现都不够严谨。比如这篇:用Redis实现分布式锁里面设计的锁有个最大的问题是锁的超时值TTL会一直被改写,“尽管C3没拿到锁,但它改写了C4设置的锁的超时值,不过这一点非常微小的误差带来的影响可以忽略不计”,其实在高并发的时候会导致进程“饿死”(也有文章称为死锁)。还有这篇文章“两种分布式锁实现方案2”里面的v2=getset(key,时间戮+超时+1),其加1秒操作在大并发下也会触发同样的问题。网上这篇文章解决了这个“无休止的TTL”问题,我简单翻译了下。


distributedLock

锁是编程中非常常见的概念。在维基百科上对锁有个相当精确的定义:

在计算机科学中,锁是一种在多线程环境中用于强行限制资源访问的同步机制。锁被设计用于执行一个互斥的并发控制策略。

In computer science, a lock is a synchronization mechanism for enforcing limits on access to a resource in an environment where there are many threads of execution. A lock is designed to enforce a mutual exclusion concurrency control policy.

--> 阅读全文

Yarn集群中hive bug导致数据丢失问题排查

5月1日凌晨线上发生了一个诡异的问题:有个hive的job运行状态显示成功,但是数据少了很多,本来应该输出200个文件3亿多数据,但是结果只有一个part文件180多万数据产出!还好后续的流程检查出了这个巨大的数据差异,不然后果很严重。

ps: 当前集群采用的hadoop版本为hadoop-2.2.0-cdh5.0.0-beta-1,Hive版本为0.11,集群规模250台左右。

看hive job的log,一切正常:

看jobhistory页面,这个job也显示状态是成功的,计数器显示输出了371473512条数据。

但是为什么最终的输出目录只有一个文件呢?

查看hdfs-audit.log文件,发现除了00078_1000这个文件外,其他199个文件都有delete操作存在:

2014-05-01 01:52:16,292 INFO FSNamesystem.audit: allowed=true ugi=admin (auth:SIMPLE) ip=/10.246.14.72 cmd=delete src=/tmp/hive-admin/hive_2014-05-01_01-46-44_962_6776205249541775191/_tmp.-ext-10000.intermediate/000198_1000 dst=null perm=null
2014-05-01 01:52:16,292 INFO FSNamesystem.audit: allowed=true ugi=admin (auth:SIMPLE) ip=/10.246.14.72 cmd=delete src=/tmp/hive-admin/hive_2014-05-01_01-46-44_962_6776205249541775191/_tmp.-ext-10000.intermediate/000199_1000 dst=null perm=null
2014-05-01 01:52:16,295 INFO FSNamesystem.audit: allowed=true ugi=admin (auth:SIMPLE) ip=/10.246.14.72 cmd=delete src=/tmp/hive-admin/hive_2014-05-01_01-46-44_962_6776205249541775191/_task_tmp.-ext-10000 dst=null perm=null
2014-05-01 01:52:16,445 INFO FSNamesystem.audit: allowed=true ugi=admin … --> 阅读全文

JVM最多能创建多少个线程: unable to create new native thread

有应用报出这样的异常“java.lang.OutOfMemoryError: unable to create new native thread”。甚至机器上执行shell命令也会报”-bash: fork: Resource temporarily unavailable”异常。机器上的其他应用如hadoop也会受影响:

一看以为内存不够导致无法创建新的线程,但是观察机器上的内存还有空闲,猜测是哪个地方对线程创建有限制。

首先需要排除操作系统对线程创建数的限制,参考:《JVM中可生成的最大Thread数量》一文,设置操作系统可以支持创建10万个线程:

当前测试环境为:

测试程序见本文最后面。测试结果:突破了网上所说的32000个线程数,成功创建了 10万个线程
(由于/proc/sys/kernel/pid_max默认为32768,所以网上很多测试程序测试JVM只能创建32000个线程。)

创建9W多个线程后,进程占用内存:VIRT=40.5g RES=4.7g,用free -g查看系统还有9G的空闲(free)内存。


JVM最多能启动的线程数参照公式:

  • MaxProcessMemory : 进程的最大寻址空间
  • JVMMemory : JVM内存
  • ReservedOsMemory : 保留的操作系统内存,如Native heap,JNI之类,一般100多M
  • ThreadStackSize : 线程栈的大小,jvm启动时由Xss指定

MaxProcessMemory:如32位的linux默认每个进程最多申请3G的地址空间,64位的操作系统可以支持到46位(64TB)的物理地址空间和47位(128T)的进程虚拟地址空间(linux 64位CPU内存限制)。

JVM内存:由Heap区和Perm区组成。通过-Xms和-Xmx可以指定heap区大小,通过-XX:PermSize和-XX:MaxPermSize指定perm区的大小(默认从32MB 到64MB,和JVM版本有关)。

线程栈ThreadStackSize:

Java程序中,每个线程都有自己的Stack Space。这个Stack Space的空间是独立分配的,与-Xmx和-Xms指定的堆大小无关。Stack Space用来做方法的递归调用时压入Stack Frame。所以当递归调用太深的时候,就有可能耗尽Stack Space,爆出StackOverflow的错误。对于32位JVM,缺省值为256KB,对于64位JVM,缺省值为512KB。最大值根据平台和特定机器配置的不同而不同。如果超过最大值,那么将报告java/lang/OutOfMemoryError消息。

--> 阅读全文

hadoop集群DataNode起不来:“DiskChecker$DiskErrorException: Invalid volume failure config value: 1”

最近把线上一个配置在拷贝到线下一台机器后,发现hadoop datanode起不来,总是报这个异常:

原因是:
dfs.datanode.failed.volumes.tolerated 这个参数直接拷贝了线上的配置为1,
其含义是:The number of volumes that are allowed to fail before a datanode stops offering service. By default any volume failure will cause a datanode to shutdown. 即datanode可以忍受的磁盘损坏的个数。

在hadoop集群中,经常会发生磁盘只读或者损坏的情况。datanode在启动时会使用dfs.datanode.data.dir下配置的文件夹(用来存储block),若是有一些不可以用且个数上面配置的值,DataNode就会启动失败。

在线上环境中fs.datanode.data.dir配置为10块盘,所以dfs.datanode.failed.volumes.tolerated设置为1,是允许有一块盘是坏的。而线下的只有一块盘,这volFailuresTolerated和volsConfigured的值都为1,所以会导致代码里面判断失败。

详见hadoop源码的FsDatasetImpl.java的182行:… --> 阅读全文