标签归档:python

去除网页中的html标签

最近做的一个全文搜索,用来过滤网页帖子的广告词和敏感词,发现有的网页中文字之间有html标记,导致无法准确的搜索出来。如: 广

于是用python脚本对网页内容进行处理,去除html标签。

发现对一些不规则的标签处理会报错,异常捕获后原样输出。

使用dumbo开发hadoop streaming程序

1. dumbo的官网:https://github.com/klbostee/dumbo/

wiki: https://github.com/klbostee/dumbo/wiki

2. 安装配置

详见wiki:https://github.com/klbostee/dumbo/wiki/Building-and-installing

解压从网站下载下来的源码到dumbo文件夹,执行如下命令就可以了

3. 例子程序

使用dumbo开发程序来统计apache的访问日志中最多的几个ip地址

apache日志格式如下:

ipcount.py程序如下:

运行:

可以看到在本机上执行的结果。

在hadoop上运行:

使用python开发hadoop streaming程序及hadoop python网页抓取例子

Hadoop streaming是Hadoop的一个工具,它帮助用户创建和运行一类特殊的map/reduce作业,这些特殊的map/reduce作业是由一些可执行文件或脚本文件充当mapper或者reducer。通过streaming工具,程序员可以使用c++, python, perl, ruby等语言来开发map/reduce任务。

如何用python开发hadoop程序,hadoop源代码中提供了一个统计词频的例子WordCount.py,不过这个例子程序是将Python代码通过Jython运行时转换为jar包。然后通过streaming的方式运行这个jar包,稍显麻烦。

德国的开发者Michael G. Noll提供了一种python的实现方法:通过STDIN标准输入和STDOUT标准输在Map和Reduce代码之间传输数据。Python的sys.stdin方法读取输入数据,并通过sys.stdout打印输出数据,而数据的交互处理过程交由Hadoop Streaming来处理。

一个用python写的典型的hadoop streaming例子程序如下,该程序就是抓取网页的标题:

mapper.py

reducer.py

可以先运行以下命令来验证这个程序是否正确:

用hadoop streaming的方式提交job:

直接用python语言开发hadoop程序有时候显得不够灵活,比如mapper.py和reducer.py程序必须放在两个文件中。 于是国外有人用python对hadoop API进行了封转。著名的音乐站点Last.fm发布了基于Python的Dumbo(小飞象)项目,Dumbo能够帮助Python开发者更方便的编写Hadoop应用,并且Dumbo为MapReduce应用提供了灵活易用的Python API。Last.fm的开发者,同时也是Dumbo项目发起人Klaas Bosteels 认为,“对于定制Hadoop应用,使用Python语言代替Java会让工作变得更有效率”。

另外一个相似的项目Happy,则为Jython开发者使用Hadoop框架提供了便利。Happy框架封装了Hadoop的复杂调用过程,让Map-Reduce开发变得更为容易。Happy中的Map-Reduce作业过程在子类happy.HappyJob中定义,当用户创建类实例后,设置作业任务的输入输出参数,然后调用run()方法即可启动分治规约处理,此时,Happy框架将序列化用户的作业实例,并将任务及相应依赖库拷贝到Hadoop集群执行。目前,Happy框架已被数据集成站点freebase.com采纳,用于进行站点的数据挖掘与分析工作。

(参考:http://www.gaoang.com/archives/158)

Google Protocol Buffers自带c++,java,python例子程序编译运行

在我的前一篇文章《Protocol Buffers的安装使用和C++/Python入门示例》中提到google protocol buffers自带了examples,里面有c++,java,python的例子。初学者在编译的过程中经常会遇到环境变量和jar包找不到的问题。这里,我将我的编译过程详细记录在这里,避免大家走弯路。

1. 准备工作

首先,当然是编译和安装好protobuf,参照《Protocol Buffers的安装使用和C++/Python入门示例》一文即可。

我电脑上的protobuf目录是protobuf-2.3.0.tar.gz 解压后在  /home/admin/work/protobuf-2.3.0/

编译后安装在  /home/admin/work/protobuf-2.3.0/proto,  在proto目录下有bin,include,lib三个目录

2. 编译c++例子

在examples目录下运行 make 会编译c++,java,python的例子,但是没有设置环境变量的话,会有很多错误:

这个是因为Makefile中会用pkg-config命令检测环境变量,但是没有设置PKG_CONFIG_PATH,找不到protobuf.pc这个文件

再执行  make cpp 单独编译c++,编译好后会生成两个可执行文件add_person_cpp 和 list_people_cpp,运行即可。

3. 编译java例子

直接执行 make java 会出现一大堆的找不到包的错误:

需要自己编译protobuf的jar包了,要先安装好maven才能编译哦

最终会生成一个jar包 /home/admin/work/protobuf-2.3.0/java/target/protobuf-java-2.3.0.jar

如果没有maven,可以到网上下载这个包。

设置java classpath:

执行make java,就会生成add_person_java和list_people_java两个可执行脚本。脚本内容如下:

如果在编译的时候出现如下的错误:

原因是protobuf的版本不对,需要用最新的版本,如 2.4.1

4. 编译python例子

发现编译能成功,但是运行的时候提示找不到相关模块… --> 阅读全文

Protocol Buffers的安装使用和C++/Python入门示例

1. 介绍

protoc buffers是google公司开发和开源的一款数据序列化和反序列化的工具。Protocol Buffers 是一种轻便高效的结构化数据存储格式,可以用于结构化数据串行化,或者说序列化。它很适合做数据存储或 RPC 数据交换格式。可用于通讯协议、数据存储等领域的语言无关、平台无关、可扩展的序列化结构数据格式。官方支持C++、java和pthon语言,并且有大量的第三方语言支持,如php,ruby等。

2. 编译安装

我这里是用 –prefix 选项指定安装在/home/admin/work/protobuf-2.3.0/proto目录下, 如果不指定目录,将默认安装在/usr/local/下。

安装完成后在 /home/admin/work/protobuf-2.3.0/proto 下将生成三个文件夹bin,include和lib

将 /home/admin/work/protobuf-2.3.0/proto/bin 加到PATH里面,还有lib目录加在LD_LIBRARY_PATH里面方便点。

3. 编写.proto接口文件

参考网上的例子,写一个示例程序。该程序由两部分组成。第一部分被称为 Writer,第二部分叫做 Reader。Writer 负责将一些结构化的数据写入一个磁盘文件,Reader 则负责从该磁盘文件中读取结构化数据并打印到屏幕上。准备用于演示的结构化数据是 HelloWorld,它包含两个基本数据:

ID,为一个整数类型的数据

Str,这是一个字符串

其中,package 名字叫做 lm,定义了一个消息 helloworld,该消息有三个成员,类型为 int32 的 id,另一个为类型为 string 的成员 str。opt 是一个可选的成员,即消息中可以不包含该成员。

文件保存为 lm.helloworld.proto

4. 编译.proto文件

或者写完整路径:

5. 编写writer和reader程序

writer.cpp 将把一个结构化数据写入磁盘… --> 阅读全文