博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
Nutch添加中文分词器
阅读量:6368 次
发布时间:2019-06-23

本文共 2184 字,大约阅读时间需要 7 分钟。

04 May 2011

0.准备工作,JDK6+,安装ant1.7.1+,安装javacc

tar xzvf apache-ant-1.7.1-bin.tar.gz -C /usr/local/tar xzvf javacc-5.0.tar.gz -C /usr/local/

1.安装Nutch

tar xzvf nutch-1.0.tar.gz -C /usr/local/

2.测试中文分词

export LANG=zh_CN.GB18030 #此设置可使命令行输入的中文被NutchAnalysis正常读取cd /usr/local/nutch-1.0/java -classpath nutch-1.0.jar:./conf/:./lib/lucene-core-2.4.0.jar:./lib/hadoop-0.19.1-core.jar:./lib/commons-logging-1.0.4.jar:./lib/log4j-1.2.15.jar org.apache.nutch.analysis.NutchAnalysis

简写:

java -classpath nutch-1.0.jar:./conf/:./lib/* org.apache.nutch.analysis.NutchAnalysis
Query: 人逢喜事精神爽人 逢 喜 事 精 神 爽

这里输入“人逢喜事精神爽”,从输出的结果可以看出Nutch默认处理是一元分词。

3.加入Paoding中文分词

cd /usr/local/nutch-1.0/src/java/org/apache/nutch/analysis/vim NutchDocumentAnalyzer.java

修改:

/** Returns a new token stream for text from the named field. */  public TokenStream tokenStream(String fieldName, Reader reader) {    Analyzer analyzer;    /*    if ("anchor".equals(fieldName))      analyzer = ANCHOR_ANALYZER;    else      analyzer = CONTENT_ANALYZER;    */    analyzer = new net.paoding.analysis.analyzer.PaodingAnalyzer();    return analyzer.tokenStream(fieldName, reader);  }

拷贝paoding-analysis.jar到/usr/local/nutch-1.0/lib

打包nutch /usr/local/apache-ant-1.7.1/bin/ant jar 会在/usr/local/nutch-1.0/build目录下生成新的nutch-1.0.jar

测试新的nutch-1.0.jar

cd /usr/local/nutch-1.0/## 导入庖丁词典路径export PAODING_DIC_HOME=/dic## 注意这里使用./build/下的新包java -classpath ./build/nutch-1.0.jar:./conf/:./lib/* org.apache.nutch.analysis.NutchAnalysis
Query: 人逢喜事精神爽人 逢 喜 事 精 神 爽

这里nutch还是用了一元分词,继续下一步。

4.修正nutch先使用一元分词,然后才将结果传递给分词器问题。

cd /usr/local/nutch-1.0/src/java/org/apache/nutch/analysis## 修改NutchAnalysis.jj文件vim NutchAnalysis.jj
将 “src/java/org/apache/nutch/analysis/NutchAnalysis.jj” line 130:| 
>改为:|
)+ >

运行javacc生成java源文件

cd /usr/local/nutch-1.0/src/java/org/apache/nutch/analysis/usr/local/javacc-5.0/bin/javacc NutchAnalysis.jj

重新打包nutch

cd /usr/local/nutch-1.0//usr/local/apache-ant-1.7.1/bin/ant jar

再测试新的nutch-1.0.jar

export PAODING_DIC_HOME=/dicjava -classpath ./build/nutch-1.0.jar:./conf/:./lib/* org.apache.nutch.analysis.NutchAnalysis
Query: 人逢喜事精神爽"喜事 人逢喜事 精神 精神爽"

从结果可以看出已使用庖丁分词器分词了。

转载地址:http://vcgma.baihongyu.com/

你可能感兴趣的文章
IronPython教程
查看>>
squid via检测转发循环
查看>>
计算分页
查看>>
iptables 做nat路由器脚本
查看>>
数据结构(C语言版)第三章:栈和队列
查看>>
Stopping and/or Restarting an embedded Jetty in...
查看>>
Oracle存储过程中的数据集输入参数
查看>>
vsftp 配置
查看>>
VCSA中配置时间和时区,实测至6.5适用
查看>>
高并发IM系统架构优化实践
查看>>
产品经理教你玩转阿里云负载均衡SLB系列(一):快速入门--什么是负载均衡
查看>>
有关linux--进程组、会话、守护进程详解
查看>>
我的友情链接
查看>>
monkeyrunner运行Python脚本来检查apk渠道和验证是否可以调用微信
查看>>
github获得SSH Key解决Permission denied (publickey)问题
查看>>
用java代码编写Oracle存储过程
查看>>
APACHE转发
查看>>
android-market-api
查看>>
解決 yum update錯誤:[Errno -1] Metadata file does not match checksum
查看>>
ASP.NET(C#)Excel导入Dataset的出现数据值丢失问题
查看>>