`
soul_fly
  • 浏览: 38716 次
  • 性别: Icon_minigender_1
  • 来自: 武汉
社区版块
存档分类
最新评论

Yard中文分词系统V0.1版性能分析

阅读更多
Yard中文分词系统V0.1还有很多地方需要完善,它对中文人名、地名、数字、英文等还不能进行切分,在歧义句的划分上也还存在问题。我会在这个月低推出0.2版将实现对数字、英文的切分,同时将利用现有的基于词频的方法加上MP算法实现对歧义句很好的划分。好了还是来谈谈Yard中文分词系统V0.1版的性能吧。
在中文分词领域中歧义句的划分比较复杂,常用的方法有FWF算法和MP算法等,在Yard系统中我没有用这些算法,而是基于搜狗互联网词库对1亿个网页统计得出的互联网词汇词频加上规约规则对歧义句进行划分,从测试结果看效果比较好。
Yard中文分词系统的分词效率比较高,在我的laptop上可以达到2M/S,这得因为Yard系统采用双字哈希表对词典进行组织避免了中文最长词带来的分词效率问题。
常用歧义句:

乒乓球拍卖完了
结合成分子时
研究生一般年龄较大
研究生命起源
这个研究所不大
这项研究所涉及的问题很复杂
老师叫你马上去
他从马上下来
将来的上海会有严重污染
实现在情报工作方面的自动化
战事已经有了结局
发展中国家的经济状况很好
使用户外无线要注意避雷
使用户满意的做法
昨天下午他不在
独立自主和平等互利原则
太平淡的故事

Yard分词系统的分词结果:

乒乓球 拍卖 完了
结合 成分 子 时

研究生 一般 年龄 较大
研究 生命 起源
这个 研究所 不大
这项 研究所 涉及 的 问题 很复杂
老师 叫你 马上 去
他 从 马上 下来
将来 的 上海 会有 严重 污染
实 现在 情报 工作 方面 的 自动化
战事 已经有了 结局
发展中国家 的 经济状况 很好
使用 户 外 无线 要注意 避雷
使用 户满意 的 做法
昨 天下 午 他 不在
独立自主 和平 等 互利 原则
太 平淡 的 故事

Ictclas分词系统的结果

乒乓球拍/n 卖/v 完/a 了/u
结合/v 成/v 分子/n 时/ng
研究生/n 一般/a 年龄/n 较/d 大/a
研究/vn 生命/n 起源/n
这个/r 研究所/n 不/d 大/a
这项/r 研究/v 所/u 涉及/v 的/u 问题/n 很/d 复杂/a
老师/n 叫/v 你/r 马上/d 去/v
他/r 从/p 马/n 上/f 下来/v
将来/t 的/u 上海/ns 会/v 有/v 严重/ad 污染/v
实现/v 在/p 情报/n 工作/vn 方面/n 的/u 自动化/vn
战事/n 已经/d 有/v 了/u 结局/n
发展中国家/l 的/u 经济/n 状况/n 很/d 好/a
使用/v 户外/s 无线/b 要/v 注意/v 避/v 雷/nr
使/v 用户/n 满意/v 的/u 做法/n
昨天/t 下午/t 他/r 不/d 在/p
独立自主/i 和平/n 等/u 互利/v 原则/n
太平/ns 淡/a 的/u 故事/n


SCWS中文分词第四版的结果如下:

乒乓球 拍卖 完了
结合 成 分子 时
研究生 一般 年龄 较大
研究 生命 起源
这个 研究所 不大
这项 研究所 涉及 的 问题 很 复杂
老师 叫 你 马上 去
他 从 马上 下来
将来 的 上海 会 有 严重 污染
实现 在 情报 工作 方面 的 自动化
战事 已经 有 了 结局
发展中国家 的 经济状况 很 好
使 用户 外 无线 要 注意 避雷
使 用户 满意 的 做法
昨天 下午 他 不在
独立自主 和 平等互利 原则
太平 淡 的 故事

Yard分词系统在歧义句的划分上基本达到了SCWS正文分词的效果和Ictclas相比还有较远的距离,不过我相信在下一个版本中将会得到很到的改善。
0.1版源代码下载地址:http://soul-fly.iteye.com/blog/406926
2
0
分享到:
评论

相关推荐

    Yard中文分词系统V0.1.1版

    Yard中文分词系统采用改进了的正向最大匹配算法,利用双字哈希进行词典组织解决了中文分词中最长词带来的分词效率低下问题。 本次发布的版本为0.1.1版能对中文词组进行完美的切分同时利用词组的词频和词性解决了...

    后院分词系统(yard)源代码下载

    最新的算法带来了完美的分词体验。源代码下载全java编写。附带词典下载。

    yard, YARD是一个 ruby 文档工具 Y 代表"Yay"!.zip

    yard, YARD是一个 ruby 文档工具 Y 代表"Yay"! : ruby 文档工具 ! 概要YARD是 ruby 编程语言的文档生成工具。 用户可以生成一致的。可用的文档,可以很容易地导出到许多格式,也支持扩展自定义类级定义( 比如自定义...

    Ruby文档工具Yard.zip

    Yard,是一款 Ruby 文档工具。使用它,你可以在为你的 Ruby app 写文档时预览你的代码。它拥有简单的定制模板,支持你自己的 DSL,并有大量优秀的扩展,而且每天都在增加。 标签:Yard

    Ruby-Yard是一款Ruby文档工具

    Yard,是一款 Ruby 文档工具。使用它,你可以在为你的 Ruby app 写文档时预览你的代码。它拥有简单的定制模板,支持你自己的 DSL,并有大量优秀的扩展,而且每天都在增加。

    yard:另一个ROC曲线抽屉

    由于yard目前处于繁重的开发过程中,因此您可能无法获得yard所有最新和最强大的功能,但是您很可能会在这里找到即使在特殊情况下也不会崩溃的版本。 的页面。 在此页面上,您可以尽可能密切地关注yard的发展。 您...

    yard-mode.el:Emacs次要模式,用于编辑YARD标签

    支持在ruby注释中将YARD标签和指令字体化的基本支持。 安装 使用 : Mx package-install yard-mode 。 将其添加到您的Ruby挂钩: (add-hook 'ruby-mode-hook 'yard-mode ) 如果您还希望得到eldoc支持,以便在...

    engineyard:从命令行部署到Engine Yard Cloud

    Engine Yard命令行实用程序。 在Ruby 1.8.7或1.9.2上安装 注意:这对您的Engine Yard环境Ruby版本没有影响。 这仅与用于运行此gem的本地开发Ruby版本有关。 无论此更改如何,环境都可以继续使用所选的Ruby版本。 ...

    Rust中 Shutting-yard算法的示例实现_rust_代码_下载

    在 Rust中 Edsger Dijkstra 的Shutting-yard 算法的示例实现。 此实现处理: 二进制+, -, *, /, 和^(指数)运算符 一元+和-运算符 括号 关联性(大多数运算符左侧,取幂右侧) 分流 Rust 包括一个基于正则表达式...

    yard-contracts:来自合同的自动参数文档的 YARD 插件

    堆场合同 yard-contracts 是一个 YARD 插件,可与出色的 gem 配合使用,自动记录方法签名中的参数类型和描述,节省时间,使代码简洁并保持文档一致。 您是否厌倦了编码验证、编写错误消息然后记录这些事情? 所有...

    YARD是Ruby文档工具。 Y代表“是!”-Ruby开发

    Ruby文档工具摘要YARD是Ruby编程语言的文档生成工具。 它使用户能够生成一致且可用的文档,并可以将其导出到YARD:是的! Ruby文档工具摘要YARD是用于Ruby编程语言的文档生成工具。 它使用户能够生成一致,可用的...

    yard-link_stdlib

    待办事项:删除此内容和上面的文字,并描述您的宝石安装将此行添加到您的应用程序的Gemfile中: gem 'yard-link_stdlib' 然后执行: $ bundle或将其自己安装为: $ gem install yard-link_stdlib用法待办事项:在...

    yard-junk:摆脱YARD文档中的垃圾

    Yard-Junk:在您的YARD文档中摆脱垃圾! Yard-Junk是插件/补丁,它提供: 结构化文档错误记录; 文档错误验证器,可以集成到CI管道中。 展示柜 让我们为库生成文档。 不带垃圾场的`yard doc`输出[warn]: in YARD...

    Yard-开源

    Yard是一套Perl脚本,用于创建自定义引导/救援/ Linux软盘。 您可以指定一组基本的文件和实用程序来进行包含,而Yard可以处理详细信息,包括检查错误,遗漏和不一致之处。

    The YARD Parsing Framework for C++-开源

    YARD C ++解析框架现在托管在http://code.google.com/p/yardparser/上。

    Discrete time model and algorithm for container yard crane scheduling.pdf

    论文Discrete time model and algorithm for container yard crane scheduling.pdf

    Scotland-Yard-Ai

    苏格兰-围场-艾文献资料用法生成并运行项目(所有命令均来自项目根目录): 克隆仓库,并导航到项目根目录安装(cubbli具有所需的一切) 安装依赖项:'npm install' 这需要几分钟编译源代码:'npm run compile' 编译...

    webpack-yard:了解Webpack技能

    执行命令npm run dev 浏览器输入地址查看控制台发布模式 执行命令npm run build 和 npm run koa 浏览器输入地址查看控制台项目环境(准备工作)os windows10vscode 1.55.0node v12.18.4webpack v5.30.0emsdk v2.0.16...

    yard_types:解析 YARD 类型字符串并针对它们进行类型检查

    安装像这些天的其他一切一样: gem 'yard_types' 请注意, yard gem 可能会在您的加载路径上自动要求任何名为yard_*或yard-*内容,并尝试将其用作插件。 您可以看到与failed to load plugin yard_types ; 这是无害...

    yard-gobject-introspection:YARD插件,用于从GObject Introspection数据检索文档

    码-对象反省码插件,用于基于GObject-Intropection构建库文档。要求Ruby / GObject-...gem install yard-gobject-introspection执照版权所有(c)2016 Ruby-GNOME2项目团队该程序是免费软件。 您可以根据GNU

Global site tag (gtag.js) - Google Analytics