logo资料库

中文版Natural Language Processing with Python.pdf

第1页 / 共383页
第2页 / 共383页
第3页 / 共383页
第4页 / 共383页
第5页 / 共383页
第6页 / 共383页
第7页 / 共383页
第8页 / 共383页
资料共383页,剩余部分请下载后查看
PYTHON自然语言处理中文翻译
译者的话
PYTHON自然语言处理
目录
前言
读者
强调
你将学到什么?
篇章结构
为什么使用Python?
软件安装需求
自然语言工具包(NLTK)
教师请看
本书使用的约定
使用例子代码
Safari®联机丛书
如何联系我们
致谢
版税
第1章语言处理与Python
1.1语言计算:文本和单词
Python入门
NLTK入门
搜索文本
计数词汇
1.2近观Python:将文本当做词链表
链表
索引列表
变量
字符串
1.3计算语言:简单的统计
频率分布
细粒度的选择词
词语搭配和双连词(bigrams)
计数其他东西
1.4回到Python:决策与控制
条件
对每个元素进行操作
嵌套代码块
条件循环
1.5自动理解自然语言
词意消歧
指代消解
自动生成语言
机器翻译
人机对话系统
文本的含义
NLP的局限性
1.6小结
1.7深入阅读
1.8练习
第2章获得文本语料和词汇资源
2.1获取文本语料库
古腾堡语料库
网络和聊天文本
布朗语料库
路透社语料库
就职演说语料库
标注文本语料库
在其他语言的语料库
文本语料库的结构
载入你自己的语料库
2.2条件频率分布
条件和事件
按文体计数词汇
绘制分布图和分布表
使用双连词生成随机文本
2.3更多关于Python:代码重用
使用文本编辑器创建程序
函数
模块
2.4词典资源
词汇列表语料库
发音的词典
比较词表
2.5WordNet
意义与同义词
WordNet的层次结构
更多的词汇关系
语义相似度
2.6小结
2.7深入阅读
2.8练习
第3章加工原料文本
3.1从网络和硬盘访问文本
电子书
处理的HTML
处理搜索引擎的结果
读取本地文件
从PDF、MSWord及其他二进制格式中提取文本
捕获用户输入
NLP的流程
3.2字符串:最底层的文本处理
字符串的基本操作
输出字符串
访问单个字符
访问子字符串
更多的字符串操作
链表与字符串的差异
3.3使用Unicode进行文字处理
什么是Unicode?
从文件中提取已编码文本
在Python中使用本地编码
3.4使用正则表达式检测词组搭配
使用基本的元字符
范围与闭包
3.5正则表达式的有益应用
提取字符块
在字符块上做更多事情
查找词干
搜索已分词文本
3.6规范化文本
词干提取器
词形归并
3.7用正则表达式为文本分词
分词的简单方法
NLTK的正则表达式分词器
分词的进一步问题
3.8分割
断句
分词
3.9格式化:从链表到字符串
从链表到字符串
字符串与格式
排列
将结果写入文件
文本换行
3.10小结
3.11深入阅读
3.12练习
第4章编写结构化程序
4.1回到基础
赋值
等式
条件语句
4.2序列
序列类型上的操作
合并不同类型的序列
产生器表达式
4.3风格的问题
Python代码风格
过程风格与声明风格
计数器的一些合理用途
4.4函数:结构化编程的基础
函数的输入和输出
参数传递
变量的作用域
参数类型检查
功能分解
文档说明函数
4.5更多关于函数
作为参数的函数
累计函数
高阶函数
参数的命名
4.6程序开发
Python模块的结构
多模块程序
误差源头
调试技术
防御性编程
4.7算法设计
递归
权衡空间与时间
动态规划
4.8Python库的样例
Matplotlib绘图工具
NetworkX
CSV
NumPy
其他Python库
4.9小结
4.10深入阅读
4.11练习
第5章分类和标注词汇
5.1使用词性标注器
5.2标注语料库
表示已标注的标识符
读取已标注的语料库
简化的词性标记集
名词
动词
形容词和副词
未简化的标记
探索已标注的语料库
5.3使用Python字典映射词及其属性
索引链表VS字典
Python字典
定义字典
默认字典
递增地更新字典
复杂的键和值
颠倒字典
5.4自动标注
默认标注器
正则表达式标注器
查询标注器
评估
5.5N-gram标注
一元标注(UnigramTagging)
分离训练和测试数据
一般的N-gram的标注
组合标注器
标注生词
存储标注器
性能限制
跨句子边界标注
5.6基于转换的标注
5.7如何确定一个词的分类
形态学线索
句法线索
语义线索
新词
词性标记集中的形态学
5.8小结
5.9深入阅读
5.10练习
第六章学习分类文本
6.1有监督分类
性别鉴定
选择正确的特征
文档分类
探索上下文语境
序列分类
其他序列分类方法
6.2有监督分类的更多例子
句子分割
识别对话行为类型
识别文字蕴含
扩展到大型数据集
6.3评估
测试集
准确度
精确度和召回率
混淆矩阵
交叉验证
6.4决策树
熵和信息增益
6.5朴素贝叶斯分类器
潜在概率模型
零计数和平滑
非二元特征
独立的朴素
双重计数的原因
6.6最大熵分类器
最大熵模型
熵的最大化
生成式分类器对比条件式分类器
6.7为语言模式建模
模型告诉我们什么?
6.8小结
6.9进一步阅读
6.10练习
第七章从文本提取信息
7.1信息提取
信息提取结构
7.2分块
名词短语分块
标记模式
用正则表达式分块
探索文本语料库
加缝隙
块的表示:标记与树
7.3开发和评估分块器
读取IOB格式与CoNLL2000分块语料库
简单评估和基准
训练基于分类器的分块器
7.4语言结构中的递归
用级联分块器构建嵌套结构
树遍历
7.5命名实体识别
7.6关系抽取
7.7小结
7.8进一步阅读
7.9练习
第8章分析句子结构
8.1一些语法困境
语言数据和无限可能性
普遍存在的歧义
8.2文法有什么用?
超越n-grams
8.3上下文无关文法
一种简单的文法
写你自己的文法
句法结构中的递归
8.4上下文无关文法分析
递归下降分析
移进-归约分析
左角落分析器
符合语句规则的子串表
8.5依存关系和依存文法
配价与词汇
扩大规模
8.6文法开发
树库和文法
有害的歧义
加权文法
8.7小结
8.8进一步阅读
8.9练习
第9章建立基于特征的文法
9.1文法特征
句法协议
使用属性和约束
术语
9.2处理特征结构
包含和统一
9.3扩展基于特征的文法
子类别
核心词回顾
助动词与倒装
无限制依赖成分
德语中的格和性别
9.4小结
9.5进一步阅读
9.6练习
第10章分析句子的意思
10.1自然语言理解
查询数据库
自然语言、语义和逻辑
10.2命题逻辑
10.3一阶逻辑
句法
一阶定理证明
一阶逻辑语言总结
真值模型
独立变量和赋值
量化
量词范围歧义
模型的建立
10.4英语句子的语义
基于特征的文法中的合成语义学
λ演算
量化的NP
及物动词
再述量词歧义
10.5段落语义层
段落表示理论
段落处理
10.6小结
10.7进一步阅读
10.8练习
第11章语言数据管理
11.1语料库结构:一个案例研究
TIMIT的结构
主要设计特点
基本数据类型
11.2语料库生命周期
语料库创建的三种方案
质量控制
维护与演变
11.3数据采集
从网上获取数据
从字处理器文件获取数据
从电子表格和数据库中获取数据
转换数据格式
决定要包含的标注层
标准和工具
处理濒危语言时特别注意事项
11.4使用XML
语言结构中使用XML
XML的作用
ElementTree接口
使用ElementTree访问Toolbox数据
格式化条目
11.5使用Toolbox数据
为每个条目添加一个字段
验证Toolbox词汇
11.6使用OLAC元数据描述语言资源
元数据是什么?
OLAC:开放语言档案社区
11.7小结
11.8进一步阅读
11.9练习
后记:语言的挑战
语言处理与符号处理
当代哲学划分
NLTK的路线图
Envoi...
参考文献
NLTK索引
一般索引
关于作者
书的末页
 
PYTHON PYTHON PYTHON PYTHON 自然语言处理中文翻译 作者:Steven Bird, Ewan Klein & Edward Loper 英文版出版社:O'REILLY 翻译:陈涛(weibo.com/chentao1999) 译者的话 译者的话 译者的话 译者的话 作为一个自然语言处理的初学者,看书看到“训练模型”,这模型那模型的,一直不知 道模型究竟是什么东西。看了这本书,从预处理数据到提取特征集,训练模型,测试修改等, 一步一步实际操作了之后,才对模型一词有了直观的认识(算法的中间结果,存储在计算机 中的一个个 pkl 文件,测试的时候直接用,前面计算过的就省了)。以后听人谈“模型”的 时候也有了底气。当然,模型还有很多其他含义。还有动词的“配价”、各种搭配、客观逻 辑对根据文法生成的句子的约束如何实现?不上机动手做做,很难真正领悟。 自然语言处理理论书籍很多,讲实际操作的不多,能讲的这么系统的更少。从这个角度 讲,本书是目前世界上最好的自然语言处理实践教程。初学者若在看过理论之后能精读本书, 必定会有获益。这也是翻译本书的目的之一。 本书是译者课余英文翻译练习,抛砖引玉。书中存在很多问题,尤其是第 10 章命题逻 辑和一阶逻辑推理在自然语言处理中的应用。希望大家多多指教。可以在微博上找到我(w eibo.com/chentao1999)。虽然读中文翻译速度更快,但直接读原文更能了解作者的本意。 原书作者在书的最后列出了迫切需要帮助改进的条目,对翻译本书建议使用目标语言的 例子,目前本书还只能照搬英文的例子,希望有志愿者能加入本书的中文化进程中,为中文 自然语言处理做出贡献。 将本书作学习和研究之用,欢迎传播、复制、修改。山寨产品请留下译者姓名和微博。 用于商业目的,请与原书版权所有者联系,译者不承担由此产生的责任。 译者 2012 年 4 月 7 日 2
PYTHON 自然语言处理 从输入法联想提示(pre dictive text)、email 过滤到自 动文本摘要、机器翻译,大 量的语言相关的技术都离不 开自然语言处理的支持,而这本书提供了自 然语言处理非常方便的入门指南。通过它, 你将学到如何写能处理大量非结构化文本 的 Python 程序。你将获得有丰富标注的涵 盖语言学各种数据结构的数据集,而且你将 学到分析书面文档内容和结构的主要算法。 通过大量的例子和联系,《PYTHON 自 然语言处理》将会帮助你: ���� 从非结构化文本中提取信息,无论是猜 测主题还是识别“命名实体”。 ���� 分析文本的语言学结构,包括文法和语 果你对开发 Web 应用、分析多种语言的新 闻来源或者收集濒危语言感兴趣,或者仅仅 对以程序员的视角看人类语言如何运作好 奇,你将发现《PYTHON 自然语言处理》 不仅迷人而且极其有用。 “少有的一本书,用如此清晰的方法如 此优美整洁的代码处理如此复杂的问 题……这是一本从中可以学习自然语言处 理的书。” ——Ken Getz, MCW Technologies 高级顾问 Steven BirdBirdBirdBird 是墨尔本大学计算机科学 Steven Steven Steven 和软件工程系副教授,宾夕法尼亚大学语言 义分析 学数据联盟高级研究助理。 ���� 访问流行的语言学数据集,包括 WordWordWordWord EwanEwanEwanEwan KleinKleinKleinKlein 是爱丁堡大学信息学院语 NetNetNetNet 和 treebanks treebanks treebanks treebanks ���� 整合从语言学到人工智能的多个领域 的技术 通过使用 Python 程序设计语言和自然 语言工具包(NTLK)的开源函数库,本书 将帮助你获得自然语言处理的实际经验。如 言技术教授。 Edward LopeLopeLopeLoperrrr 是宾夕法尼亚大学基于 Edward Edward Edward 机器学习的自然语言处理方向的刚毕业的 博士,现在是波士顿的 BBN Technologies 的研究员。 3
PYTHON 自然语言处理 StevenBird,EwanKlein&EdwardLoper 北京 • 剑桥 • 法纳姆 • 科隆 • 塞瓦斯托波尔 • 台北 • 东京 4
Python Python Python Python 自然语言处理 by Steven Bird, Ewan Klein, and Edward Loper Copyright © 2009 Steven Bird, Ewan Klein, and Edward Loper. All rights reserved. Printed in the United States of America. O’Reilly Media, Inc.出版, 1005 Gravenstein Highway North, Sebastopol, CA 95472. 可以购买 O’Reilly 出版的书用于教育、商业或者销售推广使用。大多数图书都有网络 版(http://my.safaribooksonline.com)。更多的信息请联系我们的企业/机构销售部门:(800) 998-9938 or corporate@oreilly.com.。 编辑:Julie Steele 制作编辑:Loranah Dimant 拷贝编辑:Genevieve d’Entremont 校对:Loranah Dimant 索引编者:Ellen Troutman Zaig 封面设计:Karen Montgomery 内页设计:David Futato 插画:Robert Romano 版本说明: 2009 年六月:第一版 Nutshell Handbook, the Nutshell Handbook 标志, 以及 O’Reilly 标志是 O’Reilly Me dia, Inc.的注册商标。《PYTHON 自然语言处理》,露脊鲸图案以及相关的商品外观是 O’Re illy Media, Inc.的商标。 制造商和经销商为了区分他们的产品而声明一些名称为商标。这些名称也出现在本书 中,O’Reilly Media, Inc.知道这是商标,使用盖帽或者小的盖帽来印刷。 在本书编写过程中已经采取一切可能的预防措施,所以出版商和作者对书中的错误和遗 漏以及使用此书包含的信息所造成的损害不承担责任。 ISBN: 978-0-596-51649-9 [M] 1244726609 5
目录 PYTHON 自然语言处理中文翻译...................................................................................... 2 译者的话................................................................................................................... 2 PYTHON 自然语言处理.............................................................................................3 目录................................................................................................................................. 6 前言............................................................................................................................... 15 读者........................................................................................................................ 15 强调........................................................................................................................ 16 你将学到什么?....................................................................................................... 16 篇章结构................................................................................................................. 16 为什么使用 Python?................................................................................................17 软件安装需求.......................................................................................................... 18 自然语言工具包(NLTK)....................................................................................... 18 教师请看................................................................................................................. 19 本书使用的约定....................................................................................................... 20 使用例子代码.......................................................................................................... 20 Safari®联机丛书...................................................................................................... 21 如何联系我们.......................................................................................................... 21 致谢........................................................................................................................ 22 版税........................................................................................................................ 22 第 1 章 语言处理与 Python.............................................................................................. 23 1.1 语言计算:文本和单词...................................................................................... 23 Python 入门.......................................................................................................23 NLTK 入门........................................................................................................24 搜索文本.......................................................................................................... 26 计数词汇.......................................................................................................... 28 1.2 近观 Python:将文本当做词链表........................................................................ 30 链表................................................................................................................. 30 索引列表.......................................................................................................... 32 变量................................................................................................................. 34 字符串.............................................................................................................. 35 1.3 计算语言:简单的统计...................................................................................... 36 频率分布.......................................................................................................... 36 细粒度的选择词................................................................................................ 38 词语搭配和双连词(bigrams).......................................................................... 39 计数其他东西................................................................................................... 39 1.4 回到 Python:决策与控制..................................................................................... 41 条件................................................................................................................. 41 对每个元素进行操作......................................................................................... 42 嵌套代码块....................................................................................................... 43 6
条件循环.......................................................................................................... 44 1.5 自动理解自然语言.................................................................................................... 45 词意消歧.......................................................................................................... 46 指代消解.......................................................................................................... 46 自动生成语言................................................................................................... 46 机器翻译.......................................................................................................... 47 人机对话系统................................................................................................... 48 文本的含义....................................................................................................... 49 NLP 的局限性................................................................................................... 49 1.6 小结......................................................................................................................... 50 1.7 深入阅读.................................................................................................................. 50 1.8 练习......................................................................................................................... 51 第 2 章 获得文本语料和词汇资源....................................................................................54 2.1 获取文本语料库..................................................................................................54 古腾堡语料库................................................................................................... 54 网络和聊天文本................................................................................................ 56 布朗语料库....................................................................................................... 57 路透社语料库................................................................................................... 59 就职演说语料库................................................................................................ 59 标注文本语料库................................................................................................ 60 在其他语言的语料库......................................................................................... 62 文本语料库的结构............................................................................................ 64 载入你自己的语料库......................................................................................... 65 2.2 条件频率分布.................................................................................................... 66 条件和事件....................................................................................................... 66 按文体计数词汇................................................................................................ 66 绘制分布图和分布表......................................................................................... 67 使用双连词生成随机文本.................................................................................. 68 2.3 更多关于 Python:代码重用............................................................................... 70 使用文本编辑器创建程序.................................................................................. 70 函数................................................................................................................. 70 模块................................................................................................................. 71 2.4 词典资源........................................................................................................... 72 词汇列表语料库................................................................................................ 73 发音的词典....................................................................................................... 75 比较词表.......................................................................................................... 78 2.5 WordNet..............................................................................................................79 意义与同义词................................................................................................... 79 WordNet 的层次结构......................................................................................... 81 更多的词汇关系................................................................................................ 82 语义相似度....................................................................................................... 83 2.6 小结.................................................................................................................. 84 2.7 深入阅读........................................................................................................... 85 2.8 练习.................................................................................................................. 85 7
分享到:
收藏