Python文本分析系列之一:NLTK语料库下载

2022年8月26日 247点热度 0人点赞 0条评论
图片


图片
图片
图片

Python文本分析系列之一:NLTK语料库下载





图片
图片
图片
平凡的一天

一般而言,数据分析包括结构化与非结构化数据分析两类。前者比如常见的列表格式的结构化数据分析,后者则是针对文本、图像和视频等非结构化格式的数据分析。其实,类似于结构化数据,纯文本也是常见的数据格式。

文本分析通过运用自然语言处理(NLP)、信息检索和机器学习(ML)等技术将非结构化文本数据解析为更结构化的形式,从而提取对终端用户有益的模式与见解。

诸如文本分类、文本聚类、情感分析以及相似性分析与关系建模,都是常见的文本分析技术。

对于非结构化文本数据,我们需要借助Python自然语言工具包NLTK(The Python Natural Language Toolkit)进行分析。源于2001年的NLTK设计初衷是用于教学,其中包括一个名为corpora的文本样本集。显然,展开文本分析需要我们首先获得NLTK。







图片
图片
图片


01


官网下载nltk_data

图片

点击NLTK Downloader右下角Refresh按钮,首先将服务器索引(Server Index)右侧的网址修改为NLTK官网“https://www.nltk.org/nltk_data”;

选择拟下载的安装包后点击Download,即可将nltk_data语料库下载至“C:\Users\Administrator\AppData\Roaming\nltk_data”文件夹,参见图1。



图片

图1  官网下载nltk语料库


官网下载的nltk语料库容量高达1.8GB,下载速度较慢。一个可行的替代方案是利用百度云下载压缩包,相应的代价是需要人工解压nltk_data.zip中的每一个子压缩文件。




图片


图片
图片


02


百度云下载压缩包nltk_data.zip

图片

在360浏览器搜索栏输入以下文件链接:“https://pan.baidu.com/s/1LWM3o7iRZMF8XaD91vx9Dw”,输入手机发送的动态验证码可打开百度网盘,然后输入提取码“cnpf”即可下载压缩包nltk_data.zip,参见图2。


图片

图2  百度云下载nltk语料库


解压下载所得压缩包,可得chunkers、corpora等9个子文件夹,我们将其置于Download Directory路径“C:\Users\Administrator\AppData\Roaming\nltk_data”,参见图3。



图片

图3  nltk_data文件夹所包含的9个子文件夹





图片
图片
图片


03


测试nltk语料库下载是否成功

图片

打开Jupyter Notebook,点击右侧的New按钮创建一个Python新文件,依次输入以下命令以检测nltk语料库是否下载成功,参见图4。

图片


图片

图4  nltk下载测试:访问Brown语料库


Brown是全世界第一个百万级的英文语料库,也称为“当代美国英语标准语料库”,由布朗大学Kucera和Francis于1961年开发。该语料库由来自不同来源和分类的文本组成。

图4的命令运行结果告诉我们,该语料库中共有15个类型,例如新闻(news)、推理小说(mystery)、传说(fiction)等等,这表明本机nltk语料库已经成功安装。





图片
图片

04


自然语言处理的一个示例:

基于Gutenberg语料库的停用字、姓名和数字的滤除


NLTK包含Gutenberg语料库,这是一个供人们在互联网上阅读的数字图书馆计划。

1、解压nltk_data子文件夹corpora中的gutenberg、punkt、stopwords和words压缩包,参见图5


图片

图5  nltk_data子文件夹的解压


2、在以下路径新建PY3子文件夹,并将该路径中的english.pickle文件置于这一新建的子文件夹PY3中,参见图6。

图片



图片

图6  新建子文件夹PY3


3、打开Jupyter Notebook,点击右侧的New按钮创建一个Python新文件,依次输入以下命令,运行结果参见图7和图8。

图片


图片

图7  基于Jupyter Notebook的NLP演示



图片

图8  滤除停用字、姓名和数字的NLP演示:基于Gutenberg项目


图8显示,停用字、姓名与数字在words列表中均已被滤除。

图片

编辑:曹承洲

审核:杨   露

图片

往期回顾:

Python数据分析系列之八:Python与Stata数据分析的互联互通

Python数据分析系列之七:多元回归分析

Python数据分析系列之六:数据可视化

Python数据分析系列之五:数值操作

Python数据分析系列之四:数据预处理

Python数据分析系列之三:描述性统计

Python数据分析系列之二:相关性运算

Python数据分析系列之一:Anaconda的安装


图片
图片
      图片

    实证会计入门一点通

     扫描二维码关注我们

                    图片  

鼎园会计微信群

本群主旨:

交流Stata与Python,

分析结构化数据,

探讨非结构化文本会计,

共同书写鼎园会计人生


图片


81610Python文本分析系列之一:NLTK语料库下载

这个人很懒,什么都没留下

文章评论