1.3 文本数据处理_自然语言处理应用与实战-QQ阅读女频青春网

自然语言处理应用与实战

上QQ阅读APP看本书，新人免费读10天

设备和账号都新为新人

上一章目录下一章

1.3 文本数据处理

1.3.1 文本操作基础

文本操作的基本步骤是：打开—读写—关闭。这里的“打开”并不是使用文本编辑打开一个文件，而是相当于用一个文件指针指向文件存储的起始位置。在Python中打开文件采用的方法是open，常用的模式有读、写、追加等。表1.4给出了文件操作的不同模式。

表1.4 文件操作的不同模式

Python中常用的读取文件的函数有三种，分别为read()、readline()、readlines()，下面分别介绍这三个函数的具体用法。test.txt文本文件中的内容如图1.6所示。

图1.6 test.txt文本文件中的内容

以读取test.txt为例，查看read、readline和readlines函数的区别。

（1）read()方法。通过文件对象的read方法读取内容，并以字符串的形式返回结果。

通过变量f将文件的内容赋值给变量data。文件的每行结尾处都有一个不可见的控制字符“\n”作为结束标志。通过print就可以打印出文件原本的内容。

代码运行结果如下所示：

（2）readline()方法。该方法只读取文本文件的第一行内容，以字符串的形式返回结果。

readline()方法从文件指针的位置开始，向后读到“\n”结束本次读取。

代码运行结果如下所示：

（3）readlines()方法。该方法读取文本文件中的所有信息，并以列表的方式返回结果。

readlines()方法从文件指针的起始位置读到结尾，每一行作为列表中的一项，通常也可以结合for循环一起使用。

代码运行的结果如下所示：

在本节最开始时我们已经提出，文件的基本操作是打开、读写和关闭，但是读者可以看到案例中的代码并没有手动关闭，这是因为使用with关键字打开文件可以省去这一步。当with语句结束时，文件自动关闭。

1.3.2 案例实现——文本数据统计

1.实验目标

使用Python读取文本并统计词频。

2.实验目标

实验环境如表1.5所示。

表1.5 实验环境

3.实验步骤

创建words_counter.py源码文件，用于实现词频的统计。

按照如下步骤编写代码。

步骤一：导入模块

步骤二：编写read_text函数实现词频统计

步骤三：自定义main方法和主函数处理

步骤四：运行代码

使用如下命令运行实验代码。

运行结果如下所示：

1.3.3 案例实现——词云生成

1.实验目标

使用Python绘制文本文件中中文汉字的词云。

2.实验目标

实验环境如表1.6所示。

表1.6 实验环境

3.实验步骤

创建word_cloud工程目录，实验目录结构如图1.7所示。

图1.7 实验目录结构

按照如下步骤编写代码。

步骤一：导入模块

步骤二：创建停用词列表

步骤三：对句子进行分词

步骤四：读取文本文件，并对文本中的句子分词

步骤五：调用wordcloud库构建词云，保存结果

步骤六：运行代码

使用如下命令运行代码。

经过运行，lighting的词云效果如图1.8所示。

图1.8 lighting的词云效果

上一章目录下一章