![Python自然语言处理(微课版)](https://wfqqreader-1252317822.image.myqcloud.com/cover/869/44509869/b_44509869.jpg)
上QQ阅读APP看书,第一时间看更新
1.5.5 搜狗新闻语料库
搜狗新闻语料库,下载地址为http://www.sogou.com/labs/resource/cs.php,如图1-14所示。
搜狐新闻数据(SogouCS)请直接下载精简版,文件为SogouCS.reduced.tar.gz,解压到d:\SogouCS.reduced,共有128个文本文件,如图1-15所示。
每一个txt文件采用ANSI编码,内容是XML格式化,如图1-16所示。
将每个txt文件根据url、contenttitle、content进行拆分,具体含义如下。
· url:获取内容类别。
· contenttitle:获取内容标题,作为txt的文档名。
· content:正文内容。
![](https://epubservercos.yuewen.com/CC79B0/23721531409454406/epubprivate/OEBPS/Images/Figure-P31_2511.jpg?sign=1739666770-QUmMROAOkjFVAscgjr1dJ0DWjB7LtbHM-0-88e88d6f7414524542c3c8fa67b03ea2)
图1-14 搜狗新闻语料库网页
![](https://epubservercos.yuewen.com/CC79B0/23721531409454406/epubprivate/OEBPS/Images/Figure-P31_2514.jpg?sign=1739666770-sTPesRV4OTDiaIqP6essRB6BlKAHQUTD-0-4c7e6a28e649dc155014933558e1e2b7)
图1-15 下载搜狗新闻语料库
![](https://epubservercos.yuewen.com/CC79B0/23721531409454406/epubprivate/OEBPS/Images/Figure-P32_2519.jpg?sign=1739666770-AFwGRLzXVyHS4GPyrTaupedLPpLj13b2-0-7fa915f9936d48811b427d0d10d19257)
图1-16 文件内容
代码如下。
![](https://epubservercos.yuewen.com/CC79B0/23721531409454406/epubprivate/OEBPS/Images/Figure-P32_2522.jpg?sign=1739666770-avrSFfI0aq5zynxZQXua0aSyyRDeHWnX-0-0996b6057364bb5b2fdd3e2a00f7cfb8)
最终数据集整理为15个类别,如图1-17所示。
![](https://epubservercos.yuewen.com/CC79B0/23721531409454406/epubprivate/OEBPS/Images/Figure-P33_2527.jpg?sign=1739666770-8K3ZRbJ5v7C8LCLjjAC3dItyaW03AJr5-0-6ec108d3fbf274ada2dfc9075d64cae6)
图1-17 语料集分类