信息管理与信息系统毕业论文《基于NLP方法实现胃癌文本分类识别》

2023年12月2721:59:20发布者:小杰 71 views 举报
总字数:约18142字
第1页

第2页

第3页

第4页

第5页

第6页

第7页

第8页

第9页

北方民族大学本科毕业论文 ( 设计 )

基于 NLP 方法实现胃癌文本分类识别

摘要

文本分类识别是自然语言处理中一个十分重要的研究方向。结合医学方面的知识,

用自然语言处理方法,对电子病历进行中文文本预处理,进行数据清洗,中文分词,字

向量表示,构建 TextRNN 模型和 TextCNN 模型,分别对其进行预训练,然后将测试数

据集分别放入两个模型进行预测,比较模型的优缺点、性能和实验结果,选择性能更好、

准确率更高的模型。

实验数据表明, TextRNN 模型对电子病历分类的准确率更高,模型的性能更好,与

医生判断结果有两条数据的误差,准确率为 92.31% ,表明使用 NLP 方法进行有关胃癌

的电子病历中文文本分类识别具有十分有效的辅助诊断效果,能够帮助医生识别所患疾

病。

关键词: NLP 、胃癌、文本分类

北方民族大学本科毕业论文 ( 设计 )

Text classification and recognition of gastric cancer b

ased on NLP

Abstract

Text classification recognition is a very important research direction in natural language processin

g. Combined with medical knowledge, using natural language processing method, electronic medical rec

ords for Chinese text preprocessing, data cleaning, Chinese word segmentation, word vector representatio

n, build TextRNN model and TextCNN model, pre-train them respectively, and then put the test data s

et into the two models respectively for prediction. Compare the advantages and disadvantages of the m

odel, performance and experimental results, select the model with better performance and higher accurac

y.

Experimental data show that TextRNN model of electronic medical records classification accuracy i

s higher, better performance of the model, and the doctor determine the error of the results there are t

wo data, the accuracy is 92.31%, show that the use of NLP method on gastric cancer of electronic me

dical record of Chinese text classification is a very effective auxiliary diagnosis effect, could help docto

rs identify the disease.

Keywords:

NLP Gastric carcinoma Text recognition

北方民族大学本科毕业论文 ( 设计 )

第 1 章

绪论 ....................................................................................................................1

1.1 课题开发背景和目的 ........................................................................................1

1.2 国内外胃癌文本分类识别研究现状分析 ........................................................1

1.3 设计思路 ............................................................................................................2

1.4 论文结构 ............................................................................................................2

第 2 章

核心技术与理论 ................................................................................................4

2.1 文本预处理 .........................................................................................................4

2.1.1 中文分词 ...................................................................................................4

2.1.2 中文分词技术 ...........................................................................................4

2.1.3 去除停用词 ...............................................................................................5

2.1.4 字向量 .......................................................................................................5

2.2 双向长短期记忆网络模型 .................................................................................6

2.2.1 双向长短期记忆网络模型概述 ...............................................................6

2.2.2 双向长短期记忆网络模型结构 ...............................................................6

2.3 TextRNN 模型 ......................................................................................................7

2.3.1TextRNN 模型概述 ....................................................................................7

2.3.2TextRNN 模型结构 ....................................................................................7

2.4TextCNN 模型 .......................................................................................................8

2.4.1TextCNN 模型概述 ....................................................................................8

北方民族大学本科毕业论文 ( 设计 )

2.4.2TextCNN 模型结构 ....................................................................................8

3

基于 NLP 方法实现胃癌文本分类识别的概要设计和详细设计 ..................9

3.1 基于 NLP 方法实现胃癌文本分类识别的需求分析 ...................................... 10

3.1.1 功能需求 .................................................................................................10

3.2 基于 NLP 方法实现胃癌文本分类识别概要设计 .......................................... 10

3.2.1 软件及环境 .............................................................................................10

3.3 基于 NLP 方法实现胃癌文本分类识别详细设计 ...........................................11

3.3.1 语料库 ..................................................................................................... 11

3.3.2 数据预处理 .............................................................................................12

3.3.3 模型构建 .................................................................................................14

4 章基于 NLP 方法实现胃癌文本分类识别的实现和测试 .................................... 20

4.1 测试环境 ............................................................................................................20

4.2 测试过程及结果 ................................................................................................21

5 章总结 ......................................................................................................................24

参考文献 ..........................................................................................................................26

致谢 ..................................................................................................................................27

北方民族大学本科毕业论文 ( 设计 )

1

第 1 章 绪论

随着市场经济的迅速发展,互联网的巨大进步,互联网对人们的生活及工作都带来

了非常大的方便,医疗方面也得到了很大的便利,在医院,医生工作量大,工作十分辛

苦,特开发此程序,帮助医生进行辅助诊断。

1.1 课题开发背景和目的

随着计算机网络技术的发展,信息化时代的来临,医院也逐渐信息化,传统的手工

病历在渐渐的被电子病历替代,与传统的手工病历相比,电子病历可以更快的传输信息,

传统的手工病历一般保存在本院,不便于共享,电子病历可以在病人转院就诊时医生也

可查看,具有良好的共享性,并且能使医院的信息管理系统变得更加完善。

胃癌是一种常见的恶性疾病,是影响人类生命健康的罪魁祸首之一,在人类癌症发

病率中,达到了世界第六、中国第三的位置。早期胃癌无明显症状,或出现上腹不适、

呕吐等非特异性症状,常与胃炎、胃溃疡等胃慢性疾病症状相似,容易被忽视。因此,

目前我国的早期胃癌诊断率仍较低。所以结合医学方面的知识,用自然语言处理方法,

研究一种有关医学方面词典构建方法,能从医学文本语料库中获取有效的医学术语。提

高面向医学领域的中文分词精度。通过电子病历 [1] 的结构化分析,进行胃癌文本分类识

别。辅助医生识别患者所患疾病。

1.2 国内外胃癌文本分类识别研究现状分析

国外:在很早之前,国外的学者就开始在研究这项技术,萨里奥格鲁等人基于 NLP

建模,提高了原始文本分类结果,有效帮助医生的决策。克洛克纳 [2] 等人的研究作为辅

助工具在胃癌诊断上表现出很大潜力。

国内:中国医学科学院利用 STEM 研究,采用词表匹配和基于机器学习开展临床医

学文本的分类工作。夏冬等人把词典结合统计的分词方法运用在电子病历文本分词中,

效果较好,可实现电子病历的决策支持价值 [3] 。梁桥康等人在 CNN 模型的基础上,开

发并设计更深层次 eper U-Net DU-Net 模型,精准识别出胃癌癌变之处,对胃癌的计算

北方民族大学本科毕业论文 ( 设计 )

2

机辅助诊断十分有用 [4]

1.3 设计思路

结合医学方面的知识,研究了一种有关医学方面词典构建方法,搭建医学文本语料

库,从医学文本语料库中获取有效的医学术语。在已有中文分词方法基础上,对医学文

本语料库进行分解、标记,并识别医学新词、分辨医学术语歧义,进一步提高面向医学

方面的中文分词精度。

使用 NLP 方法对文本数据进行文本预处理、文本分析、文本表示,搭建 TensorFlow

框架,建立 TextRNN 网络模型和 TextCNN 网络模型,研究模型对电子病历的结构化分

析,提取电子病历中的有效信息进行分类,得到胃癌的诊疗结果 [5] ,帮助医生的辅助诊

疗。

研究 NLP 方法进行文本预处理、文本分析、文本表示,对电子病历文本精确有效

的分词切分和词性标记,分别从病程发展和时间轴角度,研究电子病历文本的结构化建

模,研究电子病历中病历文本的时间表述规则,结合中文语义分析方法,从电子病历文

本中抽取出基于时间的患者疾病分类模型,达到基于规则的电子病历的结构化分析。

1.4 论文结构

本课题结合信息化技术的发展现状,利用深度学习技术,对电子病历进行中文文本

分类识别,设计和实现了基于 NLP 方法实现胃癌文本分类识别,以下是本文的具体内

容:

第一章,绪论。主要介绍本次设计的开发背景以及开发目的、其次分析了文本分类

识别技术的国内外当前研究现状,从而为下一张介绍所用到的核心技术和理论做铺垫,

在结尾部分还对本次开发的设计思路和本论文的结构做阐述。

第二章,核心技术与理论。介绍本文中所用到的主要技术以及理论,包括中文文本

数据预处理、中文分词、去除停用词,双向长短期记忆网络模型的简单介绍, TextRNN

模型的简单介绍, TextCNN 模型的基本理论和结构。

第三章,基于 NLP 方法实现胃癌文本分类识别的概要设计和详细设计。介绍了本

次实验所做的工作,搭建分类模型所需环境和软件以及模型搭建的过程。

北方民族大学本科毕业论文 ( 设计 )

3

第四章,基于 NLP 方法实现胃癌文本分类识别的实现和测试。简单介绍了本次实

验的硬件环境、软件环境以及模型参数的确立。并对实验结果进行对比和分析,得到结

论。

第五章,总结。对本次实验的重难点问题的解决方法进行了具体描述,并对该实验

今后的发展进行展望。

北方民族大学本科毕业论文 ( 设计 )

4

第 2 章 核心技术与理论

在本课题中,需要构建两个模型进行电子病历的识别,据了解和分析,本文采用

TextRNN 模型和 TextCNN 算法模型。使用这两个模型将电子病历中文文本中的专业术

语进行词语拆分和词性标注,通过对电子病历中文文本进行结构化建模研究,对电子病

历中病历文本的时间表述规则进行研究,结合语义分析技术,从文本中抽象出基于时间

的患者疾病发展模型,实现基于规则的电子病历的结构化分析。

2.1 文本预处理

2.1.1 中文分词

中文分词 [6] 是进行中文文本分类任务的不可缺少的步骤,是通过特定的方法,把一

段文字序列切分开来,由句子转变为词,得到长度不一的文字序列。中文分词和英文分

词存在很大的差异,英文文字序列中的词与词之间有空格作为分隔符,中文文字序列的

划界,只有单个的字、句、段落来划定。如果进行研究时依据单个字分拆、独句分拆或

按照段落分拆进行文本分析,从中可以得到的有用价值是十分有限的。所以就需要运用

一些特别的方法,对中文文本中的文字序列进行切分。因为中文文本中没有像英文文本

中自然生成的空格做为分隔符。所以把中文文本切分成词语或者单个字比把英文文本切

分成词语或者单个字的难度更大,工程更复杂。

2.1.2 中文分词技术

中文分词 [7] 技术是由汉字的特点决定的,中文文本中的句子或者段落之间没有分隔

符,需要利用一些特殊的方法对句子或者段落进行分割。以下是几种常见的中文分词技

术:

1. 字符串匹配法

字符串匹配法也被称为基于词典的分词方法,用某种规则把中文文本中的词、句、

段落切分成字符串,并把这些字词和构建的中文词典进行匹配, 如果成功匹配,可认

为此字符串是一个字或词,假如匹配不成功,则再次切分中文文本中的词、句、段落,

并继续和中文词典进行匹配。按照文本切分方向的不同,能够把此方法再次细分为正向

北方民族大学本科毕业论文 ( 设计 )

5

匹配法和逆向匹配法。也可把两种方法结合起来,称作双向匹配法。

2. 基于理解的分词方法

基于理解的分词方法也被称作人工智能法,这个方法让计算机像人类一样理解词语

或句子的语义,达到计算机识别中文文本中词语或句子并进行切分的目的。此方法的核

心思想是让计算机用人类的思维模式进行分词处理。该方法不仅能从结构和功能上用传

统的方法对词语或句子进行分析,还可在分词的同时对中文文本中的词语句子进行句法、

语义分析,运用句法知识和语法知识来进行分析处理歧义现象。这种方法想要完全实现

十分困难,因为计算机在模拟人类思想推理的过程中,词汇量非常大,语句结构也十分

笼统和复杂,一个词在不同的语境中词义也不相同。所以这个分词方法还在探索中。

3. 基于统计的分词方法

该方法统计在分词过程中中文文本内相邻字出现的次数,若有两个字同时相邻出现

次数很多,那么这两个字越有组成词的可能。此方法不需要构建完整的词典,将词语、

句子或段落全切分为待处理文本的同时通过统计相邻的字出现的次数,次数出现更多的

相邻两个字更可能组成词语。此方法是根据统计学理论而得到的。相对于其他方法而言,

该方法可辨别出更多的词语,还有许多网络用语。

2.1.3 去除停用词

在实验进行之前,需要对中文文本数据进行数据清洗,若将中文文本分词后的所有

词语全都作为特征项进行使用,不仅加大计算量,还会对文本分类效果产生很大的影响。

中文文本经过中文分词后,会有许多高频出现的词语,但是这些词语对中文文本分类特

征无用,例如 等等 等等,还有对特征提取没有帮助的标点符号,这类词

语和符号就是中文文本分词后的停用词。可在中文文本分词后,建立需要删除的字、词

语和标点符号的停用词表,在遍历分词结果的过程中把停用词表中的词删除掉,得到更

加准确的分词结果,进行文本分类。

2.1.4 字向量

字向量表示是自然语言处理 [8] 的基础,在中文语义里面,每个字符都有其特定的含

义,单个字符表示的中文语义应是最小表示单位,字和词两个单位量都是可以进行中文

文本分类的向量表示,描述句子构造和句子语义的相关信息,在中文文本中,将词语和

总页数:30
提示:下载前请核对题目。客服微信:diandahome
下载的文档都包含参考答案
特别声明:以上内容(如有图片或文件亦包括在内)为“电大之家”用户上传并发布,仅代表该用户观点,本平台仅提供信息发布。