Please wait a minute...
Advanced Search
现代图书情报技术  2011, Vol. 27 Issue (4): 29-34     https://doi.org/10.11925/infotech.1003-3513.2011.04.05
  知识组织与知识管理 本期目录 | 过刊浏览 | 高级检索 |
基于领域中文文本的术语抽取方法研究
谷俊1,2, 王昊1
1. 南京大学信息管理系 南京 210093;
2. 上海宝山钢铁股份有限公司 上海 201900
Study on Term Extraction on the Basis of Chinese Domain Texts
Gu Jun1,2, Wang Hao1
1. Department of Information Management, Nanjing University, Nanjing 210093,China;
2. Baoshan Iron and Steel Company Ltd., Shanghai 201900,China
全文: PDF (541 KB)   HTML  
输出: BibTeX | EndNote (RIS)      
摘要 在ICTCLAS词典分词的基础上,利用串频最大匹配算法从中文专利文本中抽取候选术语,再利用TF-IDF算法得到相关特征项的权重,经过筛选后得到最终概念术语。最后,抽取部分样本数据进行实验,并对结果进行分析。
服务
把本文推荐给朋友
加入引用管理器
E-mail Alert
RSS
作者相关文章
谷俊
王昊
关键词 本体概念抽取串频最大匹配TF-IDF中文分词    
Abstract:Based on the ICTCLAS dictionary segmentation, this paper proposes a method that extracts relevant concept terminology from the Chinese patent texts by maximum matching and frequency statistics, then computes the weights of the items by TF-IDF and gets the final concept terminology. Finally, it analyzes the results with the sample data extraction experiments.
Key wordsOntology    Concept extraction    Maximum matching and frequency statistics    TF-IDF    Chinese word segmentation
收稿日期: 2011-02-10      出版日期: 2011-06-11
: 

TP391

 
引用本文:   
谷俊, 王昊. 基于领域中文文本的术语抽取方法研究[J]. 现代图书情报技术, 2011, 27(4): 29-34.
Gu Jun, Wang Hao. Study on Term Extraction on the Basis of Chinese Domain Texts. New Technology of Library and Information Service, 2011, 27(4): 29-34.
链接本文:  
https://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/10.11925/infotech.1003-3513.2011.04.05      或      https://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/Y2011/V27/I4/29
[1] Berners-Lee T, Hendler J, Lassila O. The Semantic Web[J]. Scientific American, 2001,284(5): 28-37.

[2] Ying D, Schubea F. Ontology Research and Development. Part I: A Review of Ontology Generation [J]. Journal of Information Science, 2002, 28(2):123-136.

[3] Turney P D. Learning to Extract Key Phrases from Text[R]. National Research Council, Canada, NRC Technical Report ERB21057, 1999.

[4] Witten I H, Paynter G W, Frank E,et al. KEA: Practical Automatic Keyphrase Extraction[C]. In: Proceedings of the 4th ACM Conference on Digital Libraries, Berkeley, California, US.1999: 254-256.

[5] 姜韶华, 党延忠. 基于长度递减与串频统计的文本切分算法[J]. 情报学报,2006, 25(1): 74-79.

[6] 刘桃, 刘秉权, 徐志明,等. 领域术语自动抽取及其在文本分类中的应用[J]. 电子学报,2007, 35(2): 328-332.

[7] 何婷婷, 张小鹏. 特定领域本体自动构造方法[J]. 计算机工程,2007, 33(22): 235-237.

[8] 王昊,邓三鸿. HMM和CRFs在信息抽取应用中的比较研究[J]. 现代图书情报技术,2007(12): 57-63.

[9] 刘豹,张桂平,蔡东风. 基于统计和规则相结合的科技术语自动抽取研究[J]. 计算机工程与应用, 2008, 44(23): 147-150.

[10] 岑咏华, 韩哲, 季培培. 基于隐马尔科夫模型的中文术语识别研究[J]. 现代图书情报技术,2008(12):54-58.

[11] 温春, 王晓斌, 石昭祥. 中文领域本体学习中术语的自动抽取[J]. 计算机应用研究,2009,27(7): 2652-2655.

[12] 高文利. 基于本体的军备情报抽取系统的设计与实现[J]. 现代图书情报技术,2010(1): 83-87.

[13] 周浪,史树敏,冯冲,等. 基于多策略融合的中文术语抽取方法[J]. 情报学报,2010,29(3): 460-467.

[14] 国内外三种专利申请受理状况总累计表[EB/OL]. [2010-12-22].http://www.sipo.gov.cn/sipo2008/ghfzs/zltj/zljb/201101/t20110110_562647.html.

[15] ICTCLAS特色[EB/OL]. [2011-01-10]. http://ictclas.org/ictclas_feature.html.
[1] 盛姝, 黄奇, 杨洋, 解绮雯, 秦新国. HL7 FHIR框架下中国医疗领域信息交换研究与解决方案[J]. 数据分析与知识发现, 2021, 5(11): 13-28.
[2] 曾桢,李纲,毛进,陈璟浩. 区域公共安全数据治理与业务领域本体研究*[J]. 数据分析与知识发现, 2020, 4(9): 41-55.
[3] 唐晓波,高和璇. 基于关键词词向量特征扩展的健康问句分类研究 *[J]. 数据分析与知识发现, 2020, 4(7): 66-75.
[4] 唐琳,郭崇慧,陈静锋. 中文分词技术研究综述*[J]. 数据分析与知识发现, 2020, 4(2/3): 1-17.
[5] 彭郴,吕学强,孙宁,张乐,姜肇财,宋黎. 基于CNN的消费品缺陷领域词典构建方法研究*[J]. 数据分析与知识发现, 2020, 4(11): 112-120.
[6] 强韶华,罗云鹿,李玉鹏,吴鹏. 基于RBR和CBR的金融事件本体推理研究 *[J]. 数据分析与知识发现, 2019, 3(8): 94-104.
[7] 尤众喜,华薇娜,潘雪莲. 中文分词器对图书评论和情感词典匹配程度的影响 *[J]. 数据分析与知识发现, 2019, 3(7): 23-33.
[8] 邓诗琦,洪亮. 面向智能应用的领域本体构建研究*——以反电话诈骗领域为例[J]. 数据分析与知识发现, 2019, 3(7): 73-84.
[9] 高广尚. 用户画像构建方法研究综述*[J]. 数据分析与知识发现, 2019, 3(3): 25-35.
[10] 王颖,钱力,谢靖,常志军,孔贝贝. 科技大数据知识图谱构建模型与方法研究*[J]. 数据分析与知识发现, 2019, 3(1): 15-26.
[11] 何有世, 何述芳. 基于领域本体的产品网络口碑信息多层次细粒度情感挖掘*[J]. 数据分析与知识发现, 2018, 2(8): 60-68.
[12] 唐慧慧, 王昊, 张紫玄, 王雪颖. 基于汉字标注的中文历史事件名抽取研究*[J]. 数据分析与知识发现, 2018, 2(7): 89-100.
[13] 庞贝贝, 苟娟琼, 穆文歆. 面向高校学生深度辅导领域的主题建模和主题上下位关系识别研究*[J]. 数据分析与知识发现, 2018, 2(6): 92-101.
[14] 冯国明, 张晓冬, 刘素辉. 基于自主学习的专业领域文本DBLC分词模型[J]. 数据分析与知识发现, 2018, 2(5): 40-47.
[15] 丁晟春, 刘梦露, 傅柱. 概念设计中基于知识流的多维设计知识统一建模技术研究*[J]. 数据分析与知识发现, 2018, 2(2): 11-19.
Viewed
Full text


Abstract

Cited

  Shared   
  Discussed   
版权所有 © 2015 《数据分析与知识发现》编辑部
地址:北京市海淀区中关村北四环西路33号 邮编:100190
电话/传真:(010)82626611-6626,82624938
E-mail:jishu@mail.las.ac.cn