显示下一条  |  关闭
温馨提示!由于新浪微博认证机制调整,您的新浪微博帐号绑定已过期,请重新绑定!立即重新绑定新浪微博》  |  关闭

Explore in Data

Just enjoy it.

 
 
 
 
 
 

Python 文本挖掘:简单的自然语言统计

2013-11-20 20:48:19 阅读3791 评论2 202013/11 Nov20

主要使用NLTK (Natural Language Toolkit)程序包。

其实,之前在用机器学习方法分析情感的时候就已经使用了简单的自然语言处理及统计。比如把分词后的文本变为双词搭配(或者叫双词序列),找出语料中出现频率最高的词,使用一定的统计方法找出信息量最丰富的词。回顾一下。
1. 把文本变成双词搭配或三词搭配

import nltk


example_1 = ['I','am','a','big','apple','.']

print nltk.bigrams(example_1)

>> [('I', 'am'), ('am', 'a'), ('a', 'big'), ('big', 'apple'), ('apple', '.')]

print nltk.trigrams(example)

作者  | 2013-11-20 20:48:19 | 阅读(3791) |评论(2) | 阅读全文>>

为了不用每次分类之前都要训练一次数据,所以可以在用开发集找出最佳分类器后,把最佳分类器存储下来以便以后使用。然后再使用这个分类器对文本进行分类。

一、使用测试集测试分类器的最终效果

word_scores = create_word_bigram_scores() #使用词和双词搭配作为特征

best_words = find_best_words(word_scores, 1500) #特征维度1500

posFeatures = pos_features(best_word_features)
negFeatures = neg_features(best_word_features)

trainSet = posFeatures[:500] + negFeatures[:500] #使用了更多数据

作者  | 2013-11-20 11:25:08 | 阅读(4539) |评论(24) | 阅读全文>>

在把文本转化为特征表示,并且分割为开发集和测试集之后,我们就需要针对开发集进行情感分类器的开发。测试集就放在一边暂时不管。

开发集分为训练集(Training Set)和开发测试集(Dev-Test Set)。训练集用于训练分类器,而开发测试集用于检验分类器的准确度。
为了检验分类器准确度,必须对比“分类器的分类结果”和“人工标注的正确结果”之间的差异。

所以第一步,是要把开发测试集中,人工标注的标签和数据分割开来。第二步是使用训练集训练分类器;第三步是用分类器对开发测试集里面的数据进行分类,给出分类预测的标签;第四步是对比分类标签和人工标注的差异,计算出准确度。

一、分割人工标注的标签和数据

作者  | 2013-11-20 10:31:31 | 阅读(5413) |评论(9) | 阅读全文>>

第一步,载入数据。
要做情感分析,首要的是要有数据。
数据是人工已经标注好的文本,有一部分积极的文本,一部分是消极的文本。
文本是已经分词去停用词的商品评论,形式大致如下:[[word11, word12, ... word1n], [word21, word22, ... , word2n], ... , [wordn1, wordn2, ... , wordnn]]
这是一个多维数组,每一维是一条评论,每条评论是已经又该评论的分词组成。

作者  | 2013-11-20 1:51:02 | 阅读(5170) |评论(1) | 阅读全文>>

用Python 进行机器学习及情感分析,需要用到两个主要的程序包:nltk 和 scikit-learn
nltk 主要负责处理特征提取(双词或多词搭配需要使用nltk 来做)和特征选择(需要nltk 提供的统计方法)。
scikit-learn 主要负责分类算法,评价分类效果,进行分类等任务。

接下来会有四篇文章按照以下步骤来实现机器学习的情感分析。
3. 

作者  | 2013-11-20 1:49:43 | 阅读(7416) |评论(50) | 阅读全文>>

查看所有日志>>

 
 
 
 
 
 
 
 

广东省 广州市 天蝎座

 发消息  写留言

 
博客等级加载中...
今日访问加载中...
总访问量加载中...
最后登录加载中...
 
 
 
 
 
 
 
心情随笔列表加载中...
 
 
 
 
 
 
 
博友列表加载中...
 
 
 
 
 

发现好博客

 
 
列表加载中...
 
 
 
 
 
 
 
列表加载中...
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

页脚

网易公司版权所有 ©1997-2016

注册 登录  
 加关注