注册 登录  
 加关注
   显示下一条  |  关闭
温馨提示!由于新浪微博认证机制调整,您的新浪微博帐号绑定已过期,请重新绑定!立即重新绑定新浪微博》  |  关闭

Explore in Data

Just enjoy it.

 
 
 

日志

 
 

使用Python 进行文本挖掘  

2013-11-15 16:03:59|  分类: Python 文本挖掘 |  标签: |举报 |字号 订阅

  下载LOFTER 我的照片书  |
毕业论文需要对网上的商品评论进行分析。其主要目的是从中找出有用的评论。
实现步骤如下:
1. 从评论文本中抽取文本内容特征(句子数、词语数、情感倾向等)
2. 对评论进行标注,标注为有用和无用
3. 把这些特征代入机器学习的分类算法中,构建分类器
4. 使用分类器把评论分为有用和无用,验证分类器效果

Python 是我主要使用的编程语言,因为其容易上手,处理数据简单快捷,有丰富完善的文本分析库。之后的日志将会逐一介绍整个文本挖掘流程中使用到的Python 库及方法,还有我走过的弯路。此处先做一个总结:
数据存储于读取数据:xlrd
中文分词及词性标注:jieba
分句:自己编写,可参见该日志使用 Python 实现中文分句
文本相似度计算:gensim
自然语言处理:nltk
情感分析(词典方法):自己编写词典匹配
情感分类(机器学习方法):nltk + scikit-learn
机器学习:scikit-learn

由于刚学Python 进行编程,程序必然有各种问题,在以后更深入学习之后将会持续修改。现在所使用的都是Python 和这些库最基本的功能,力求完成整个项目,而非最佳和最优。

  评论这张
 
阅读(4044)| 评论(5)
推荐 转载

历史上的今天

评论

<#--最新日志,群博日志--> <#--推荐日志--> <#--引用记录--> <#--博主推荐--> <#--随机阅读--> <#--首页推荐--> <#--历史上的今天--> <#--被推荐日志--> <#--上一篇,下一篇--> <#-- 热度 --> <#-- 网易新闻广告 --> <#--右边模块结构--> <#--评论模块结构--> <#--引用模块结构--> <#--博主发起的投票-->
 
 
 
 
 
 
 
 
 
 
 
 
 
 

页脚

网易公司版权所有 ©1997-2017