注册 登录  
 加关注
   显示下一条  |  关闭
温馨提示!由于新浪微博认证机制调整,您的新浪微博帐号绑定已过期,请重新绑定!立即重新绑定新浪微博》  |  关闭

Explore in Data

Just enjoy it.

 
 
 

日志

 
 

Python 文本挖掘:所需掌握的一些Python 编程技巧  

2013-11-18 22:17:39|  分类: Python 文本挖掘 |  标签: |举报 |字号 订阅

  下载LOFTER 我的照片书  |
pickle
pickle 用于存储各种东西。需要存储各种数据、分类模型、词库、语料库的时候使用pickle 非常方便。

list comprehension (include lambda function)
列表推导,既一种列表经过某些条件变换(其中包括一些lambda函数的知识)之后成为另一种列表。在自然语言处理时被比较广泛的使用。

itertools, yield
高效的对内存友好的循环处理方式。不把整个数组存在内存中,每次循环只读取一个数。速度上会提高。

numpy
把多维数组转成numpy的矩阵形式,处理比较方便。而且numpy有多种数学函数,用得很顺手。

read and write txt
把数据存储在txt 文档中,就需要了解txt 文档的读取和存储操作。

print format
打印结构化。目的有二,第一是便于观看,第二是由于最后处理的时候需要分行分隔的数据,便于处理。

 for loop (mainly to a multidimensional list)
for 循环是编程最基本的内容了。而在自然语言处理中,最重要的是要用for 循环遍历列表,特别是多维列表。这样才能处理里面的每一个元素(可能是词、可能是句子、可能是词性标注)。

dict type
字典类型是Python 中灵活而强大的数据类型,而且在自然语言处理中里很常用,特别是使用nltk 提取文本特征的时候,字典类型是必须的。
  评论这张
 
阅读(2337)| 评论(0)
推荐 转载

历史上的今天

评论

<#--最新日志,群博日志--> <#--推荐日志--> <#--引用记录--> <#--博主推荐--> <#--随机阅读--> <#--首页推荐--> <#--历史上的今天--> <#--被推荐日志--> <#--上一篇,下一篇--> <#-- 热度 --> <#-- 网易新闻广告 --> <#--右边模块结构--> <#--评论模块结构--> <#--引用模块结构--> <#--博主发起的投票-->
 
 
 
 
 
 
 
 
 
 
 
 
 
 

页脚

网易公司版权所有 ©1997-2017