相关文章
词典构造方法之LDA主题模型
词典构造方法之LDA主题模型
主题模型LDA原理理解
LDA是一种非监督学习技术,可以用来识别大规模文档集(document collection)或语料库(corpus)中潜藏的主题信息。它采用了词袋(bag of words)的方法,这种方法将每一篇文档视为一个词频向量,从而将文本信息转化为了易于…
建站知识
2024/12/18 22:46:37
基于词典的细粒度情感分析
1 细粒度情感分析 传统的情感分析大多是针对句子级的,即某条评论或某句话为积极或消极的概率。而往往一句话中包含着多个描述点,即方面级的述评,这时用一个模糊的概率或数字去评价整段文字或整句话势必是不准确和不公允的。如“我的男朋友性格…
建站知识
2024/12/19 19:59:44
wordexpansion包 | 新增词向量法构建领域词典
2021暑期 | 结构模型、Stata实证前沿、Python数据挖掘暑假工作坊 腾讯课堂 | Python网络爬虫与文本分析 一、项目意义 情感分析大多是基于情感词典对文本数据进行分析,所以情感词典好坏、是否完备充足是文本分析的关键。 目前常用的词典都是基于形容词,有…
建站知识
2024/12/26 14:01:47
【NLP学习笔记】用jieba实现高频词提取
高频词
高频词提取(TF,Term Frequency),高频词指在文档中出现频率较高并且有用的词,关键点有两个:出现频率高、有用。
第一步
定义获取语料的函数
def getContent(path,encodinggbk):with open(path, r, encodingencoding, er…
建站知识
2024/12/28 8:45:03
ES的同义词、扩展词、停止词热更新方案
最近要实现的一些功能需要让ES的同义词、扩展词、停止词能够热更新,达到让搜索更精确的目的。在网上看了很多相关的博客,现在热更新的方案已经实施成功,现在来总结一下。
ES版本:5.5.2
IK分词器版本:5.5.2
扩展词、…
建站知识
2024/12/28 8:40:41
如何利用情感词典做中文文本的情感分析?
如何利用情感词典做中文文本的情感分析?
这是本学期在大数据哲学与社会科学实验室做的第四次分享了。
第一次分享的是:如何利用“wordcloudjieba”制作中文词云?
第二次分享的是:如何爬取知乎中问题的回答以及评论的数据&#…
建站知识
2024/12/28 8:42:59
企业架构皇冠上的明珠:TOGAF
第一次接触TOGAF是在几年前,一次应聘的时候,在笔者上个东家的JD里面有一个描述,“拥有TOGAF相关的知识和认证将优先考虑”,从此便关注了TOGAF并在不断的学习TOGAF,而且把TOGAF的一些理念和理论一直学以致用。那么TOGAF…
建站知识
2024/12/28 9:03:22
百度移动刷下拉词工具:快速出下拉词的技术分析
都2024年了,你还在做SEO百度下拉?答案当然是肯定的,虽然百度的搜索流量不如从前,但移动端的流量依然是巨大的!除了百度SEO快排以外,下拉也是一大流量入口,尤其是在移动端搜索的流量越来越大时&a…
建站知识
2024/12/28 8:59:05