建议2-5分钟/篇,防封ip,php5.5-7.0,原创正版,售后保障,盗版无更,防止被割!

关键词文章生成器 厉庄镇关键词自动生成文章

编辑整理:整理来源:爱奇艺,浏览量:130,时间:2022-06-14 17:49:02

关键词文章生成器,关键词自动生成文章,关键字文章生成器

写在前面

如何给文章取一个标题,要贴近文章主题那种?如何给文章提取关键词?即使你能一目十行,过目不忘,也比不上机器“一幕十篇”。接下来介绍一个python项目,经过笔者的改造后,可以方便学习和使用,它能很好、很快地提取文章关键词。


关键词文章生成器

先喝杯咖啡,让我们开始python之旅

环境配置

python版本: 3.6.0

编辑器: pycharm

项目所需要的环境安装包

pip install jieba pip install bs4

代码目录结构:


关键词文章生成器

第一步:导入相关的python包

# encoding:utf-8 import jieba import jieba.analyse import jieba.posseg as pseg from bs4 import BeautifulSoup

jieba: 这是一个处理中文分词工具包。其实它并不是只有分词这一个功能,而是一个开源框架,提供了很多在分词之上的算法,如关键词提取、词性标注等。可以说是做人工智能一个必备的python包。

bs4: 它的作用是能够快速方便简单的提取网页中指定的内容,给我一个网页字符串,然后使用它的接口将网页字符串生成一个对象,然后通过这个对象的方法来提取数据。爬虫工程师会经常用到这个包,这里作为一个数据清洗的包使用。


关键词文章生成器

第二步:参数配置类

class CONF: stopwords_path = './data/stopwords.txt' mydict_path = './data/mydict.txt' top_n = 10 # 只取10个关键词

参数配置类: 文件路径、模型存放路径、模型参数统一放在一个类中。值得注意的是,实际项目开发的时候,是用后缀名为config 文本文件存放,不会直接写在代码里。这里为了演示方便,就写在一起,也方便运行。这块代码放在代码文件的开头也方便查看和修改。stopwords_path 是一个停用词库的相对路径。mydict_path 是一个词典路径,词典里主要存放一些网络名词和一些 jieba 分词识别不出的新词汇。


关键词文章生成器

第三步:类的初始化

class KeyWordModel: def __init__(self, stopwords_path, mydict_path, top_n): self.stopwords_path = stopwords_path self.mydict_path = mydict_path self.top_n = top_n # 加载停用词 特殊词典 jieba.analyse.set_stop_words(self.stopwords_path) jieba.load_userdict(self.mydict_path) """模型初始化""" @classmethod def initialize(cls, config): stopwords_path = config.stopwords_path mydict_path = config.mydict_path top_n = config.top_n return cls(stopwords_path, mydict_path, top_n)

initialize() 函数和 __init__() 函数 是对象初始化和实例化,其中包括基本参数的赋值、最后返回用户一个对象。这里作为一个类的基本操作,是属于一个通用模板,在大多数项目中,都可以这么去写。为了养成良好的编程习惯,大家可以把这个模板记下来,后续直接套用,修改部分参数就可以了。jieba.analyse.set_stop_words() jieba.load_userdict() 分别是导入停用词和导入自己构建的词汇,这里放在__init__() 函数中,类被实例化的时候,只被调用一次。


关键词文章生成器

第四步: 类的主流程函数

"""获取关键词""" def get_keyword(self, content): text_rank_word = self.__tf_idf_key_word(content) tf_idf_word = self.__textrank_key_word(content) word_list = list(set(text_rank_word).union(set(tf_idf_word))) result = self.__filter_pos_key_word(word_list, content) return result

在写代码的时候,一定要抓住主线,就是代码运行的主流程。因为一个完整可靠的项目,它是有很多细枝末节考虑,很多步骤是要分模块来写。主流程就是把主心干确定好,各个模块的入口确定好。这样开发的时候,思路会比较清晰,不会被细节吸引住。这里主心干只有个函数 get_keyword() 的调用,其中text_rank_word tf_idf_word 分别用textranktfidf算法提取关键词,最后再用词性过滤器__filter_pos_key_word(), 提取名词关键词。


关键词文章生成器

第五步: 提取关键词的三个方法"""TF-IDF 提取top_n个关键词""" def __tf_idf_key_word(self, content): sp = BeautifulSoup(content, "html.parser") tags = jieba.analyse.extract_tags(sp.text, topK=self.top_n) return tags """TextRank 提取top_n个关键词""" def __textrank_key_word(self, content): sp = BeautifulSoup(content, "html.parser") tags = jieba.analyse.textrank(sp.text, topK=self.top_n) return tags """只获取名词""" def __filter_pos_key_word(self, tag_list, content, pos_list=['n', 'nr', 'ns', 'nt', 'nrt']): sp = BeautifulSoup(content, "html.parser") words = pseg.cut(sp.text) list_tmp = [] for w in words: word = w.word if w.flag in pos_list and len(word) > 1 and word not in list_tmp and word in tag_list: list_tmp.appd(word) return list_tm

TF-IDF: 这是一个常用的提取关键词算法,利用文章中词频越高重要性越高、和逆词频(该词在其他文章词频越低越能代表本文章)。

TextRank: 有点像PageRank 算法,感兴趣的朋友可以了解一下,这里不过多介绍有难度的算法。

pseg: 这是一个词性解析器,它能够分析句子中每个词语的属性,例如:名词、动词、形容词等。


关键词文章生成器

第六步: 主函数入口


关键词文章生成器

最后,测试一下

用我之前写的《最近很火的文章自动生成器,python源码公开了(内附python代码)》,来生成随机一篇文章标题为《标题党》的文章,作为程序的输入,运行结果:


关键词文章生成器

关键词: ['标题党', '事实', '缺点', '深思', '角度', '能力', '梦想']

如果有疑问想获取源码, 可以在后台私信我,回复:python关键词。 我把源码发你。最后,感谢大家的阅读,祝大家工作生活愉快!


关键词文章生成器 厉庄镇关键词自动生成文章完!

热搜弹幕:关键词文章生成器,关键词自动生成文章,关键字文章生成器


相关推荐:

关键词文章生成器

关键词文章生成器,关键词文章生成器免费下载,关键词文章生成器下载

作者:整理来源:悟空问答,时间:2022-09-13 04:42,浏览:203


关键词文章生成器

关键词文章生成器,输入关键字文章生成器,关键词自动生成文章

作者:整理来源:百度知道,时间:2022-06-28 08:56,浏览:225


专题推荐:关键词文章生成器


关键词文章生成器,点击查看演示目录:http://www.wskqs.cn/shisange/


全员营销软文文案| 衢州衢江区插花培训师| 短视频品牌运营策划方案 短视频品牌运营策划方案| 八抓鱼采集器可以进行异步加载的网页抓取吗| 浅谈企业软文营销的优势 浅谈企业软文营销的优势和不足| 孕婴护肤营销朋友圈软文-孕婴护肤营销朋友圈软文怎么写| 白沙镇优秀软文营销具备的八大要素-优秀软文营销具备的八大要素是什么| 余姚兰江街道网络的推广代运营-网络的推广代运营怎么做| seo优化之教你如何写软文标题 广安石滓镇如何做好seo标题| 软文广告营销报价|
投稿| 1024(定向养站+文章采集+ai聚合)目录程序| 1888(定向养站+文章采集+ai聚合)泛目录版| 双标题| 挖关键词| 违禁词删除| 免费配图| 自助解答| 站长变现| 今日头条| 问答聚合| 818(今日头条资讯聚合演示)| 1024(采集聚合+ai聚合)| 1024 (AI定向养站目录程序)| 淘客文章带货| 伪原创| 定向养站目录程序| ai写作目录程序

苏ICP备2021004623号 (免责声明:本网站部分内容由用户自行上传,如权利人发现存在侵犯其权益情形,请及时与本站联系。)(版权所有:昆山市一路火信息技术服务中心) 友情导航 网络警察提醒您 中国互联网辟谣平台 中国文明网传播文明 中国互联网举报中心