flask部署深度学习模型 - peacocks

作为著名Python web框架之一的Flask,具有简单轻量、灵活、扩展丰富且上手难度低的特点,因此成为了机器学习和深度学习模型上线跑定时任务,提供API的首选框架。众所周知,Flask默认不支持非阻塞IO的,当请求A还未完成时候,请求B需要等待请求A完成后才能被处理,所以效率非常低。但是线上任务...

关键词提取之TextRank - peacocks

1、背景关键词提取我们前面介绍了TF-IDF和他的改进版TF_IWF,关于关键词提取简介和应用可以参考以上前篇文章。在前面我们讲过网页排序算法PageRank的原理,将PageRank用到文本的关键词提取就是TextRank了。2、原理相比于PageRank,如下图所示在TextRank中,无非是将...

网页排序之PageRank - peacocks

1、背景在google创立初期,搜索网页排序使用的核心算法就是PageRank,成就其成为全球最大的搜索引擎。2、PageRank搜索引擎用户希望在查询过后,快速准确的找到用户需要的网页,因此需要行之有效的网页排名算法。谷歌的两位创始人的佩奇和布林,借鉴了学术界评判学术论文重要性的通用方法 — “论...

TF-IWF - peacocks

1、背景在上篇特征加权之TFIDF 中,我们提到了IDF的固有缺点,即\(IDF\) 的简单结构并不能使提取的关键词,十分有效地反映单词的重要程度和特征词的分布情况,使其无法很好地完成对权值调整的功能。尤其是在同类语料库中,这一方法有很大弊端,往往一些同类文本的关键词被掩盖。例如:语料库 \(D\)...

TF-IDF - peacocks

1、背景TF-IDF是信息检索和文本挖掘中常用的特征加权技术,同样常用于文本主题提取和分词加权等场景。TF-IDF是一种完全基于统计的方法,其核心思想是假设字词的重要性与其在某篇文章中出现的比例成正比,与其在其他文章中出现的比例成反比。2、TF-IDF怎么理解呢?某个词在一篇文章中反复出现有两种情况...

EM算法 - peacocks

1、背景2、理论2.1、Jensen不等式优化理论中,假设 \(f\) 是定义域为实数的函数,如果对于所有的实数 \(x\) ,且二阶导数\(f''(x)\geq 0\) ,则 \(f\) 是凸函数。当 \(x\) 是向量时,如果其Hessian矩阵H是半正定的 (\(H \geq 0\)),那么 ...