假设我正在根据各种标准从twitter收集推文,并将这些推文存储在本地mysql数据库中.我希望能够使用计算机热门话题,比如twitter,可以是1-3个单词的长度.

是否有可能编写一个脚本来做这样的PHP和mysql?

我已经找到了在你能够获得术语计数后如何计算哪些术语“热”的回答,但我坚持第一部分.如何将数据存储在数据库中,如何计算数据库中1-3个字长的术语频率?

最佳答案
来自我的热门话题收据:
1.获取推文
2.将每个推文按空格分成n-gram(如果你想要3个字长,最多3克)数组
3.从url,@ username,常用词和垃圾字符中过滤掉每个数组
4.统计所有独特的关键字/短语频率
5.静音一些垃圾词/短语

是的,你可以在php& mysql;)

dawei

【声明】:淮南站长网内容转载自互联网,其相关言论仅代表作者个人观点绝非权威,不代表本站立场。如您发现内容存在版权问题,请提交相关链接至邮箱:bqsm@foxmail.com,我们将及时予以处理。