首页天道酬勤python过滤敏感字符,python敏感词过滤代码

python过滤敏感字符,python敏感词过滤代码

张世龙 05-06 08:36 15次浏览

码说明

1、敏感词库维护更新脚本:

reload_dict.php。 提供将词典库自动更新为三叉树文件的过程

PHP

? php//存储器ini_set(memory_limit ),) 128M ); //装入敏感单词词典库$Handle=fopen('dict.txt ',' r ' ); //空的trie-tree-filter $ restrie=trie _ filter _ new (while (! feof($handle ) ) $item=trim ) fgets ) $handle ); if(empty($item ) ) { continue; //敏感词语一个接一个trie-tree trie _ filter _ store ($ restrie,$item ); 三叉树文件$ black word _ tree=' black word.tree '; trie_filter_save($restrie,$blackword_tree );2、trie树对象获取工具类

FilterHelper.php检索三叉树对象,避免重复生成三叉树对象,并确保tree文件和敏感词典的同步更新

PHP

? php/** *过滤器助手* * getResTrie提供三树对象; * getFilterWords是过滤后的字符串* * @ authorw.y.p (Wang yupeng @ Jiayuan.com)/classfilterhelper (/三树对象私有/** *防止初始化*/private function _ _ construct ({ }/* * *克隆对象*/private function __clone ) }{}/**生成的trie @ return null */staticpublicfunctiongetrestrie ($ tree _ file,$new_mtime ) if ) is (if ) ) $new_mtime!=self :3360 $ _ mtime (|is _ null (self :3360 $ _ restrie ) ) self 33603360 $ _ restrie=trie _ filter self 33336536536536565306; //输出词典文件重载时间的echodate(y-m-dh:I:s ).((\tdictionary reload success! \n '; } return self:$_resTrie; } /** *从原始字符串中提取过滤出的敏感词* * @param $str原始字符串* @param $res 1-3意味着位置1到3个字符的长度* @ return array */staticpublicfunion if (! in_array($word,$result ) ) { $result[]=$word; } }返回$ result; }} 3、对外提供过滤HTTP访问接口

使用filter.php、swool向外部提交过滤器接口访问

PHP

? 设置php//脚本的最大执行内存,根据词典的大小设置ini_set(memory_limit )、() 512M ); //时区date _ default _ time zone _ set (Asia/Shanghai ); //助手文件require_once(filterHelper.PHP ); //http服务绑定的ip和端口$ serv=newswoole _ http _ server (' 182.92.177.16 ',9502 ); /** *处理请求*/$serv-on('request ',function ) $request,$response )//get接收请求参数) content=isset $ requesest $request-get['content']: '; $result=' '; if (! empty($content ) )//词典树的文件路径。 默认情况下,$tree_file='blackword.tree '; //清除文件状态缓存clearstatcache (; //获取请求时词典树文件的修改时间$ new _ mtime=filemtime ($ tree _ file ); //获取最新的trie-tree对象$ restrie=filter helper 33603360 getrestrie ($ tree _ file,$new_mtime ); 执行//过滤$ arr ret=trie _ filter _ search _ all ($ restrie,$content ); //提取过滤的敏感词语$ a _ data=filter helper 33603360 getfilter words ($ content,$arrRet ); $result=JSON_encode($a_data ); $response-cookie('user ',' W.Y.P ' ),用于定义http服务信息和响应处理结果; $response-header () x-server ()、) w.y.pwe bserver (UNIX ) (Red-Hat/Linux ) ); $response-header('content-type )、' content-type :文本/html; charset=utf-8 '; $response-end($result; ); $serv-start (;

如何设计高效的组织结构,设计一个高效的算法