网站访问统计模块研究 - 物流园资讯移动站

网站访问统计模块研究

2024-11-10 15:06

网站统计所需要的基础数据：

网站访问统计模块研究

示例 URL：cnzz stat.htm?id=527226&agt=mozilla/5.0%20%28×11%3B%20u%3B%20linux%20i686%3B%20en-us%3B%20rv%3A1.8.1.6%29%20gecko/20070723%20iceweasel/2.0.0.6%20%28debian-2.0.0.6-0etch1+lenny1%29&r=&aN=Netscape&lg=undefined&OS=Linux%20i686&aV=5.0%20%28X11%3B%20en-US%29&ntime=0.47376000%201189490530&repeatip=0&rtime=14&cnzz_eid=25620072-http%3A//www.muzone.cn/html/bbs.html&showp=1400×1050 从此URL可以得到下面几个字段： id : 站点ID agt : 浏览器 ref : referrer 引用页URL aN : appName 浏览器应用程序名称 lang : language 浏览器的语言 OS : 操作系统名称 aV : 浏览器应用程序版本号 showp : 用户屏幕分变率格式：1024×768 …………… 上面这些可以直接用js从用户的客户端上获取的，这些直接传递到统计服务器即可。 repeatip: ntime: rtime: 参数传递流程： explorer stat js stat serv database id 从嵌入到站点的URL获取从stat js 生成的URL获取 agt 生成获取获取，统计数据源，并临时存储永久存储 url 下面的统计结构体处理步骤： typedef struct { struct hash_table *pages; // 请求页面 struct hash_table *visitors; // 最近访客 struct hash_table *referers; // 来源 struct hash_table *screenres; // screen struct hash_table *screendepth; // 色彩 struct hash_table *flashversions; // flash版本 struct hash_table *javaenabled; // 是否安装 java struct hash_table *os; // os struct hash_table *browsers; // browsers struct hash_table *agents; // user agent struct hash_table *returnvisits; // 回访 struct hash_table *entries; // 入口 struct hash_table *locations; // 区域 struct hash_table *pageviews; // 访问页面数 struct hash_table *searchengines; // 搜索引擎 struct hash_table *keywords; // 关键词 int pv; // total pv int uv; // total uv } counter_t; pages , referers , screenres , screendept , flashversions , javaenabled , os 这几个处理都差不多，处理：从统计URL的参数中取出相应的值，累加到哈希表中。其中referers为空的时候必须也要记录的，这点要特别注意了。这时的referers可以指定一个固定值，如： http://dummy.noreferer.org borwsers的处理：只关心浏览器的名字即可，这个名字在user-agent字段的第一个词。版本号为第二个词这两个之间是用 / 隔开的 agents 的处理：这个不是和上面的重复了吗？就是把全部内容记录下来吧。上面的只记录user-agent中的浏览器名字而已。 entries 是什么意思，即浏览此网站的referers是其他的网站的访问，此时的url 便是entries中的一个元素。 returnvisits: 这个现在应该是做不了的，需要和数据结合。其实这个功能应该是在显示的时候完成计算的吧。而不是在这个统计模块中实现的。因为这个模块关心的一小段时间内的站点访问情况。 locations : 在模块中调用取远程客户端地址的函数，得到IP地址，再转为城市名称即可。这个不需要统计URL传递。 pageviews: 这个是不是和pages 一个意思的，重复信息了吧。 searchengines: 这个搜索引擎指的是发出这个请求的客户端，如果这个请求客户端是一些已知的搜索引擎蜘蛛程序，则统计在这里面了。这里面的数据应该是 browsers 哈希表中的一个子集了，是否需要呢。 keywords : 这个表存储的是由搜索引擎引导过来的，可以从引用中取到搜索引擎中的关键词，由于每个搜索引擎的关键词参数名不一样，所以还得针对每种搜索引擎做特殊处理。这个就是维护一个搜索引擎查询URL格式了，另一种方法是记录下这个来自搜索引擎的referer，这样在显示关键词的时候，可以直接显示这个引用URL，可以再次浏览这个搜索引擎页面了。如果使用后者，那么这个哈希表还要变了。关于UV：访问者个数，在用户访问此站点时如果不带我们统计所给的cookie 则认为是一个新访问者. 关于 cookie有效存活时间，有等讨论。这个cookie可以在嵌入站点中的URL中写入，并作为一个统计URL的参数传入到统计的server中。统计模块导出数据的时间记录问题：为了让这个时间准确一点，导出的时间字段有两个，1 是统计结束计时时间，2 是统计入库时间，前面一个字段是由统计模块维护并在导出时传出来的，这样的时间更精确一些，这两个时间有点间隔，正常情况下不会间隔太长，10秒以内，是不是需要这个字段呢。在发生异常时有用,这时我们把数据导到一个临时文件，就没有入库时间了。所以还是带着吧。我遇到过cnzz的统计显示出来的那几个字是编码的时候。这个地方要注意了，指定输出的编码类型。跳出页面：访问时长(页面停留时间：访问深度：网络位置：网络速度：最近访客：统计数据定时导出详细步骤: 数据库结构：测试：编写脚本程序，生成一些随机数据，测试此统计模块的运行情况。以上就是本篇文章【网站访问统计模块研究】的全部内容了，欢迎阅览！文章地址：http://sjzytwl.xhstdz.com/quote/724.html
行业资讯企业新闻行情企业黄页同类资讯网站地图返回首页物流园资讯移动站 http://mip.xhstdz.com/ , 查看更多