1.1访问日志
说到网站统计的数据仓库,肯定有很多人把访问日志拿来充数。
1.1.1优点
数据完整,每个访问都不放过;
记录简单,web服务器自己都带了,不用另外实现
1.1.2缺点
数据没有关联
纯文本的东西当然没有数据关联
没有行为记录
通过日志,很多东西是统计不到的,几乎所有的行为数据都统计不到,比如鼠标点击,页面加载时间等等。
相对来说,嵌入脚本的统计,虽然会丢一部分数据,但统计到的数据价值更大。两者结合使用才是最有效的统计方式。
没有cookie记录,难以准确区分访问者
通过日志分析访问者,只能通过ip+客户端信息进行身份识别,如果两个人用同一个ip,同样的机器配置,就区分不出来。
冗余太大,占用空间太大
比如一个访问者的客户端信息,每条记录都写
实际上只要记录访问的第一条就行了,甚至只要把客户端信息做个列表,hash关联一下就可以。
类似的还有ip、网址、来源等等,几乎所有的统计项,都有冗余;时间记录也可以用时间戳,并且用二进制存储。
浪费了多少空间?压缩一下再对比就知道了。几十倍应该是有的。
挖掘效率低
做过日志分析的人都知道,记录日志简单,分析日志是件麻烦事,程序写得好,上千万的数据也得跑个把小时,写的不好,跑上一天都有可能。
而且针对不同的需求得写不同的分析工具,如果工具整合不好,每个需求跑一遍,不知道跑到什么时候。
行为分析的需求是可以无限细分的,所以不可能有一个完美的针对日志的分析工具,能把所有的需求都分析出来。这也正是建立完整数据仓库的价值。
没法实时判断
按照上面说的速度,怎么实现实时判断?
不需要实时判断?那要看做什么,广告精准投放的终极就是精准到每个访问者,必须实时分析出有价值数据。
google收购urchin收购doubleclick,就是干这个的。
1.2awstats.和类51.la的统计系统统计结果类似数据缺乏关联
awstats是比较著名的开源日志分析工具,51.la是国内著名的第三方嵌入式统计工具,就以他俩为代表了。
其实他们两个做到的功能差不多,51.la强一点,统计指标更多,但是他俩都没有数据仓库,都是直接分析和保留结果,更深入的分析需求就无法实现了。
比如,我要分析来自北京,从百度搜索“汽车”这个关键词的用户的相关访问数据,他们都实现不了。
1.3目前免费的拥有完整数据仓库的统计系统:googleanalytics
我见过的免费的只有这一个,不代表没有其他的,yahoo收购的那个IndexTools从功能上看,不亚于googleanalytics。
1.3.1优点
功能比较完整
这个没什么可说的了,毕竟是专业统计系统做了好多年的。
数据完整
数据完整确实不是盖的,比如趋势这个东西,它能实现几乎所有细分指标的趋势。
就拿关键词来说,一个网站有10000个关键词很正常,搜索引擎有5个很正常,它可以统计到某个搜索引擎的某个关键词的任意时段的趋势,如果你懂数据库,稍微分析一下,就可以知道这个数据库不好建,就算不用数据库建,存储量也是大的惊人。
1.3.2缺点
挖掘的不够
虽然ga建了完整的数据仓库,但是数据挖掘的很不够,关联仅仅做到了两个相关指标。两个以上指标,或者两个无关指标的关联没有实现。
比如上面说的这个来自北京,从百度搜索“汽车”这个关键词的用户的相关访问数据。通过ga的后台得不到,也没法自己补充实现。
缺少行为分析
ga本身并没有实现行为统计,这可能要归咎于urchin,后来加上了网站覆盖图,但这个功能只是个外挂,并没有跟其他的统计数据建立关联,数据挖掘无从谈起。
ga也提供了urchinTracker()接口实现自定义的行为统计,但是就像上面说的,统计出来的数据没有建立关联,也就是没有进入数据仓库,意义不大,仅仅满足一下好奇心罢了。
操作复杂
ga的操作复杂是一直为人们所诟病的。做了这么久的开发,我的体会是,功能本身的技术实现不是最难的,难点在于怎么把功能良好的呈现给用户,也就是用户体验的东西。
行为统计本身的一个应用就是优化用户体验,自己都没做好,怎么帮别人优化?
当然,对于一般用户来说,ga已经非常奢侈了,我一直觉得google是个恶霸,仗着财大气粗,恶意拼价格,把市场搅的一团糟,小公司被扼杀,统计、邮箱、网络办公,都是这种局面。所谓的不作恶,只不过是忽悠普通用户的噱头罢了。
天下没有免费的午餐,要用真正的商业统计,个性化统计,还是要付费的。
1.4统计系统的价值延伸
关于统计的价值,我想大家都有自己的看法,我就班门弄斧说下我知道的
我始终认为,商业统计市场是因为电子商务的需求建立的,这也是为什么国内没有专业统计公司的原因。
1.4.1统计领域
行为分析
行为分析,我知道的有这么几种:
点击统计,统计形式可以是热图或者点击覆盖图,目的就是通过最直观的形式反映用户点击,优化网页设计
鼠标轨迹统计,统计到鼠标的移动轨迹,还有浏览器的滚动轨迹,这个功能的数据量太恐怖,而且泛泛的鼠标轨迹记录,很难进行有效分析
form表单统计,这个可以算是鼠标轨迹统计的一个细分,但是目的明确的多,就是根据用户填写表单的行为,分析表单设计的合理性。
针对不同的需求,可以设计出各种各样的行为统计模型,如果没有一个好的数据仓库,会陷于不断设计模型,不断整理数据的过程中。有一个好的数据仓库,就可以在完整记录的基础上,轻松实现不同需求的数据挖掘。目前看到的这些行为统计系统,似乎还没有哪个实现了完整数据仓库。
访问数据
这个不多说了,ga是最好的代表。
做网站的,尤其是商业网站都需要这个。
1.4.2广告领域
googleadcenter
前些日子出来的googleadcenter就是最好的代表了
从这个产品上看,google在广告领域已经远远领先于国内同行。
我自己是做统计系统的,做了两年了,产品还没出来,当初想法很简单,做下去才发现水深得很。
国内大公司都在做统计,百度在做,yahoo在做,但是统计的人才他们实在没有,百度统计似乎实现了比较完整的数据仓库,有点像ga,但是离成熟还有段距离;yahoo那个统计基本上是个玩具,属于高不成低不就的。这也是为什么google自己不开发统计,却要花钱收购的原因。
我现在基本实现了数据仓库,并且是包含行为在内的数据仓库;实现了一定的数据挖掘,性别、年龄、收入这些人口学指标的统计,所以,理论上实现googleadcenter的功能已经不是难事。
现在卡在界面上,也就是上面我说的,技术问题好解决,用户体验让人头大,而且在web上实现软件界面,就更麻烦。
产品暂时就不公布了,我不是来写软文的,就是想分享一下自己的想法,一直闭门造车不是好事,希望能与统计方面的同仁交流一下,请多指教,我的msn:davidnick小老鼠126.com;gtalk:david.iyi小老鼠gmail.com。更希望志同道合者能够加入进来一起创业!
说到网站统计的数据仓库,肯定有很多人把访问日志拿来充数。
1.1.1优点
数据完整,每个访问都不放过;
记录简单,web服务器自己都带了,不用另外实现
1.1.2缺点
数据没有关联
纯文本的东西当然没有数据关联
没有行为记录
通过日志,很多东西是统计不到的,几乎所有的行为数据都统计不到,比如鼠标点击,页面加载时间等等。
相对来说,嵌入脚本的统计,虽然会丢一部分数据,但统计到的数据价值更大。两者结合使用才是最有效的统计方式。
没有cookie记录,难以准确区分访问者
通过日志分析访问者,只能通过ip+客户端信息进行身份识别,如果两个人用同一个ip,同样的机器配置,就区分不出来。
冗余太大,占用空间太大
比如一个访问者的客户端信息,每条记录都写
实际上只要记录访问的第一条就行了,甚至只要把客户端信息做个列表,hash关联一下就可以。
类似的还有ip、网址、来源等等,几乎所有的统计项,都有冗余;时间记录也可以用时间戳,并且用二进制存储。
浪费了多少空间?压缩一下再对比就知道了。几十倍应该是有的。
挖掘效率低
做过日志分析的人都知道,记录日志简单,分析日志是件麻烦事,程序写得好,上千万的数据也得跑个把小时,写的不好,跑上一天都有可能。
而且针对不同的需求得写不同的分析工具,如果工具整合不好,每个需求跑一遍,不知道跑到什么时候。
行为分析的需求是可以无限细分的,所以不可能有一个完美的针对日志的分析工具,能把所有的需求都分析出来。这也正是建立完整数据仓库的价值。
没法实时判断
按照上面说的速度,怎么实现实时判断?
不需要实时判断?那要看做什么,广告精准投放的终极就是精准到每个访问者,必须实时分析出有价值数据。
google收购urchin收购doubleclick,就是干这个的。
1.2awstats.和类51.la的统计系统统计结果类似数据缺乏关联
awstats是比较著名的开源日志分析工具,51.la是国内著名的第三方嵌入式统计工具,就以他俩为代表了。
其实他们两个做到的功能差不多,51.la强一点,统计指标更多,但是他俩都没有数据仓库,都是直接分析和保留结果,更深入的分析需求就无法实现了。
比如,我要分析来自北京,从百度搜索“汽车”这个关键词的用户的相关访问数据,他们都实现不了。
1.3目前免费的拥有完整数据仓库的统计系统:googleanalytics
我见过的免费的只有这一个,不代表没有其他的,yahoo收购的那个IndexTools从功能上看,不亚于googleanalytics。
1.3.1优点
功能比较完整
这个没什么可说的了,毕竟是专业统计系统做了好多年的。
数据完整
数据完整确实不是盖的,比如趋势这个东西,它能实现几乎所有细分指标的趋势。
就拿关键词来说,一个网站有10000个关键词很正常,搜索引擎有5个很正常,它可以统计到某个搜索引擎的某个关键词的任意时段的趋势,如果你懂数据库,稍微分析一下,就可以知道这个数据库不好建,就算不用数据库建,存储量也是大的惊人。
1.3.2缺点
挖掘的不够
虽然ga建了完整的数据仓库,但是数据挖掘的很不够,关联仅仅做到了两个相关指标。两个以上指标,或者两个无关指标的关联没有实现。
比如上面说的这个来自北京,从百度搜索“汽车”这个关键词的用户的相关访问数据。通过ga的后台得不到,也没法自己补充实现。
缺少行为分析
ga本身并没有实现行为统计,这可能要归咎于urchin,后来加上了网站覆盖图,但这个功能只是个外挂,并没有跟其他的统计数据建立关联,数据挖掘无从谈起。
ga也提供了urchinTracker()接口实现自定义的行为统计,但是就像上面说的,统计出来的数据没有建立关联,也就是没有进入数据仓库,意义不大,仅仅满足一下好奇心罢了。
操作复杂
ga的操作复杂是一直为人们所诟病的。做了这么久的开发,我的体会是,功能本身的技术实现不是最难的,难点在于怎么把功能良好的呈现给用户,也就是用户体验的东西。
行为统计本身的一个应用就是优化用户体验,自己都没做好,怎么帮别人优化?
当然,对于一般用户来说,ga已经非常奢侈了,我一直觉得google是个恶霸,仗着财大气粗,恶意拼价格,把市场搅的一团糟,小公司被扼杀,统计、邮箱、网络办公,都是这种局面。所谓的不作恶,只不过是忽悠普通用户的噱头罢了。
天下没有免费的午餐,要用真正的商业统计,个性化统计,还是要付费的。
1.4统计系统的价值延伸
关于统计的价值,我想大家都有自己的看法,我就班门弄斧说下我知道的
我始终认为,商业统计市场是因为电子商务的需求建立的,这也是为什么国内没有专业统计公司的原因。
1.4.1统计领域
行为分析
行为分析,我知道的有这么几种:
点击统计,统计形式可以是热图或者点击覆盖图,目的就是通过最直观的形式反映用户点击,优化网页设计
鼠标轨迹统计,统计到鼠标的移动轨迹,还有浏览器的滚动轨迹,这个功能的数据量太恐怖,而且泛泛的鼠标轨迹记录,很难进行有效分析
form表单统计,这个可以算是鼠标轨迹统计的一个细分,但是目的明确的多,就是根据用户填写表单的行为,分析表单设计的合理性。
针对不同的需求,可以设计出各种各样的行为统计模型,如果没有一个好的数据仓库,会陷于不断设计模型,不断整理数据的过程中。有一个好的数据仓库,就可以在完整记录的基础上,轻松实现不同需求的数据挖掘。目前看到的这些行为统计系统,似乎还没有哪个实现了完整数据仓库。
访问数据
这个不多说了,ga是最好的代表。
做网站的,尤其是商业网站都需要这个。
1.4.2广告领域
googleadcenter
前些日子出来的googleadcenter就是最好的代表了
从这个产品上看,google在广告领域已经远远领先于国内同行。
我自己是做统计系统的,做了两年了,产品还没出来,当初想法很简单,做下去才发现水深得很。
国内大公司都在做统计,百度在做,yahoo在做,但是统计的人才他们实在没有,百度统计似乎实现了比较完整的数据仓库,有点像ga,但是离成熟还有段距离;yahoo那个统计基本上是个玩具,属于高不成低不就的。这也是为什么google自己不开发统计,却要花钱收购的原因。
我现在基本实现了数据仓库,并且是包含行为在内的数据仓库;实现了一定的数据挖掘,性别、年龄、收入这些人口学指标的统计,所以,理论上实现googleadcenter的功能已经不是难事。
现在卡在界面上,也就是上面我说的,技术问题好解决,用户体验让人头大,而且在web上实现软件界面,就更麻烦。
产品暂时就不公布了,我不是来写软文的,就是想分享一下自己的想法,一直闭门造车不是好事,希望能与统计方面的同仁交流一下,请多指教,我的msn:davidnick小老鼠126.com;gtalk:david.iyi小老鼠gmail.com。更希望志同道合者能够加入进来一起创业!
上一篇:大学生网上创业的机会与风险分析
下一篇:电子商务引起的渠道冲突及其管理研究