自动采集站,也可以做得很出色
好了,言归正传,今天要介绍的站点就是一个自动采集站:玩聚SD。初看这个名字可能有点摸不着头脑,据我的理解,玩就是玩的意思;聚就是聚合的意思,这里应当是指RSS聚合;SD在网站上有解释,是Social Dialogue(社会性对话)的意思。放在一起就是“玩转社会性对话的RSS聚合”(这个短句有两种断法,意思倒是都挺合适的。)
我在Web 2.0时代该怎么上网这篇文章中提到过,Web 2.0时代,由于创造、发布信息几乎达到了零成本,信息源爆炸性增加,必然导致信息的检索、分类、过滤等技术的大幅提高。而玩聚SD,就是对互联网分散的信息源进行整合的一个良好示例。
玩聚SD由互联网业内名人郑昀创立,其运作机制说起来也没多复杂,大家可以看看郑昀自己的说法。要我来总结一下的话,这个网站定时抓取一些互联网业内blog的RSS,发布在相应的作者页面上,然后对每篇文章的backlink(trackback)进行分析,把回链到这篇文章的其它文章根据时间顺序逐篇加在下面,形成一个类似bbs讨论的形式,也就是玩聚SD所提出的“社会性对话”概念。据称除了分析回链以外,还会进行语义分析。根据trackback连在一起的叫讨论,根据语义分析连在一起的叫对话。郑昀在本文的评论中对语义分析作了一些阐述,请读者查看。
IT, 互联网从业人士这个圈子应该说是比较小众的,但知名博客数量不少,而且彼此相熟。对于互联网上出现的热点话题,经常会出现全民大讨论的现象。虽然我们有Feed reader,分别读基本不费劲,不过想把同一话题下的文章放在一起参考阅读的话,玩聚SD的便捷性就显示无遗了。而这也是郑昀做这个网站的初衷。把同一话题的blog文章集中在一起,既便于阅读,也避免遗漏。在我看来,这是一个非常有创意的idea,非常的2.0。(电子商务博客认为这是Web 3.0,我觉得Web 3.0本身还定义不清,而且对信息的整合应当还属于2.0范畴。)
本质上属于自动采集站的玩聚SD,为何能带给用户价值。我能想到三个原因:
- 控制信息源。虽然文章是自动采集的,但采集文章的源站点是人工添加的,我不知道是否需要手工审核,按道理应该是要的。控制了信息的来源,把标准提高,就能保证信息的质量,而信息的质量是价值的前提。
- 利用Trackback。在第一点的前提下,由于大部分文章是高质量的原创,原作者在加入Trackback的时候当是深思熟虑过的,必然能保证文章的相关性。每个Trackback都包含了人工信息。玩聚SD利用Trackback中包含的相关性信息组成讨论串,是一种很高明的行为,表面上是自动采集,实际上是利用了文章作者的手工指向信息。
- 信息形式重组。搜索引擎本身并不提供任何信息,但它重组了外界信息的形式。玩聚SD所做的也一样,把外界信息重新组织,以更有关联的形式重现出来,其意义也与搜索引擎相似。
玩聚SD上线时间还不长,我也没有太深入的去挖掘,眼下感觉有几点也许需要注意一下:
- 用户界面。目前显得比较杂乱,主题不突出。自动采集站的通病。
- 用户只能单方面阅读,无法参与,另一个自动采集站的通病。
- 用户无法控制自己的blog。
- 版权问题,也许并非每一个blog作者都喜欢自己的文章被采集。
- 规避搜索引擎惩罚。自动采集站由于大量的非原创内容,有可能被搜索引擎认为是垃圾站,关于这一点眼下没有问题,不过谁也不知道搜索引擎的脾气。
总而言之,言而总之,玩聚SD是个很有创意的IT、互联网业内blog聚合站点。是一个做得很出色的自动采集站。我还想到一个问题,如果这个网站越做影响力越大,也许有那么一天,大家会为了出现在那里上而故意地去讨论热点,去Trackback别的blog上的文章,这样就有点不大好了,呵呵。
玩聚SD的访问地址:http://it.ju690.com/

“以“语义分析”现在的水平,也就是抓关键字而已”。
并不完全是这样。
对于判断两篇文章是否讲述的是同一件事情,业界最简单的做法就是自动从文章提取标签(Tag),然后对两篇文章的标签进行对比,以此判断是否文章相似。很多新闻门户的新闻下面列出相似新闻大致是这么做的。
但,我们不是这么做的。
呵呵,我写的Web 3.0实际上是玩聚网自己的介绍
关于Web 3.0,业界还没有一个比较统一的概念,抱歉,没有认真思考就写上去了。
自然不是手工,:D
语义分析,或者说自然语言处理,归根结底,就是分词、词性标注、语法分析。其余语义算法都是在此基础之上的展开。如分类、聚类、文本相似性计算、情感计算等等。
那么,自动提取Tag仅仅是万里长征的第一步,也是做很多事情的基础。
确实,玩聚SD在做虚拟对话的相似性计算时,其中有一步就是提取标签。但这只是刚刚开始。
打个比方,提取标签和标签之间对比,就像是1+1=2一样是一年级的功课。而提取标签、建立数以万计乃至十万计文章的大特征集、形成特征向量空间、进行文本相似性计算,则是2的平方这种六年级功课,难度系数不可同日而语。
都好专业啊~~我还没到这个层次~~~
至于智能语义,我可以说两句。
我们提出了一个“智能语义应用框架”的概念,并且在玩聚和宝聚上成功实施到了两个垂直领域。
如果说分类+提取标签+文本相似性计算,只是语义的小规模应用,还谈不上智能。
那么,宝聚-股市风向标( http://stock.ju690.com/ )这个应用就加入了情感计算+语法分析,能够尽可能地逼近人类学习。
举一个例子,人类看到一篇股评,就会立刻看出这篇文章对哪一只股票做出了看多还是看空的判断,以及是短线还是长线的预期。如果人类看了一个股吧里的数十篇文章和和讯关于这个股票的诸多分析,就会大致有一个印象:市场上对这只股票多空势力各为多少,多少专家推荐持有,多少专家推荐卖出。
那么,机器能办到吗?
我们的答案是:可以。实时的、自动汇总的、随时随刻都有饼图曲线图的,掌控国内各大股票论坛、博客门户和证券专家。
不过,饶是如此,究竟智能语义能够达到什么程度,也是一个未知数。
国内外都有很多势力在努力中。
其中一个方向是Semantic Web,但这只是一个方向罢了,未必成功,也未必实用。
大家都还在探索中。
我们也还在探索中。
对了,SD也不是RSS聚合。因为某些信息源我们并不是用RSS采集的,而是HTML爬虫。反正只要是优质的信息源来的文章就可以了,不用管是不是RSS。用户不需要知道这一点。
呵呵,井底之蛙了一回
照搬人家的网站,有版权麻烦没?
我一直认为tag作为web 2.0的典型应用,是否考虑加入tag进行关联。
因此很好奇你们是利用什么进行关联的
我也很好奇,呵呵,难道是手工?
说不定以后的3.0定义就是这样的,智能语义肯定会得到广泛应用,我也没有怎么关注过这方面的研究进展情况,说不定已经有很牛的分析系统出来了…
看来我对智能语义的理解还停留在一年级阶段,呵呵,井底之蛙了一回
(*^__^*) 嘻嘻…… 我想知道 什么是htmll爬虫啊?解释下 我也学习学习 嘿嘿 谢谢啊
html爬虫这里的意思就是说,一个程序,它会自动浏览你的网页(html代码),然后把浏览过的信息自动记录并发布出来。