星期四 四月 17, 2008

微格式(Microformats)是注入到Web页面中的小段信息,通过语意相关让信息块内容人机可读。微格式的采用可以帮助机器搜集、理解和处理Web页面所包含的内容。

在Web页面上,允许的微格式数据包括事件、人物、地点等各种信息。这些微格式内容可被其他应用检测到,并提取其中相应信息,进而对信息进行索引、搜索或把信息以其他形式重用或组合。

从技术上看,微格式表示的数据是一些语义标记,用标准的(X)HTML的形式表示。微格式尝试将常用元素的语义进行标准化,随之衍生了一系列新的表示方式,比如针对事件描述的hCalendar (源自于iCalendar 格式),针对个人和商务信息的hCard (源自于vcard 格式),以及针对新闻的存储格式hAtom (源自于atom 联合格式)等等。

对于加入微格式的页面,可以在Firefox 浏览器中加入Operator 插件,来查看页面中附带的微格式信息内容。在Operator插件的辅助下可以查看hCard,hCalendar,geo等不同类型的微格式内容,并且可以方便的将内容导出到Google日历或Yahoo!日历等Web 应用中,实现站点内容的输出。

Ruby语言实现的类库Mofo可以实现微格式解译,帮助开发者将HTML代码中的hCalendar事件或hCard等用户信息解析并展示出来。

在页面中加入微格式的同时,也增加了Web 文档的语义。微格式不直接影响浏览器渲染文档的方式,并可以使Web文档更加具有智能特性,正在逐步被越来越多的开发者所关注。

与此同时,微格式对于搜索引擎SEO 有着很高的价值,容易使站点对外暴露的数据轻松的纳入到搜索引擎的索引中,便于站点提供的信息在互联网上传播。

星期四 四月 03, 2008

SQL Multimedia是结构化查询语言SQL针对多媒体应用的规范,SQL/MM国际标准主要包含全文检索(Full-Text)、空间拓展(Spatial)、静态图像(Still Image)和数据挖掘(Data Mining)等针对不同领域的内容。标准在这四个领域定义新的结构化查询类,使得这Multimedia方面的SQL查询效率大幅提高,并使基于SQL/MM的查询更加规范、兼容性好且易于管理。

SQL/MM中针对于地理信息的查询拓展是Spatial部分,Spatial拓展方便了存储、管理、检索各类空间数据类型的操作。在几何操作、方位坐标、拓扑关系方面都通过了强有力的支持。参与查询的空间参数,需要定义在相同的空间参考系中,但未来的空间标准版本将会放松这个限制。

目前SQL/MM提供的空间数据类型支持包括点、线、面等二维空间数据,以及部分三维拓展功能和不同空间参考坐标系的支持。在SQL/MM定义的Spatial类层次中,ST-Geometry是通用的父类,其各种子类可以被实例化来进行查询操作。如ST-Point、ST-Curve、ST-MultiPolygon等子应用于不同操作的子类。在具体表结构定义中,表示空间地物位置的LOCATION字段即可以被定义为ST_GEOMETRY类型。在空间数据操作方面,通用的操作包括点和直线关系、线与线关系、线与面关系的确定,如从几条线确定一个多边形,或检测直线是否与曲线相切等操作。随着SQL标准的不断发展,将会为更多领域提供结构化查询的支持。譬如在SQL 2007新的ISO标准之中,已经添加进来XQuery、SQL/XML和Semantic Web语义网方面的内容。

SQL/MM提供的空间拓展、数据挖掘、智能化全文数据库等内容的研究和应用,已逐步受到业界更多的关注,如果想了解更多相关的信息,可以在Whitemarsh信息系统公司提供的资料链接中查看更多,包括SQL99、SQL2003、XSQL、SQL/MM等各方面的内容都可以在这里找到。

星期三 三月 12, 2008

最近读到CMU教授Manuel Blum在给研究起步者的忠告一文中写到的内容,有些话语很有感触,摘录出来放在下面。

  1. 阅读:阅读的同时,用笔写下所读的内容,特别是在面对一些晦涩材料的情况下。
  2. 学习:写作和记录有助于提高你的能力和记忆力。
  3. 思考:遇到困难,自己完全有能力给自己找到解决问题的途径。理论束缚人的思想,实践解放人的思想。
  4. 方法:拿小的例子做实验,或者将问题放在一个假定的解决方案之中。
  5. 态度:无论你做什么,你得喜欢做它,以至于你可以在无人跟进的很长一段时间里,独立思考并研究它。
  6. 知识:应该对任何东西有所了解,并对某个东西彻底了解。
  7. 研究:专注于可以狭小到可以彻底理解的题目,然后坚持下去,就会越来越意识到,研究题目实际上已经包罗万象。
  8. 答案:往往我们不会得到预期的答案,答案可能是肯定或否定之外的其他东西。
  9. 困难:我们很难预料问题的答案。有时可能会被问题拖着,走向另外一个无法预料但正确的方向上。
  10. 盲点:所有人眼中都有盲点,但也会帮助塑造我们的智力和思维。
  11. 写作:首先要有东西可说,其次把它说出来,第三说完即止,最后拟一个正确的题目。
  12. 导师:并非所有导师都能阅读并读懂你的论文,但要保证同行可以读懂你的论文。

注:Blum教授是理论计算机学大师,同时也是美国国家科学院(National Academy of Sciences)成员,同时感谢东北大学郝宪文的翻译提供参考。

星期二 三月 11, 2008

Globus项目发布了最新的4.0.6版本,在安全性、数据管理、处理过程执行方面有了不少改进。最近决定在Ubuntu 7.10平台上安装Globus 4.0.6,过程比预计的要顺利一些。Globus安装的流程和步骤,基本按照QuickStart教程中进行,还有一份不错的排错指南也帮了不少忙。

由于通过源代码Build来进行安装的方式出错可能性较大,于是直接使用了Debian Sarge的安装包。值得注意的是,在安装过程中,需要启用Ubuntu的root用户,这样方便使用Globus的CA安全认证机制对用户提交的pem请求进行签名。还有,最好把Globus_Location写到环境变量里面,这样不用在每次启动命令行时用export命令导入。

在启动Globus Container之前,需要使得用户通过Globus的CA安全签名,否则会提示认证错误。容器的启动,也没有使用指南中的shell脚本,而直接通过Globus目录中的globus-strat-container命令启动,之后得到在Globus默认的8443端口启动的WSRF服务实例。

下面的实验还要慢慢做,初步的设想是:将写好的空间分析算法以WPS服务的形式从Tomcat迁移到Globus Container中发布,供基于uDig项目具备WPS插件的客户端调用。使用OGSA-DAI将异构数据源提供的矢量数据集成,在GeoServer中以WFS的方式发布,最好GeoServer也迁移到Globus Container中。uDig客户端加载WFS源数据,之后再调用网格容器中的WPS操作进行数据处理。

顺便提一下,OGC刚刚正式通过WPS成为Web处理服务的标准之一,脱离了之前Proposal的状态,看来符合WPS标准的服务处理以后应该会有不错的发展。

星期一 三月 10, 2008

网格服务的标准由WS-Resource Framework (WSRF) 过渡到了WS-ResourceTransfer (WS-RT) 框架,WSRT在WS-Transfer的基础之上,增加了WSRF标准与WS-Management标准的特性,以便在不同组件之间方便的交换资源信息。

网格为异构资源提供了在结构化的、受管的系统中进行通信和互操作的能力。在网格计算环境下,状态信息的保存十分重要。在Globus体系中,分布式异构计算环境的Grid Service在Web Service的基础上进行扩展,将状态信息加入到无状态的服务之中,并提供构建有状态Web服务的API。

HTTP协议本身是无状态的,即服务器通过HTTP无法得知客户机是否已经关闭等状态信息。如果需要在资源传输中保持HTTP连接状态,需要由客户端保存的Cookie或服务端保存的Session来为HTTP记录用户的状态信息,再次与服务器取得连接时,就可以读取存放于HTTP响应头中的用户状态信息。

同样,一般的Web服务是不需要包含资源状态信息的。Web服务中,消息传递、服务描述、工作流描述、服务发现与集成四个部分都以松散耦合方式连接,服务交互由序列化XML进行描述。服务客户端在根据WSDL描述提交参数之后,一次调用在服务端执行的处理并得到返回结果,即可完成服务执行的整个过程。然而,WSRF协议为Web服务提供了有状态资源的管理方式,而WSRT则在WS-Transfer的基础上,增加了WSRF的WS-ResourcePropertiesWS-ResourceLifetime两个组件的功能。

网格技术在分布、异构的资源基础上实现资源共享和协同工作,OGSA到WSRF再到WSRT,Globus采用可以保存资源状态信息的Web服务标准一直处在不间断的进化之中,为网格技术的实现提供有效的支撑环境。

This blog copyright 2009 by Gao Ang