求一个简单的网页源代码

如题所述

<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
<html xmlns="http://www.w3.org/1999/xhtml">
<head>
<!--要加载css和JS,不过我忘了-->
</head>
<html>
<body>
<!--里面要写DIV、ul、li什么的,不过我懒得写。-->

</body>
</html>
要多简单。这样简单行么。
温馨提示:答案为网友推荐,仅供参考
第1个回答  2013-04-22
heritrix抓取网页
网页解析的有很多就不说了,不过最好自己写
lucene索引

首先爬虫是需要一个处理器链的,网页的抓取并非几十行代码就能实现的,因为有很多问题出
现。
1.获取网页:判断网页编码,计算网页正文位置,获取页面内url(url的过滤、缓存、存储这部分还需要线程池的优化),url的分配、及线程池的启动。
2.网页持久化。网页解析,网页中样式表、图片等下载以及网页的保存(xml和html)网页快照的生成。
3.网页的消重去噪:去掉没用的网页,如果是垂直搜索引擎则需要更多的判断,可以利用内容模板和空间向量的算法实现。
4.索引的建立及优化,主要是简历倒排索引。

你的分类基本上可以用内容模板和空间向量计算实现。

还有其他很多东西,一时间不能说细了。你想做到什么程度。(比如:空间向量的算法及结果的参考值、网页内容模板的建立。)
第2个回答  2013-04-22
<html>
<head>
<title>这是一个静态网页</title>
</head>
<body>
在此处添加你所加的内容~
</body>
</html>

此处的标签是成对出现的。是cantainer tag.例:<body></body>在后面我们会学到empty tag,例:<input />、<hr />、<link />、<img />、<frame />,这是两种不同的标签。
css层叠样式单,xml等
第3个回答  2013-04-22
后缀名改为.html
<html>
<head>
<title></title> .......##此为标题部分
</head>
<style></style>.......##此为css样式表部分
<body></body>.......##
</html>
这就是一个很简单的网页代码啦~嘿嘿
第4个回答  2013-04-22
打开记事本,
然后输入
“我是SB”
然后另存为XX.hmtl文件。就行了。