C# 正则获取网页内容, 抓取html源代码里的 title

C# 正则获取网页内容, 抓取html源代码里的 title

using System.Text.RegularExpressions;

        static void Main(string[] args)
        {
            // 注意文本编码, 建议选择utf-8格式编码, 要不容易出现乱码
            string content = System.IO.File.ReadAllText("html源代码.txt");

            // 建立正则匹配, 抓取html源代码里的title
            string titleReg = "(?<=<title>)(.*?)(?=</title>)";
            string title = "";
            try
            {
                // 正则匹配
                Match m = Regex.Match(content, titleReg);
                if (m.Success)
                {
                    title = m.Value;
                }
                Console.WriteLine(title);
            }
            catch (Exception ex)
            {
                Console.WriteLine(ex.Message);
            }
            Console.Read();
        }


“html源代码.txt”示例内容

<!DOCTYPE html>

<html>
<head>
    <title>标题</title>
</head>

<body>
内容
</body>
</html>



作者最新文章
C# 使用 CSVHelper 操作 csv 文件, .net core, .net framework 读取写入 csv 文件
C# 实现字符串文本换行的方法,文本如何换行
C# 如何循环读取文件每一行文本内容
C# DateTime AddMonths 的错误用法导致跳过日期
C# 全角转换半角,半角转换为全角