Linux

sedでhtmlのタグを除去する

文字列の置換に sed はよく利用していますが、複雑な正規表現が少し苦手です。

今回は html のタグを除去する正規表現を試してみました。

htmlが書かれたファイル

以下のリンクタグの html が書かれたテキストファイル hoge.txt を例とします。

htmlタグの除去

ここから a タグを除去して、リンク名のみを抽出します。

最初は、<.*> でやっていましたが、これだとリンクタグで挟んでいる文字列も除去されてしまったので考え直してみました。