文字列の置換に sed はよく利用していますが、複雑な正規表現が少し苦手です。
今回は html のタグを除去する正規表現を試してみました。
htmlが書かれたファイル
以下のリンクタグの html が書かれたテキストファイル hoge.txt を例とします。
1 | <a href="https://www.saratoga.jp/">https://www.saratoga.jp/</a> |
htmlタグの除去
ここから a タグを除去して、リンク名のみを抽出します。
1 2 | $ cat hoge.txt | sed -e 's/<[^>]*>//g' https://www.saratoga.jp/ |
最初は、<.*> でやっていましたが、これだとリンクタグで挟んでいる文字列も除去されてしまったので考え直してみました。